苏州奥尔马电子科技有限公司
江苏省苏州市高新区金猫路9号B幢
丁经理
13584892482
13584892482
135848924828
如有移动端语音交互SDK,模组类产品和定制类需求,请联系:nls_support@service.aliyun.com
全链路灵活可定制的语音交互特性
支持按需选配快捷命令词、近场唤醒识别、远场唤醒等多种语音交互特性。
多平台低成本接入方案
支持Android/iOS/Linux/RTOS等多种移动端操作系统接入,接口简单易被集成。
端云一体保障效果体验
通过端+云联合技术方案,实现更低的误唤醒、更小的端侧计算功耗、更佳的端到端效果。
独创的业务场景自主优化能力
业内唯一一家提供自学习平台的系统,同时支持热词定制和模型定制,用户可根据业务需求上传相关数据,对特定场景做自主优化,最大限度的提升识别效果。
适用场景:端到端识别不仅能用于传统的语音识别场景,还可重点用于无网络、私密性、低延时的语音识别的应用场景——由于离线端到端直接在移动端进行识别,无需将语音上传到云端,因此为高隐私要求的场景使用语音识别提供了可行的方案,例如会议场景,法庭场景等,以及无网络的场景;同时对于瞬时高并发
请求的场景,如直播场景等,能够大幅降低云服务调用成本;
技术优势:占用空间小,可根据场景需求裁剪至小于40M;识别准确率可媲美当前纯云端;计算实时率低,中端手机配置上低于0.2。
设备端语音交互SDK
专门针对硬件设备优化,支持Linux系统和多种硬件平台。并包含以下模块:
音频信号处理模块(目前支持单麦,双麦):支持近/远场语音交互,实现噪声抑制,混响消除,波束形成,语音增强,声源定位,回声消除等功能。能最大限度的提升不同环境下语音交互的效果;
语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;
语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。
移动端语音交互SDK
专门针对IOS、Android等系统优化,针对移动平台提供语音唤醒,语音识别,语音合成等功能。包含以下模块:
音频信号处理模块(可选):专门针对移动设备优化,提供回声消除,语音增强等功能,改善移动端的语音交互效果;
语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;
语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。
Linux语音模组
针对智能家居、家电、音箱、公众场所自助设备等场景,提供高性能的语音交互方案:
四核A35,Linux操作系统;
支持2-8mic高性能前端处理算法,360度拾音;端云一体高性能语音唤醒;
支持低功耗待机语音唤醒;硬件VAD功耗控制,待机功耗60mW;
支持“主控模式” 和“下位机”模式,用法灵活;
包含设备端语音交互SDK的全部功能。
RTOS语音模组
针对家电,音箱,故事机等语音交互设备,提供高性能,低功耗的语音交互方案:
基于多核异构架构, RTOS操作系统;
支持高性能2-4mic前端处理算法,360度拾音;
端云一体语音唤醒,唤醒率达到95%以上;
支持低功耗待机语音唤醒,待机电流 <20mA;
支持“主控模式” 和“下位机”模式,用法灵活;
包含设备端语音交互SDK的全部功能。
多模态交互模组
针对公众场所噪音环境下需要语音交互的设备,例如地铁语音售票,语音售卖机,语音点餐机,语音问询机,语音自助服务机等:
支持2-8mic,强噪声声学环境下超高语音识别准确率,能精准隔离前后左右的声音干扰;
全本地机器视觉,无需联网实现人脸,人体、身份、行为等检测识别;
音视频融合信号处理,实现免唤醒,主动交互,视觉分析等功能;
包含设备端语音交互SDK的全部功能。
录音文件
对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。
语音合成
语音合成服务,通过先进的深度学习技术,将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交