联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】SDK设备端授权License

发布者:极豹云发布时间:2022-05-19访问量:367
针对类似故事机、音箱等各种语音交互设备,提供包括音频信号处理,打断唤醒,语音识别,语音合成等全链路语音交互能力。以SDK的方式集成,支持多种不同硬件平台。按照设备激活数量收费,收费更加灵活可控。

如有移动端语音交互SDK,模组类产品和定制类需求,请联系:nls_support@service.aliyun.com


产品优势


全链路灵活可定制的语音交互特性
支持按需选配快捷命令词、近场唤醒识别、远场唤醒等多种语音交互特性。

多平台低成本接入方案
支持Android/iOS/Linux/RTOS等多种移动端操作系统接入,接口简单易被集成。

端云一体保障效果体验
通过端+云联合技术方案,实现更低的误唤醒、更小的端侧计算功耗、更佳的端到端效果。

独创的业务场景自主优化能力
业内唯一一家提供自学习平台的系统,同时支持热词定制和模型定制,用户可根据业务需求上传相关数据,对特定场景做自主优化,最大限度的提升识别效果。


产品规格
端到端离线ASR
无网络场景下以及语音用户隐私成为当前热点,为了突破低资源和高精度的平衡难题,达摩院语音实验室结合声学、语言、后处理的融合建模技术,研发了流式端到端以及后处理标点一体化建模的方案。该方案的推出使得低资源、强隐私、高精度的纯离线语音识别应用场景成为可能。


适用场景:端到端识别不仅能用于传统的语音识别场景,还可重点用于无网络、私密性、低延时的语音识别的应用场景——由于离线端到端直接在移动端进行识别,无需将语音上传到云端,因此为高隐私要求的场景使用语音识别提供了可行的方案,例如会议场景,法庭场景等,以及无网络的场景;同时对于瞬时高并发

请求的场景,如直播场景等,能够大幅降低云服务调用成本;


技术优势:占用空间小,可根据场景需求裁剪至小于40M;识别准确率可媲美当前纯云端;计算实时率低,中端手机配置上低于0.2。

设备端语音交互SDK
专门针对硬件设备优化,支持Linux系统和多种硬件平台。并包含以下模块:
音频信号处理模块(目前支持单麦,双麦):支持近/远场语音交互,实现噪声抑制,混响消除,波束形成,语音增强,声源定位,回声消除等功能。能最大限度的提升不同环境下语音交互的效果;


语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;


语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。

移动端语音交互SDK
专门针对IOS、Android等系统优化,针对移动平台提供语音唤醒,语音识别,语音合成等功能。包含以下模块:
音频信号处理模块(可选):专门针对移动设备优化,提供回声消除,语音增强等功能,改善移动端的语音交互效果;


语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;


语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。

Linux语音模组
针对智能家居、家电、音箱、公众场所自助设备等场景,提供高性能的语音交互方案:
四核A35,Linux操作系统;
支持2-8mic高性能前端处理算法,360度拾音;端云一体高性能语音唤醒;
支持低功耗待机语音唤醒;硬件VAD功耗控制,待机功耗60mW;
支持“主控模式” 和“下位机”模式,用法灵活;
包含设备端语音交互SDK的全部功能。

RTOS语音模组
针对家电,音箱,故事机等语音交互设备,提供高性能,低功耗的语音交互方案:
基于多核异构架构, RTOS操作系统;
支持高性能2-4mic前端处理算法,360度拾音;
端云一体语音唤醒,唤醒率达到95%以上;
支持低功耗待机语音唤醒,待机电流 <20mA;
支持“主控模式” 和“下位机”模式,用法灵活;
包含设备端语音交互SDK的全部功能。

多模态交互模组
针对公众场所噪音环境下需要语音交互的设备,例如地铁语音售票,语音售卖机,语音点餐机,语音问询机,语音自助服务机等:
支持2-8mic,强噪声声学环境下超高语音识别准确率,能精准隔离前后左右的声音干扰;
全本地机器视觉,无需联网实现人脸,人体、身份、行为等检测识别;
音视频融合信号处理,实现免唤醒,主动交互,视觉分析等功能;
包含设备端语音交互SDK的全部功能。


适用场景
智能语音交互硬件
适用于类似故事机,音箱等语音交互产品,以及空调,台灯等自带语音功能的智能家居产品,通过SDK快速集成语音交互能力

语音交互APP
让iOS/安卓平台的手机APP获得通过集成SDK获得语音唤醒,语音识别,语音合成等“能听会说”的交互能力


更多产品与服务


录音文件
对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。

实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。

语音合成
语音合成服务,通过先进的深度学习技术,将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交