联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

135848924828

首页天翼云产品正文

【阿里云】智能语音交互SDK授权

发布者：极豹云发布时间：2022-05-19访问量：313

针对类似故事机、音箱等各种语音交互设备，提供包括音频信号处理，打断唤醒，语音识别，语音合成等全链路语音交互能力。以SDK的方式集成，支持多种不同硬件平台。按照设备激活数量收费，收费更加灵活可控。

如有移动端语音交互SDK，模组类产品和定制类需求，请联系:nls_support@service.aliyun.com

产品优势

全链路灵活可定制的语音交互特性
支持按需选配快捷命令词、近场唤醒识别、远场唤醒等多种语音交互特性。

多平台低成本接入方案
支持Android/iOS/Linux/RTOS等多种移动端操作系统接入，接口简单易被集成。

端云一体保障效果体验
通过端+云联合技术方案，实现更低的误唤醒、更小的端侧计算功耗、更佳的端到端效果。

独创的业务场景自主优化能力
业内唯一一家提供自学习平台的系统，同时支持热词定制和模型定制，用户可根据业务需求上传相关数据，对特定场景做自主优化，最大限度的提升识别效果。

产品规格
端到端离线ASR
无网络场景下以及语音用户隐私成为当前热点，为了突破低资源和高精度的平衡难题，达摩院语音实验室结合声学、语言、后处理的融合建模技术，研发了流式端到端以及后处理标点一体化建模的方案。该方案的推出使得低资源、强隐私、高精度的纯离线语音识别应用场景成为可能。

适用场景：端到端识别不仅能用于传统的语音识别场景，还可重点用于无网络、私密性、低延时的语音识别的应用场景——由于离线端到端直接在移动端进行识别，无需将语音上传到云端，因此为高隐私要求的场景使用语音识别提供了可行的方案，例如会议场景，法庭场景等，以及无网络的场景；同时对于瞬时高并发

请求的场景，如直播场景等，能够大幅降低云服务调用成本；

技术优势：占用空间小，可根据场景需求裁剪至小于40M；识别准确率可媲美当前纯云端；计算实时率低，中端手机配置上低于0.2。

设备端语音交互SDK
专门针对硬件设备优化，支持Linux系统和多种硬件平台。并包含以下模块：
音频信号处理模块（目前支持单麦，双麦）：支持近/远场语音交互，实现噪声抑制，混响消除，波束形成，语音增强，声源定位，回声消除等功能。能最大限度的提升不同环境下语音交互的效果；

语音唤醒模块：支持快捷唤醒词，多命令词等功能，在各种噪音环境下都可以达到优秀的唤醒效果，提供公版唤醒词，唤醒词/快捷唤醒词定制服务；

语音识别模块：提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化，支持多种类型的声学模型和语言模型，并提供自学习平台支持深度的定制；语音合成模块（可选）：提供阿里巴巴达摩院自有的语音合成能力。提供不同语种，不同方言的合成能力，针对不同场景，有不同的发音人可供选择，满足用户的各种需求。另外还提供发音人定制服务。

移动端语音交互SDK
专门针对IOS、Android等系统优化，针对移动平台提供语音唤醒，语音识别，语音合成等功能。包含以下模块：
音频信号处理模块（可选）：专门针对移动设备优化，提供回声消除，语音增强等功能，改善移动端的语音交互效果；

语音唤醒模块：支持快捷唤醒词，多命令词等功能，在各种噪音环境下都可以达到优秀的唤醒效果，提供公版唤醒词，唤醒词/快捷唤醒词定制服务；

Linux语音模组
针对智能家居、家电、音箱、公众场所自助设备等场景，提供高性能的语音交互方案：
四核A35，Linux操作系统；
支持2-8mic高性能前端处理算法，360度拾音;端云一体高性能语音唤醒；
支持低功耗待机语音唤醒;硬件VAD功耗控制，待机功耗60mW；
支持“主控模式” 和“下位机”模式，用法灵活；
包含设备端语音交互SDK的全部功能。

RTOS语音模组
针对家电，音箱，故事机等语音交互设备，提供高性能，低功耗的语音交互方案：
基于多核异构架构, RTOS操作系统；
支持高性能2-4mic前端处理算法，360度拾音；
端云一体语音唤醒，唤醒率达到95%以上；
支持低功耗待机语音唤醒，待机电流 <20mA；
支持“主控模式” 和“下位机”模式，用法灵活；
包含设备端语音交互SDK的全部功能。

多模态交互模组
针对公众场所噪音环境下需要语音交互的设备，例如地铁语音售票，语音售卖机，语音点餐机，语音问询机，语音自助服务机等：
支持2-8mic，强噪声声学环境下超高语音识别准确率，能精准隔离前后左右的声音干扰；
全本地机器视觉，无需联网实现人脸，人体、身份、行为等检测识别；
音视频融合信号处理，实现免唤醒，主动交互，视觉分析等功能；
包含设备端语音交互SDK的全部功能。

适用场景
智能语音交互硬件
适用于类似故事机，音箱等语音交互产品，以及空调，台灯等自带语音功能的智能家居产品，通过SDK快速集成语音交互能力

语音交互APP
让iOS/安卓平台的手机APP获得通过集成SDK获得语音唤醒，语音识别，语音合成等“能听会说”的交互能力

更多产品与服务

录音文件
对用户上传的录音文件进行识别，上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。

实时语音识别
对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

一句话识别
对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等，可集成在各类App、智能家电、智能助手等产品中。

语音合成
语音合成服务，通过先进的深度学习技术，将文本转换成自然流畅的语音。目前有多种音色可供选择，并提供调节语速、语调、音量等功能。适用于智能客服、语音交

联系我们

首页 天翼云产品正文

【阿里云】智能语音交互SDK授权

首页天翼云产品正文