联系我们

苏州奥尔马电子科技有限公司

江苏省苏州市高新区金猫路9号B幢

丁经理

13584892482

13584892482

135848924828

【阿里云】语音识别模型优化工具

发布者:极豹云发布时间:2022-05-19访问量:261
阿里智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。全新的2.0版本现已发布,用户可以使用自学习平台等工具改善语音识别效果,而且提供了功能更丰富的管理控制台和更易用的SDK,欢迎开通体验。

如有私有化部署(本地部署软件)需求,及商务问题,请联系:nls_support@service.aliyun.com


产品与服务


录音文件识别
对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检,庭审数据库录入,会议记录总结,医院病历录入等场景。


实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、法庭庭审记录等场景。


一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App,智能家电,智能助手等产品中。


语音合成
能将用户提交的文本转换成自然流畅的语音,目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、通知、任务播报、文学有声阅

读等场景。


语音合成声音定制
为企业提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为客户定制个性化语音合成声音。将自然流畅的TTS声音带到

服务或设备上。


语音本地化部署方案
提供轻量化本地部署方案,支持语音识别、语音合成、语言模型自学习工具的本地化部署,帮助企业在自己的数据中心零时差使用与阿里云公共云同款的智能语音服务。


智能语音设备端解决方案
针对类似故事机、音箱等各种语音交互设备,提供包括音频信号处理,打断唤醒,语音识别,语音合成等全链路语音交互能力。以SDK的方式集成,支持多种不同硬件平台。按照设备激活数量收费,收费更加灵活可控。
如有移动端语音交互SDK,模组类产品和定制类需求,请联系:nls_support@service.aliyun.com


语言模型自学习工具
用户可以自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度。目前仅支持上传文本数据对语言模型进行定制。未来会推出上传音频数据对声学模型进行定制。


便携智能语音一体机
便携智能一体机由达摩院结合应用场景现有问题和用户实际需求,由智能语音识别技术+智能采集阵列硬件+先进的音频处理算法组成。 打破传统场景记录方案,完美解决记录速度慢、记录不完整、速记成本高的问题。具备会后记录实时成稿,参会人无感使用,无需布线等特点,让用户使用更加轻松,记录效率更高


产品优势


识别准确率高
国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。

超快的解码速率
国内独创的LFR解码技术, 在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。

独创的模型优化工具
业内唯一一家提供自学习平台的系统。同时支持热词定制和模型定制。用户可以根据业务需求上传相关的数据,对各种语音产品进行定制,形成自己的专属模型,从而最大限度的提升识别效果。

广泛的领域覆盖
目前已经积累了大量行业客户,业务场景包括智能问答、智能质检、庭审记录、字幕翻译、语音助手等等。在金融、保险、司法、智能家居等多个领域均有成熟的应用案例,可以满足不同客户多样化的需求。

法庭庭审转写方案
将庭审过程中的法官、被告等角色所说的话实时转写成文字,从而替代了书记员的角色。阿里云智能法庭方案已经覆盖上百法庭,经过千次庭审的洗礼,得到广泛好评。合作客户包括浙江省全省法院、北京知识产权法院等。

业务痛点及需求
之前主要通过书记员对庭审过程进行记录,记录下来的文字会带有书记员的理解和归纳。智能语音识别技术可以将庭审各方的语音直接转变为文字,供各方在庭审页面上查看,并可作为庭审笔录直接使用。

优势
1. 积累了大量司法方面数据,转写效果佳;
2. 全国首次在庭审中使用语音识别,正确率超过97%;
3. 支持专有云部署;
4. 对于特殊关键词,如人名等,可以分庭做词表导入,以优化识别准确率。


智能客服质检
传统质检一般是对客服电话录音以人工听的方式进行检查,存在效率问题以及人员瓶颈。智能质检能够对所有服务过程进行全量的实时质检,帮助企业的服务部门摆脱人的限制,全面把控服务质量。

使用流程
将待检的语音数据转换成文本之后,通过质检引擎产生质检结果,并生成统计数据。质检人也可以在管控台上定位查看到每条数据命中的规则点、以边听边看的方式对结果进行校验。

优势
1. 全量自动化——能实现全量客服通话、工单的自动化质检;
2. 实时性——能做到电话一挂立即完成质检,实时看到最新的结果;
3. 规则灵活性——规则配置超灵活,覆盖到各类复杂的业务场景。


实时直播字幕及管理
现场演讲场景、直播场景下,将视频中的音频实时转写成字幕。在直播场景下,在直播场景下,可进一步对内容进行管理。

业务痛点及需求
1. 在开大会做演讲时,现场环境如果比较嘈杂,座位靠后或远程做直播时,可能会听不清演讲内容;
2. 一个直播APP,每天产生的视频数量多达数十万小时。严肃直播有字幕需求,娱乐直播有管理需求。

优势
1. 在阿里云栖大会现场做了演讲的转写,在正确率上击败国际速记比赛亚军,目前已经成为云栖大会的标配产品;
2. 实时转写速度极快,几乎与直播同步。


业务电话内容分析
传统中介业务中容易出现客户双方建立联系后抛弃中介的事情,如房东诱导房客进行线下交易,从而导致中介公司经济损失。这类行为往往发生在双方沟通的电话中。通过阿里云语音识别服务,可以帮助中介及时的发现上述问题,从而阻止逃单行为,避免经济损失。

使用流程
将电话实时传给阿里云的语音转文本接口,阿里云将及时返回数据,客户可使用阿里云的质检系统或者自建分析系统对返回的文字做分析,从而及时发现问题。

优势
1. 无需人工介入,减少人力成本;
2. 实时性好,可以及时发现问题。


智能语音问询终端
阿里巴巴率先解决在公共场合噪音环境下的语音交互问题,在地铁,餐饮店等公众场景下实现了高体验的语音交互。该套方案中集合了语音识别,自然语言理解,对话管理,音频信号处理,语音合成,机器视觉等多项人工智能技术,给用户提供一种全新的,多模态的语音交互方式。

业务痛点及需求
在嘈杂的公共环境中提供高质量的语音交互服务,给用户带来全新体验的同时提高了商家的服务效率、为商家节约成本。比如地铁语音售票机,用户说出目的地,售票机会自动找到相应地铁站并推荐最佳换乘路线;语音购物机可以大幅提高用户的点餐效率,并结合用户特性实现商品推荐等。

优势
1.强噪音环境下语音识别,识别准确率高达90%以上。
2.免唤醒语音交互,用户无需说唤醒词,交互更自然。
3.流式自然语言理解,单句话多意图,交互效率更高。
4.全本地机器视觉,本地人脸检测算法,进一步辅助提高噪音下的语音识别性能,并可以提供用户的年龄/性别等信息。
5.超高拟真语音合成,真人相似度高达97%,让语音合成具备感情。