97%的语音识别准确率是如何实现的?

发布时间:2016-12-1 阅读量:3747 来源: 我爱方案网 作者: candytang

互联网的下半场,多家巨头公司将目光瞄准了人工智能( AI ),更准确的说法是,人工智能领域的语音识别技术。11月21日到23日,搜狗、百度和科大讯飞三家公司接连召开了三场发布会,向外界展示了自己在语音识别和机器翻译等方面的最新进展。


搜狗语音团队在 11 月 21 日推出了自己的语音实时翻译技术。搜狗的这项技术主要包括两个方面,分别是语音识别和机器翻译。根据该团队的介绍,搜狗语音识别的准确率达到了 97%,支持最快 400 字每秒的听写。


百度则在 11 月 22 日宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度语音开放平台自 2013 年 10 月上线以来每日在线语音识别请求已经达到了 1.4 亿次,开发者数量超过 14 万。在如此庞大的数据支撑下,百度语音在“安静条件下”的识别准确率达到了 97%。


另外,在 11 月 23 日的科大讯飞发布会上,科大讯飞轮值总裁胡郁引述了罗永浩在 9 月锤子发布会上的演示数据,表示科大讯飞的语音输入识别成功率也达到了 97%,即使是离线识别准确率也达到了 95%。


这三家公司几乎在同一时段宣布了各自中文语音识别准确率达到了97%。




针对中文语音识别准确率提升背后到底隐藏着哪些技术和准确率继续提升还需要突破哪些困难等问题,搜狗语音交互中心技术负责人陈伟表示,搜狗语音识别的目标是更自然的,更像任何人交互的方式靠近。因此自从 8 月份发布“知音引擎”后,搜狗就开始基于已有的深度学习平台搭建自己的识别引擎。在搭建这个引擎的过程中,搜狗做的第一件事情就是按照人类讲话时的生物特征将每一个音节分为一个个独立的帧,并根据其波形判断此时是语音还是静音状态,从而让语音识别的效率大为提升。第二是在语音识别框架下建立一个声学模型,根据人在发音时声音信号和录音信号波形的对比,实现录音和文字之间的映射。

在此基础上,搜狗语音需要的就是用大量数据来训练这个深度学习模型,而在中文手机输入法中市场占有率遥遥领先的搜狗输入法刚好为搜狗带来了所需的数据。“我们每天的语音请求次数在 1.9 亿次左右,也就是大约 16 万小时的语音数据,有了这些数据以及我们前沿的深度学习技术,我们在语音识别取得比较好的效果,这也是能使我们语音实时翻译成功的重要因素。”陈伟说。

百度首席科学家则表示 97% 的语音识别准确率是百度技术团队多年研发的成果。在百度语音团队的努力下,百度语音识别的错误率每年能够下降 20% 到 30%。吴恩达表示,百度语音识别准确率的不断提升还离不开算法的不断更新和数据的积累。

但除了识别率的提升,百度的语音识别还考虑到了环境和感情等方面的问题。例如在比较空旷和嘈杂的环境里,百度语音团队给出的远场方案可以基于麦克风阵列,利用麦克风阵列束形成、语音增强、回声消除、声源定位等技术综合实现高准确率远场识别。吴恩达称开发者可以利用这一技术让语音识别距离增加 3-5 米,解决长时间语音识别的准确率。

在语音识别领域耕耘多年的科大讯飞在这一次的发布会上也宣布将会将自己的技术应用到多个领域,并将其语音平台开放给开发者。根据科大讯飞研究员副院长魏思此前发表的一篇文章,讯飞语音识别准确率提升的秘诀是讯飞研发的一种名为前馈型序列记忆网络 FSMN 的新框架。

魏思说,相对于传统的深度学习模型,讯飞的前馈型序列记忆网络增加了一个“记忆块”的模块来存储对判断当前语音帧有用的历史信息和未来信息,实现语音识别中的“端到端”建模。

另外,讯飞语音识别系统还集成了一个由语音自动切分、自然语言处理和声纹识别等技术组成的语音转写引擎。在此基础上,科大讯飞最创新的一点就是为不同场景下的语音识别做了大量的定制工作,例如讯飞语音识别系统能够实现会议或者采访场景中的对话角色自动分离。


目前,科大讯飞和我爱方案网、快包联合推出的“握手AI,共创共享——2016讯飞智能语音设计大赛”正在火热报名中!征集各类语音识别应用场景方案,欢迎大家参加。

报名入口:http://www.52solution.com/index.php/Home/Special/kdxfform.html


除了 97% 这个数字上的巧合,百度、搜狗和讯飞这三家公司都对自己的手机输入法进行了语音识别方面的升级。其中科大讯飞已经将野心延展到了物联网上,并推出了一款“万物联网输入法”,想通过语音操作的方式解决物联网设备的人机交互问题。


根据比达咨询发布的《2016 年第三季度中国第三方手机输入法市场研究报告》,本季度中国第三发手机输入法越活越用户数排名前三的分别是搜狗输入法、百度输入法和讯飞输入法。

很明显这三家公司在语音识别领域最大的竞争点就是手机输入法。相比于在手机屏幕上使用拼音打字,语音输入不仅会让输入效率大幅提升还能解放用户的双手。但囿于语音识别准确率的限制,此前各大手机输入法厂商仅仅是将语音输入当作一个附加功能放在输入法的键盘里。现在随着技术的进步,语音识别准确率正在逐渐提升。而物联网时代的到来,语音识别必然成为物联网终端最重要的人机交互模式。

从市场份额上看,搜狗输入法一直都遥遥领先于其他两位竞争对手。如果百度和讯飞想要改变这一现状,就只能在未来必然成为主流的语音输入上先发制人。现在这三家公司在语音识别准确率上的较量,谁又能说他们不是在争夺物联网时代人机交互市场。
相关资讯
面板双虎6月营收承压 大摩预警第三季度价格疲软延续

中国台湾面板大厂友达光电与群创光电相继公布2025年6月营收数据,显示行业整体仍面临下行压力。友达光电6月合并营收为219.2亿元新台币,环比下滑9.3%,同比减少13.1%。群创光电当月营收185亿元新台币,较5月微降1.14%,同比略减1.23%。

三星显示加速推进,为苹果可折叠iPhone铺平OLED道路

全球显示技术领导者三星显示(Samsung Display)已正式启动为苹果公司(Apple Inc.)专属可折叠iPhone打造OLED显示屏的生产准备工作。据悉,这一关键举措的核心是在其韩国忠清南道牙山的A3工厂内,建设一条专为可折叠面板设计的全新生产线。消息人士透露,该产线所需的关键设备更换与调试工作已于2023年下半年全面展开,目前项目进展顺利,已进入最后的冲刺与收尾阶段,为后续的批量试产和最终量产奠定了坚实基础。

赛力斯2025上半年预盈超27亿,净利润同比劲增最高近97%

7月10日,中国新能源汽车领域的重要参与者赛力斯集团(601127.SH)发布了2025年半年度业绩预告。公告显示,公司预计2025年1至6月实现归属于上市公司股东的净利润在27亿元至32亿元之间,相比上年同期的16.25亿元,同比增幅达到66.2%至96.98%,展现出强劲的增长势头。

联发科Q2营收突破1500亿台币,AI与定制化芯片驱动未来增长

联发科技(MediaTek)公布2024年6月合并营收达564.34亿台币,强势重返500亿大关,创下近33个月新高。该业绩较上月增长24.9%,同比提升30.9%,显著拉动第二季度整体表现达标。

革命性零恢复特性!Nexperia发布1200V SiC二极管攻占工业能源市场

在全球能源效率需求持续提升的背景下,宽禁带半导体技术迎来爆发式增长。Nexperia作为功率电子领域的领先企业,近期扩充了其碳化硅(SiC)产品线,推出两款1200V/20A规格的肖特基二极管——PSC20120J与PSC20120L。这两款新器件瞄准工业级高能效应用场景,为解决高功率系统能量转换损耗问题提供了创新解决方案。