语音识别还没飞起来，谷歌“唇语识别”又来了

发布时间：2016-11-29 阅读量：806 来源: 我爱方案网作者: cywen

人工智能技术近年来突飞猛进，微软等硅谷巨头甚至宣称其语音识别系统已经能媲美人类。现在谷歌的AI在语言理解能力上更上一层楼，不仅可以通过更好的唇语识别来帮助听力障碍人士，多语言神经机器翻译（Multilingual Neural Machine Translation）也将显著提高翻译质量。

谷歌母公司Alphabet下属的DeepMind部门和牛津大学的研究者使用新闻视频对其AI系统进行训练。用于训练的视频总长超过5000小时，语句超过118,000句。视频取材自BBC电视台自2010年至2015年间播出的节目。训练完毕后，研究人员使用该系统对今年3月～9月间播出的口语节目进行测试。测试结果发现，系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。比如“我们知道这里也会有数百位记者”。（We know there will be hundreds of journalists here as well）

给予相同的视频素材，专业的唇语识别专家能够达到12.4%的正确率。而AI系统识别正确率是46.8%。

前不久谷歌开始在“谷歌翻译”中运用神经机器翻译技术，能够识别准确地识别句子而不再仅仅是单词翻译。现在谷歌宣称使用多语言神经机器翻译技术后，谷歌翻译的翻译效果将再上一层楼。

谷歌在博客中称：“我们提出的结构无需改变基本的GNMT系统，而是在开头使用一个额外的‘token’来指定所需的目标语言翻译。”除了能够提高翻译质量，新的方法还支持“Zero-Shot Translation”，即在没有已知数据的情况下，能够对没有见过的语言进行翻译。

但是这些研究成果产生实际影响还有待时日，现在盛行的语言识别技术还是由语音识别技术占主导，而且就连语音识别技术也还积极拓展市场。

相关资讯

面板双虎6月营收承压大摩预警第三季度价格疲软延续

中国台湾面板大厂友达光电与群创光电相继公布2025年6月营收数据，显示行业整体仍面临下行压力。友达光电6月合并营收为219.2亿元新台币，环比下滑9.3%，同比减少13.1%。群创光电当月营收185亿元新台币，较5月微降1.14%，同比略减1.23%。

三星显示加速推进，为苹果可折叠iPhone铺平OLED道路

全球显示技术领导者三星显示（Samsung Display）已正式启动为苹果公司（Apple Inc.）专属可折叠iPhone打造OLED显示屏的生产准备工作。据悉，这一关键举措的核心是在其韩国忠清南道牙山的A3工厂内，建设一条专为可折叠面板设计的全新生产线。消息人士透露，该产线所需的关键设备更换与调试工作已于2023年下半年全面展开，目前项目进展顺利，已进入最后的冲刺与收尾阶段，为后续的批量试产和最终量产奠定了坚实基础。

赛力斯2025上半年预盈超27亿，净利润同比劲增最高近97%

7月10日，中国新能源汽车领域的重要参与者赛力斯集团（601127.SH）发布了2025年半年度业绩预告。公告显示，公司预计2025年1至6月实现归属于上市公司股东的净利润在27亿元至32亿元之间，相比上年同期的16.25亿元，同比增幅达到66.2%至96.98%，展现出强劲的增长势头。

联发科Q2营收突破1500亿台币，AI与定制化芯片驱动未来增长

联发科技（MediaTek）公布2024年6月合并营收达564.34亿台币，强势重返500亿大关，创下近33个月新高。该业绩较上月增长24.9%，同比提升30.9%，显著拉动第二季度整体表现达标。

革命性零恢复特性！Nexperia发布1200V SiC二极管攻占工业能源市场

在全球能源效率需求持续提升的背景下，宽禁带半导体技术迎来爆发式增长。Nexperia作为功率电子领域的领先企业，近期扩充了其碳化硅（SiC）产品线，推出两款1200V/20A规格的肖特基二极管——PSC20120J与PSC20120L。这两款新器件瞄准工业级高能效应用场景，为解决高功率系统能量转换损耗问题提供了创新解决方案。