语音识别还没飞起来,谷歌“唇语识别”又来了

发布时间:2016-11-29 阅读量:766 来源: 我爱方案网 作者: cywen

人工智能技术近年来突飞猛进,微软等硅谷巨头甚至宣称其语音识别系统已经能媲美人类。现在谷歌的AI在语言理解能力上更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译(Multilingual Neural Machine Translation)也将显著提高翻译质量。


谷歌母公司Alphabet下属的DeepMind部门和牛津大学的研究者使用新闻视频对其AI系统进行训练。用于训练的视频总长超过5000小时,语句超过118,000句。视频取材自BBC电视台自2010年至2015年间播出的节目。训练完毕后,研究人员使用该系统对今年3月~9月间播出的口语节目进行测试。测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。比如“我们知道这里也会有数百位记者”。(We know there will be hundreds of journalists here as well)

给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率。而AI系统识别正确率是46.8%。

前不久谷歌开始在“谷歌翻译”中运用神经机器翻译技术,能够识别准确地识别句子而不再仅仅是单词翻译。现在谷歌宣称使用多语言神经机器翻译技术后,谷歌翻译的翻译效果将再上一层楼。

谷歌在博客中称:“我们提出的结构无需改变基本的GNMT系统,而是在开头使用一个额外的‘token’来指定所需的目标语言翻译。”除了能够提高翻译质量,新的方法还支持“Zero-Shot Translation”,即在没有已知数据的情况下,能够对没有见过的语言进行翻译。

但是这些研究成果产生实际影响还有待时日,现在盛行的语言识别技术还是由语音识别技术占主导,而且就连语音识别技术也还积极拓展市场。
相关资讯
智联未来座驾!中航光电上海车展解码新能源汽车核心技术矩阵

在2025上海国际车展上,作为中国高端互连解决方案领军企业的中航光电(股票代码:002179),以整车电子电气架构革新者的姿态,携五大核心技术体系亮相,构建起覆盖"车-路-云"全场景的智能出行技术生态。

秒级响应+精准识别:解析移远通信毫米波雷达的六大核心优势与市场前景

在智能汽车传感器领域,国产化突破迎来里程碑时刻——移远通信最新发布的77GHz毫米波雷达RD7702AC,以毫米级动作捕捉、多场景抗干扰和全链路国产化优势,率先打破外资品牌垄断格局。作为全球首款集成AR增强现实的脚踢雷达方案,该产品不仅将误触发率压降至0.1%以下,更通过岸达科技国产芯片组实现30%成本优化,同步拓展至舱内活体检测、侧门防撞等智能驾驶场景。在国产替代浪潮与4D成像雷达技术迭代的双重驱动下,这款"中国芯"传感器正加速重构车载感知市场格局,为智能汽车产业链自主可控提供关键支点。

工业级MEMS加速度计革新:IIS2DULPX如何重塑智能制造与资产监测?

意法半导体(ST)推出的IIS2DULPX工业级三轴MEMS加速度计,凭借其边缘智能、超低功耗与宽温域特性,正在成为工业自动化与资产监测领域的核心组件。本文将从技术优势、竞品对比、应用场景及国产替代潜力等维度,解析其如何突破传统传感器瓶颈,推动工业智能化升级。

意法半导体2025年Q1财报:汽车芯片需求疲软致业绩"雪崩" 战略转型能否破局?

(都灵,4月24日)全球半导体行业标杆企业意法半导体(STMicroelectronics,NYSE:STM)今日发布2025财年第一季度财报,数据显示这家欧洲芯片巨头正经历周期下行带来的严峻考验。在汽车电子和工业自动化两大核心市场需求持续萎靡的背景下,公司多项财务指标出现断崖式下跌,引发资本市场对半导体行业复苏节奏的重新评估。

广达37周年释放产业信号:数据中心投资潮下 高阶服务器制造版图重构

全球电子代工龙头广达电脑(2382.TW)在成立37周年庆典上释放重磅产业信号。董事长林百里向《经济日报》披露,企业已锁定美系四大云服务商(CSP)今明两年持续增长订单,并宣布启动"自主型研发"战略转型,剑指AI服务器千亿级市场制高点。