让机器听懂自然语言，是百度人工智能的第一步

发布时间：2016-10-25 阅读量：1076 来源: 发布人:

人工智能领域的科学家极少担心世界会被AI统治，是因为他们知道为了让机器能够听懂人类语言，他们就付出了数年的努力，谷歌、百度以及微软这些公司正在做这样的事情。

“我想听柴可夫斯基”，百度美国研究院AI实验室主管Adam Coates向我展示了他们新的语音识别产品，当他对着百度的新的输入法说出这句话时，键盘上录入了相应的文字。

“大多数输入法左下角都有一个麦克风，但一般人们都不用它，因为人们认定这个不会好用。”Adam说，这是很多语音输入被忽略的原因，而百度的一项最新研究，目标是让语音输入比打字更快更精确。

让机器从听准到听懂

约两年半前，Adam从斯坦福大学毕业，跟随导师吴恩达来到百度做深度学习方面的研究，主要将其应用于语音识别。

在百度美国AI实验室，大多数员工都是美国人。在语音识别上，他们首先开发的是英语的版本。用深度学习做语音识别，最重要的环节是“训练”机器，即让系统学习足够的语音数据，在听到不同的语句时，能够识别得出来。

“我们给机器训练了很多英语的数据，成千上万小时。”Adam说，到2015年年中的时候，他们做出了识别率非常高的实验室版本，此后花了近一年时间做成了产品，目前在安卓平台已经能够下载使用。

“我朋友都挠着头跟我说，Adam你可是在百度这样一个中国公司，开发一个英文语音识别工具有什么用呢？”但Adam等人对深度学习有更深的了解，知道在此基础上开发中文识别版本并不是难事。

如果使用传统的机器学习路径，开发成其他语言版本几乎需要重新开发一遍。“听语法、听语音，还要雇佣一堆了解方言的工程师去反复检查，系统几乎要重新做一遍。”Adam介绍说，但因为使用的是深度学习的路径，只需要把中文语音数据灌入原有的算法中，训练一定时间，系统就学会了识别中文。

现在百度语音系统在Adam团队基础上开发出了中文的语音识别平台。“普通话是非常复杂的，现在他们把基本的算法用到了中国，让我很自豪的是，我们整个英语团队研发的语音识别系统，在影响着中文使用者。”Adam说。

百度语音识别的一个长处是能够在中英文混合语境中转换自如。“很多中国人在说话时会夹带英文单词，比如你们那很有名的明星‘Angelababy’，在百度的语音识别中能够自动转换。”Adam解释说。

深度学习如今是硅谷最流行的技术，能够应用在诸多领域。谷歌大脑负责人Jeff Dean最近在接受采访时表示，谷歌现在把深度学习主要利用在自然语言理解和机器感知、医疗以及机器人等领域。而通俗来说，就是让机器学会像人一样能够听懂、看得见，从而对外部世界做出反应。

“我想百度AI实验室认为改变机器和人交流的方式，让机器能够理解和识别自然人类的自然语言，是目前最重要的事情。”Adam说，他们团队这几年致力于把深度学习运用在人力自然语言识别和理解上，而这也是基于中国市场的需求和痛点而言的。如果想得更远一些，这能够让那些不识字的群体像受过教育的群体一样与机器自然交流。

“如果语音输入能够达到相当高的准确度，人们为什么还会用键盘输入？”Adam说，在机器对人类自然语言处理准确度达到一定程度时，会改变人们的输入习惯，同时改变人们和机器交流的方式。

不仅仅是百度，各家都在做这样的事情，近日微软发布报告表示，微软经过训练的神经网络已可以像人类一样识别人类的语音。微软让NIST 2000自动化系统与专业速记员进行了比赛，结果显示，自动化系统的错误率首次低于人工。报告称：“这是会话语音领域首次报告的（自动化系统）达到人工水平。”

“即便在五年前，我都没想过我们有一天能达到这个水平，连可能性都没有想过。”微软人工智能与研究团队的执行副总裁沈向洋说。

而百度首席科学家吴恩达在自己Facebook上转发这则消息时表示，百度的中文识别在2015年已经超过人类的识别水平。

但有深度学习研究者向界面新闻解释说，无论是微软还是百度，给出的“超过人类识别水平”标准都是一个实验结果，“一般来说都在一个固定的语音数据库里去训练机器，研究员会不断调节算法，让机器超过人类水平，与实际应用还是有一定距离。”

语音识别是通向诸多人工智能场景的一块基石，比如自动驾驶、AI医疗等等都需要机器能够先听得懂人类的自然语言。音识别研究起源于1970年代的 DARPA（一个为国家安全从事技术研发的美国政府机构），过去几十年里，最主要的技术公司和研究机构都参与了这一研究。

这并不容易，在Adam向我展示“我想听柴可夫斯基”这句话时，机器第一次并没有准确识别出“柴可夫斯基”。Adam随后手动纠正了这个词，“无论是单独说一个词语或者是像这样替换一个词，这个词是没有语境的，即便是对人来说，也是一个困难的事情。”Adam说，他们团队在过去将近一年的时间从技术上去解决这一问题。
迈向专用人工智能

对于百度来说，他们下一步是把这种精准的语音识别产品运用到更多场景中。

“不仅是精准的听懂词汇，而且得掌握人们的要求。”Adam说，他们的姐妹实验室就在此技术基础上开发了问诊的产品“du-nurse”，这种基于语音对话的产品，不仅仅是能够精准地语音识别，还要能够理解。

除了大公司，一批创业公司也进入了自然语言处理这一领域。以美国专注于自然语言处理的公司X.AI而言，三轮融资就拿到了3.4亿美元，而中国的科大讯飞市值也到达了368亿元人民币，专注于智能语音和自然对话的思必驰在C轮融资就达到了2亿元人民币。

相比大公司，创业公司在这一领域的劣势主要是是数据。在Adam看来，数据也不是不能够解决，比如通过雇佣人员收集数据或者是购买数据，当然这些方式都需要较高的成本。

如今在风险投资市场，诸多公司都标榜自己与人工智能以及深度学习有关。

“人们忽略的一个事实是，深度学习没有那么神奇，算法是可以教会的，一个聪明一些的有传统机器学习背景的工程师就能够很快写出深度学习的产品来。”Adam说，真正难题是把这些技术真正和用户深度痛点结合，研发成能够影响亿万用户的产品，成为一个成功的生意，这才是不容易的事情。

这对于百度同样是一个挑战。就在百度美国研究院的AI实验室，为此组建了单独的产品团队，与大多数产品和研发分开的架构截然不同。“人工智能时代与以往已经非常不同了，你需要对深度学习等人工智能技术有相当的了解，又要懂得用户的需求，这需要产品团队有非常多样化以及有弹性的视角。”

无论如何，人工智能时代已经来临，它并不仅仅是科幻电影里那样人工智能技术统治了人类，而是从人类和机器交流方式的改变——不再是键盘输入而是用自然语言交流开始一点点渗入。

就连美国总统奥巴马最近在接受《连线》杂志采访时都表示，“我的观察是，人工智能正在以各种方式渗透至人们的生活，但我们尚未察觉。”奥巴马说，流行文化对人工智能的描绘存在偏颇，让大多数认为人工智能就是像《骇客帝国》那样的世界，而实际上很多人没有关注到专用人工智能的那一部分。

所谓专用人工智能，就是这一技术应用到专业细分领域，比如在医疗问诊领域，这些神经网络能够学习来自医疗机构的数据，对于用户的病症能够给出诊断和建议，尤其对于一些传统诊疗方法需要很长时间做出诊断的病症，比如糖尿病，AI能够带来更好的监护。

又比如自动驾驶，“过去成千上万的工程师为了解决自动驾驶过程中遇到的识别路人识别路标等难题付出了数年的努力，但距离让无人驾驶汽车上路仍然有困难，但现在不一样，从AI的角度，仅仅是一个小的研究团队就有望解决这个问题。”

而AI也是大公司们不能够错过的重要领域，相比硅谷大多数公司在进入深度学习领域时只能利用之前的基础设施等资源，百度整个基础设施都是为了深度学习重新搭建的，Adam说，“AI说了这么多年，而现在的确到了应用的时候，会把用户带到一个全新的领域。”

相关资讯

华虹半导体2025年Q1业绩解析：逆势增长背后的挑战与破局之路

2025年第一季度，华虹半导体（港股代码：01347）实现销售收入5.409亿美元，同比增长17.6%，环比微增0.3%，符合市场预期。这一增长得益于消费电子、工业控制及汽车电子领域需求的复苏，以及公司产能利用率的持续满载（102.7%）。然而，盈利能力显著下滑，母公司拥有人应占溢利仅为380万美元，同比锐减88.05%，环比虽扭亏为盈，但仍处于低位。毛利率为9.2%，同比提升2.8个百分点，但环比下降2.2个百分点，反映出成本压力与市场竞争的加剧。

边缘计算新引擎：瑞芯微RV1126B四大核心技术深度解析

2025年5月8日，瑞芯微电子正式宣布新一代AI视觉芯片RV1126B通过量产测试并开启批量供货。作为瑞芯微在边缘计算领域的重要布局，RV1126B凭借3T算力、定制化AI-ISP架构及硬件级安全体系，重新定义了AI视觉芯片的性能边界，推动智能终端从“感知”向“认知”跃迁。

半导体IP巨头Arm：季度营收破12亿，AI生态布局能否撑起估值泡沫？

2025财年第四季度，Arm营收同比增长34%至12.4亿美元，首次突破单季10亿美元大关，超出分析师预期。调整后净利润达5.84亿美元，同比增长55%，主要得益于Armv9架构芯片在智能手机和数据中心的渗透率提升，以及计算子系统（CSS）的强劲需求。全年营收首次突破40亿美元，其中专利费收入21.68亿美元，授权收入18.39亿美元，均刷新历史纪录。

Arrow Lake的突破：混合架构与先进封装的协同进化

2024年10月，英特尔正式发布Arrow Lake架构的酷睿Ultra 200系列处理器，标志着其在桌面计算领域迈入模块化设计的新阶段。作为首款全面采用Chiplet（芯粒）技术的桌面处理器，Arrow Lake不仅通过多工艺融合实现了性能与能效的优化，更以创新的混合核心布局和缓存架构重新定义了处理器的设计范式。本文将深入解析Arrow Lake的技术突破、性能表现及其对行业的影响。

暗光性能提升29%：深度解析思特威新一代AI眼镜视觉方案

2025年5月8日，思特威（股票代码：688213）正式发布专为AI眼镜设计的1200万像素CMOS图像传感器SC1200IOT。该产品基于SmartClarity®-3技术平台，集成SFCPixel®专利技术，以小型化封装、低功耗设计及卓越暗光性能，推动AI眼镜在轻量化与影像能力上的双重突破。公司发言人表示："AI眼镜的快速迭代正倒逼传感器技术升级，需在尺寸、功耗与画质间实现平衡，这正是SC1200IOT的核心价值所在。"