盘点科大讯飞车载语音技术难点及解决途径

发布时间：2016-11-30 阅读量：3556 来源: 我爱方案网作者: cywen

语音识别+汽车系统，最早这一组合是在一些豪车上应用，例如2000年宝马上就有语音控制；2004年在北美市场上市的Acura RL轿车将语音控制系统作为标准配置。现如今，功能丰富的车载智能互联系统会配备语音控制功能，成为越来越多主流车型的标配和卖点。

像科大讯飞的汽车智能车载系统——飞鱼助理。该系统将远场识别、全双工、多轮交互、方言识别等技术应用于汽车，打造全新智能语音交互界面，大有刷新行业标准的野心。在科大讯飞语音识别准确率已经高达97%的今天，车载语音技术还有哪些难点，科大讯飞又是如何解决的，这是值得探讨的一个问题。

车载语音技术的优点很明显，它的应用一方面可以降低驾驶员对车内设备的操作难度，增加驾驶安全系数；另一方面可以增加驾驶的娱乐性。这些优点主要是体现在它的功能上，理论上来说车载语音可以完成以下功能：

（1）车载娱乐系统控制。比较基础的功能，除了调节音量外，用户可以通过语音搜索音乐名，也可以简单地说出感兴趣的收音频道，系统就能调出相应的节目和频道。

（2）导航控制。通过语音调出导航应用，免去了手动输入的麻烦,可以通过语音输入完成各项指令。这个是很实用的信息，尤其是在市内车多、路杂进行导航时，效果更为显著。

（3）电话通讯控制。提供语音控制打电话、发短信、读短信等功能。

（4）驾驶辅助控制。如语音控制空调、天窗、座椅、后视镜等主动车道保持信息、巡航信息等，在使用车上高科技并进行调节的时候，这些信息可以显示在HUD上，使得驾驶员不必低头看仪表进行调节。

（5）车联网服务。为车主提供一些后服务的内容，如洗车、加油、餐饮类服务，如语音预约洗车、寻找加油站、美食订餐等等。

但是在实现以上功能的过程当中，语音技术的实现是一部分，完整的功能实现还要靠车联网的配套设备，就语音技术来说，车载语音的障碍主要体现在一下两个方面。

（1）如何让机器“听懂”人的语言

如何让机器“听懂”人的语言，这是人机交互的第一步，要做到这一点，首先机器要能识别你说的话，在这个过程中，方言怎么辨识？自然语言怎么辨识？前后有逻辑关系的语音指令怎么辨识？这些都是必须解决的问题。比如作为一名广东人，我的普通话比较普通，语音识别要能准确识别我的口音并准确执行；我问完深圳今天的天气怎么样，它能告诉我，但是如果我问：明天呢？机器要能知道我是在问它深圳明天的天气怎么样。

简单地说，机器要能听到我说话，并能听懂，智能语音应该是带有人工智能思维的。

（2）车内降噪
车内距离小，语音技术的难度不体现在距离上，现在的语音技术是想的距离已经足够满足车内使用。距离远不是问题，车内空间小，反倒显示噪音问题特别突出，，首先是车辆上存在很多非平稳噪声。所谓非平稳，即是难以预测的。在汽车的环境下，来自于发动机、车辆在路面上行驶产生的噪音都是可预测的噪音，很容易在实验中进行模拟并进行剔除，但更多的各种意外状况下出现的噪声：路过一家大声放着音乐的CD店、旁边的卡车突然按了下喇叭，车内孩子的突然哭喊声……

周围声源混杂会大大降低语音识别的能力。

科大讯飞是怎么解决这两个问题的:

1、用数据库和建立模型让语音系统自我学习

相对完美的语义理解，是不设定规则或者语法，因为对于现实生活中遇到的情况，很难通过这种设定来穷举出所有的情况。在科大讯飞的语音模型中，专门有一个模块是去判断一句语音命令里头的意图，在语句中寻找关键字，科大讯飞把这些关键字叫做“参数”。意图与参数，就构成了这条语音命令所要表达的信息。在这种模式下，你说“我要去天安门”或者“天安门在哪”对于系统来说，都是一样的，参数是“天安门”，“在哪”和“要去”是意图。

当然，这些模型并不需要人去手动一个个建立，而是通过大量的数据模型去训练机器。用大数据打造语音识别的灵魂。”

在科大讯飞，有一个部门叫做语音资源部。资源部的工作是每天上街去采集数据，没有数据就找不同口音的人去录音，积累到了几十个T的数据之后，这些数据就会用于机器的教学之中。

第一步是将单个字或者词摘取出来让机器学会，了解不同的人在发音上的差异；然后是在一定的语境中去理解这些词，哪些属于意图的范畴，哪些属于参数的范畴，哪些在意图会在特定的情况下成为参数，哪些参数又有可能成为意图。在这个过程中，对于数据的分析能力是关键。因为数据的基数太大，必须能依靠机器做到正确地剔除无用的数据，将有用的数据分门别类进行处理。

这还只是普通话的，如果是要识别方言，因为同一个字完全是不同的发音，就需要为其独立建议一套识别模型，与汉语和英语的关系一样，区别对待。再去收集相关的数据给系统学习，作为收集所有数据的语音云平台，则需要有能够对这些不同数据类型进行筛选的能力。

当然，现在科大讯飞的语音数据库不再依赖于人工收集，在建立语音平台之后，科大讯飞每天能从不同的合作伙伴处获得大量的数据，识别效果的迭代能做到一周一次。不过，虽然有语音平台，科大讯飞每天依然有两三部车子在外面进行专门负责采集一些很难通过云端传回的使用场景的数据。

2、用麦克风阵列降低噪音干扰

针对噪音，科大讯飞拿出的解决方案是麦克风阵列，这个阵列由对着不同方向的数个麦克风组成。当你在车内开始说话时，第一个捕捉到你声音的麦克风会对声音进行定向，然后只识别这个特定方向传来的声音，这个麦克风也会成为这次语音命令的输入源，如果这个时候，隔壁的麦克风听到了副驾驶的说话声，并不会对此次输入造成影响。当阵列中的麦克风数量越多，其所定位的方位越狭窄，那么所受到的干扰就会越小。

另外一个问题是对识别出命令的执行。在汽车上，语音识别系统的功能不仅在于识别，更在于将识别出的命令准确地下达到对应的模块之上，这种命令的下达需要把语音识别系统与车载系统的应用之间的路打通，听音乐就需要打通音乐的应用，导航就需要打通地图和导航应用。
科大讯飞研发出的语音识别系统其实只是一个半成品，其中有语义理解的模块，有与其他应用的接口，用在汽车上，需要把这些接口与车载系统进行对接。说来简单，但在实际应用中，需要解决的问题就很多。

一是目前车机的平台并不是一个开放的平台，既不是安卓的开源，也不是苹果的封闭生态，很难在既定构架上简单地进行功能的增减删改。很多时候，一个更新换代，可能要做的工作是从头再来。

二是两者之间需要很多配合。如果车企已经有一套完成的车载系统，那么需要对语音识别的应用打开接口，打开接口之后可能会发现接口无法直接对接，需要进行更改，而这个更改是否能被执行，要看汽车制造商的集成能力，以及对这套车载系统有多少期待；即便车企没有这套系统，或者要开发一套新的系统，双方在产品理念需求的定义上，也需要深度磨合。

现在的很多功能不能被实装，并非是技术不到家，而是受限于成本、产品定位、研发周期等等一系列因素。就说麦克风阵列，麦克风的数量是越多越好，在车上装成一个球形，360°检测的识别效果是最好的，但是在实际的应用中要考虑成本问题。

这些问题是需要方案设计者深入使用场景，提出合理的解决方案的。因此，为了推动智能语音的发展，激发工程师创客的设计激情，科大讯飞联合我爱方案网、快包平台，强势推出面向全国开发者的大型智能硬件设计大赛，借力科大讯飞成熟的人工智能交互平台，应用语音合成、语音识别、语音唤醒、人脸识别、麦克风阵列和AIUI一站式解决方案，快速接入人工智能风口，寻找创新的种子并共同孵化出创新的解决方案推向市场，帮助开发者实现业务创新落地，成就开发者创新梦想。

目前该活动正在火热接受报名中，从收到的报名表格中，针对车载语音市场，我爱方案网从中筛选了两项精选方案，和网友们分享：

方案一：多路语音采集降噪蓝牙方案
项目简介：多路语音采集降噪蓝牙模组。主要用于从多路语音输入中选择其中一路语音进行采集，做降噪处理后通过蓝牙无线传输给Android/iOS平台做语音识别；主要包括多路语音采集降噪模块，音频选择处理模块，蓝牙无线传输模块，电源模块。拥有丰富的音频输入/输出接口，各路音频均可以routing到蓝牙，包括：模拟输入/输出，I2S输入（国内首创）/输出，SPDIF输入（国内首创）/输出。

开发经历：曾完成乐视车联网，乐乐语音公司阿斯顿马丁车内的语音降噪Mic阵列降噪系统。
日本斯巴鲁车前产品开发商。设计符合日本车规的产品，并实现量产。华南理工大学电力学院产学研合作单位。

方案二：用于车载智能导航系统的语音方案
项目简介：该项目将应用于车载智能导航系统，当用户在开车行驶过程中，不用触摸显示屏，而通过语音识别系统进行调用所需要的行程，目的地，功能等。或者是用于智能机器人机交互。

开发经历：黄工从事技术领域有20年，涉及有无线射频，蓝牙，车载音响，GPS Tracker,等，主要负责项目，硬件设计调试，软件功能规划，WINCE,ANDROID系统等,目前所具有的产品有：A20,A33,RK3288

你也有类似的运用到科大讯飞平台的项目吗？

加入他们吧>>>

“握手AI，共创共享--2016讯飞智能语音设计大赛”报名入口 >>>