阵列麦克风，实现准确的语音识别

发布时间：2016-03-28 阅读量：3845 来源: 我爱方案网作者:

【导读】语音控制已经是许多新兴智能设备的主打操作方式。这种方式贴近人类直觉，并且几乎没有学习成本，无疑是智能家居等方面非常有效的控制方案之一，但目前的语音识别，除了对语音的识别的准确度仍需要不断优化外，如何排除环境噪音的干扰并且始终精准的定位设备主人所发出的声音也是另一个难题。阵列式麦克风是一个很好的解决这个问题的方案。

阵列麦克风，顾名思义，就是将多个麦克风组成一个系统，将从各个方向“飞向”话筒的声音都收集起来，通过处理和耦合汇集成一个更清晰的信号。早在上世纪80年代左右，这项技术已经开始研究并应用于语音信号处理中，那时这项技术的主要目的就是为了在复杂的条件下尽可能收集清晰的声音以便处理。不过那时的收集主要是为了人辨别的方便，而在智能时代，这一技术的重要性更加凸显，因为机器对语音的识别更加需要清晰的声音作为基础。

麦克风阵列的原理的原理简单，但在实际应用中有许多难点需要克服：

环境降噪：

拥有多个麦克风的阵列可以通过比较各个麦克风所收集的数据，判断出哪些声音只是无意义的噪音，并将这些声音最大限度的弱化。以得到尽可能清晰的声音结果，这种技术也叫语音增强。实际上，即使不使用专门的麦克风阵列，一般的数码设备只要有2-3个位置和朝向都不同的麦克风都可以做到这一点，现在的许多智能手机上已经安装了这样的设备。

声源定位：

环境降噪并不能100%保证设备能准确区别噪音和命令声的区别——事实上任何技术都不能100%做到这一点，甚至人耳也不一定能做到，因此人们需要为其设置更多的步骤以确保识别的准确性，这就是声源定位技术的最初考虑。麦克风阵列可以使用自己的特性定位出目标说话人的角度和距离，并实现对这个特定目标的跟踪及语音定向拾取。通过与前一项技术的互相配合，阵列麦克风的稳定性又高了一重。

声源信号提取（分离）：

利用麦克风阵列做信号的提取和分离主要有以下几种方式：

1、基于波束形成的方法，即通过向不同方向的声源分别形成拾音波束，并且抑制其他方向的声音，来进行语音提取或分离：

2、基于传统的盲源信号分离的方法，主要包括主成分分析(Principal Component Analysis，PCA)和基于独立成分分析(Independent Component Analysis，ICA)的方法。

阵列麦克风领域有许多优秀的厂家，下面为大家介绍两个：

科大讯飞：

科大讯飞可以说是国内语音识别的老牌厂商了，去年科大讯飞与京东智能联手推出了DingDong智能音响，在这款音箱上，科大讯飞将阵列式麦克风技术发挥到了极致，通过内部的精细处理，Dingdong可以在复杂的环境中分辨出来自5米远外的使用者的声音。以上提到的技术DingDong均能做到。并且其多年在语音识别领域的积累也让他对人语音的分析准确率很高。做到了对命令极高的辨识度。

XMOS：

XMOS是语音和音乐连接技术的一家年轻厂商，其最近推出了一款能聚集多达32个MEMS麦克风的阵列麦克风解决方案。其方案基于xCore-200器件系列，以评测版和软件库支持的方式供货。

通过在单一器件上集成16个高性能32位RISC处理器内核xCORE-200器件可以提供高达2000MIPs的实时计算能力；同时它也是第一种可商用的、带有可编程MAC层的、支持互联网网页服务器的10/100/1000千兆以太网解决方案。同时它可以与多个MEMS麦克风直接连接组成麦克风阵列。