微软最新AI系统！使用云端麦克风阵列，音频转录精度提升22.4%

发布时间：2019-09-18 阅读量：839 来源: 智东西发布人: Jane

智东西消息，微软语音和对话研究小组的科学家最近研发了一个系统，利用内置于智能手机、笔记本电脑和平板电脑中的麦克风来提高音频质量。

这个系统通过智能硬件连接互联网，在云端形成临时的麦克风阵列，可以实时高精度转录音频。研究小组计划在Interspeech 2019年会议上发表相关的研究论文。

会议室的音频无法及时可靠地传达给远程参加会议的各方时，总会令人感到非常无奈。音响效果的差异和干扰总是导致线路另一端接收的音频清晰度降低。

接下来我们一起了解一下，微软设计的云端麦克风系统，是如何提高音频转录的精度和效率的。

微软最新AI系统1.jpg

一、云端麦克风阵列提高音频精度

微软团队的解决方案是一个端到端系统，首先从不同的麦克风收集声音信号，然后进行波束成形，这种技术能使麦克风阵列对来自特定方向的声音更加敏感。

该系统的主要研究人员Takuya Yoshioka在博客中写道：“我们方法背后的核心思想是利用与会者通常携带到会议现场的笔记本电脑和智能手机等任何与互联网相连的设备，虚拟地在云端形成一个临时的麦克风阵列。”

由一个识别信号之间关系的模型进行编排。在波束形成过程中，信号被反馈到下游的语音识别模块，然后对它们进行合并、注释并发送回与会者。

据研究团队介绍，通过他们的方法，使用云端麦克风阵列，参加会议时人们可以使用已经带到会议现场的手机、笔记本电脑和平板电脑实时高精度转录音频，无需专用的硬件设备。

Takuya Yoshioka指出，这种方法在理论上要比执行上简单，因为不同设备之间的音频保真度存在很大差异，不同麦克风捕捉到的语音信号彼此并不一致。设备的数量及其相对位置在每次会议之间的不一致也增加了麦克风阵列的设计难度。

二、语音转录系统仍需进一步完善

研究人员报告说，在定性测试中，他们的人工智能系统在使用3个麦克风和7个麦克风的情况下，其性能分别比单设备系统高出14.8%和22.4%。

研发团队表示，他们的系统还不完善，偶尔会因为重叠的语音而出错。测试中，有10%的录音中包含不止一个说话者，这时语音转录的错误率为13.6%。

论文中Takuya Yoshioka和他的同事写道：“我们将设备分布在放假各处，获得了更好的空间覆盖率，研究显示了多个异步麦克风在真实场景中满足转录的有效性。”

结语：语音转录技术提升还需加大研发投入

微软在语音转录方面的研究迎合了市场的需求。去年夏天，微软在语音转录方面的研究已经应用在了微软365上，可以自主将语音转换为文本，与会者还能通过视频记录转换文本，使录音文件的文本转录变得更加简单便捷。

几个月后，微软在又OneDrive和SharePoint中推出了音频和视频文件的自动转录功能，进一步提升了文本转换的效率。

语音文本的实时转录，在办公和学习场景中都有很强的实用性。目前，语音转录系统还不完善，转录的准确性还有待提升，在数据、算法等方面还需要更多的研发投入，以满足消费者在不同场景下的需求。

论文链接：https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文来自：VentureBeat

相关资讯

算力、智能与控制的融合：英特尔4U工控机、RK3568主板、HPM伺服板的全面对比

在现代工业自动化向智能化、网络化、柔性化加速演进的大背景下，高性能、高可靠、特定场景优化的核心硬件设备构成了系统的“大脑”、“眼睛”和“四肢”。英特尔4U工控机(IPC-615H5)、RK3568高性能监控主板和HPM6400/6300伺服电机控制板分别代表了通用工业计算平台、边缘AI视觉处理平台和高精度运动控制平台的最典型形态。它们在各自的领域拥有独特优势，共同支撑起复杂的工业控制闭环。本文旨在对这三款核心产品进行全方位对比分析，剖析其技术特点、优劣势、应用场景及市场前景，为工业自动化方案选型提供专业参考。

应对AI算力激增：安森美推出全链路数据中心电源解决方案与指南

人工智能技术，特别是生成式AI和大规模机器学习模型的迅猛发展，对全球数据中心的基础设施提出了前所未有的高要求。海量数据的实时处理与复杂模型训练，导致数据中心计算负载激增，随之而来的功耗攀升已成为产业亟待解决的核心瓶颈。这不仅推高了运营成本，也对电网承载能力和可持续发展目标构成严峻挑战。如何在高性能计算需求持续增长的同时，有效控制并降低能源消耗，成为AI数据中心建设与升级的关键命题。

中日芯片巨头强强联手芯驰X9SP+罗姆PMIC打造智能座舱新方案

2025年6月25日，全球半导体巨头日本罗姆与中国车规芯片领军企业芯驰科技在上海联合宣布，推出面向智能座舱的参考设计"REF68003"。该方案以芯驰科技旗舰级座舱SoC X9SP为核心，集成罗姆多款高安全等级PMIC电源芯片，已在2025上海车展公开展示。

革新视听！三星2025智能显示器携高端OLED M9与全能AI震撼登场

2025年6月25日，三星电子正式发布三款智能显示器新品——M9（32英寸）、M8（32英寸）及M7（32/43英寸双版本）。该系列首次搭载OLED面板与模块化L型支架，通过AI算法重构人机交互逻辑，标志着智能显示技术进入场景自适应新阶段。

LG Innotek CoF技术挺进iPad OLED供应链 6月迎关键认证

随着苹果持续深化OLED面板在平板电脑领域的应用，其供应链体系正迎来新一轮调整。据产业链权威消息，韩国电子组件制造商LG Innotek正积极推进其覆晶薄膜（Chip on Film, CoF）封装技术进入苹果新一代iPad OLED面板供应链体系。该技术是实现显示驱动芯片与面板电气连接的关键封装方案。