发布时间:2019-09-18 阅读量:805 来源: 智东西 发布人: Jane
智东西消息,微软语音和对话研究小组的科学家最近研发了一个系统,利用内置于智能手机、笔记本电脑和平板电脑中的麦克风来提高音频质量。
这个系统通过智能硬件连接互联网,在云端形成临时的麦克风阵列,可以实时高精度转录音频。研究小组计划在Interspeech 2019年会议上发表相关的研究论文。
会议室的音频无法及时可靠地传达给远程参加会议的各方时,总会令人感到非常无奈。音响效果的差异和干扰总是导致线路另一端接收的音频清晰度降低。
接下来我们一起了解一下,微软设计的云端麦克风系统,是如何提高音频转录的精度和效率的。
一、云端麦克风阵列提高音频精度
微软团队的解决方案是一个端到端系统,首先从不同的麦克风收集声音信号,然后进行波束成形,这种技术能使麦克风阵列对来自特定方向的声音更加敏感。
该系统的主要研究人员Takuya Yoshioka在博客中写道:“我们方法背后的核心思想是利用与会者通常携带到会议现场的笔记本电脑和智能手机等任何与互联网相连的设备,虚拟地在云端形成一个临时的麦克风阵列。”
由一个识别信号之间关系的模型进行编排。在波束形成过程中,信号被反馈到下游的语音识别模块,然后对它们进行合并、注释并发送回与会者。
据研究团队介绍,通过他们的方法,使用云端麦克风阵列,参加会议时人们可以使用已经带到会议现场的手机、笔记本电脑和平板电脑实时高精度转录音频,无需专用的硬件设备。
Takuya Yoshioka指出,这种方法在理论上要比执行上简单,因为不同设备之间的音频保真度存在很大差异,不同麦克风捕捉到的语音信号彼此并不一致。设备的数量及其相对位置在每次会议之间的不一致也增加了麦克风阵列的设计难度。
二、语音转录系统仍需进一步完善
研究人员报告说,在定性测试中,他们的人工智能系统在使用3个麦克风和7个麦克风的情况下,其性能分别比单设备系统高出14.8%和22.4%。
研发团队表示,他们的系统还不完善,偶尔会因为重叠的语音而出错。测试中,有10%的录音中包含不止一个说话者,这时语音转录的错误率为13.6%。
论文中Takuya Yoshioka和他的同事写道:“我们将设备分布在放假各处,获得了更好的空间覆盖率,研究显示了多个异步麦克风在真实场景中满足转录的有效性。”
结语:语音转录技术提升还需加大研发投入
微软在语音转录方面的研究迎合了市场的需求。去年夏天,微软在语音转录方面的研究已经应用在了微软365上,可以自主将语音转换为文本,与会者还能通过视频记录转换文本,使录音文件的文本转录变得更加简单便捷。
几个月后,微软在又OneDrive和SharePoint中推出了音频和视频文件的自动转录功能,进一步提升了文本转换的效率。
语音文本的实时转录,在办公和学习场景中都有很强的实用性。目前,语音转录系统还不完善,转录的准确性还有待提升,在数据、算法等方面还需要更多的研发投入,以满足消费者在不同场景下的需求。
论文链接:https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf
原文来自:VentureBeat
在万物互联与智能化浪潮席卷全球的今天,新唐科技以颠覆性创新奏响行业强音。4月25日,这场历时10天、横跨七城的科技盛宴在深圳迎来高潮,以"创新驱动AI、新能源与车用科技"为主题,汇聚全球顶尖行业领袖,首次公开七大核心产品矩阵,展现从芯片设计到智能生态的全链条创新能力,为半导体产业转型升级注入新动能。
在2025年北美技术研讨会上,台积电正式宣布其A14(1.4nm)工艺将于2028年量产,并明确表示无需依赖ASML最新一代High NA EUV光刻机。这一决策背后,折射出全球半导体巨头在技术路线、成本控制和市场竞争中的深层博弈。
随着AIoT技术的快速落地,智能设备对高性能、低功耗嵌入式硬件的需求持续攀升。华北工控推出的EMB-3128嵌入式主板,搭载Intel® Alder Lake-N系列及Core™ i3-N305处理器,以高能效比设计、工业级可靠性及丰富的接口配置,成为轻量级边缘AI计算的理想选择。该主板支持DDR5内存、多模态扩展接口及宽温运行环境,可广泛应用于智能家居、工业自动化、智慧零售等场景,助力产业智能化升级。
作为全球半导体沉积设备领域的龙头企业,荷兰ASM国际(ASMI)近日发布2024年第一季度财报,展现强劲增长动能。财报显示,公司当季新增订单额达8.34亿欧元(按固定汇率计算),同比增长14%,显著超出市场预期的8.08亿欧元。这一表现主要受益于人工智能芯片制造设备需求激增与中国市场的战略性突破,同时反映出半导体产业技术迭代与地缘经济博弈的双重影响。
随着汽车智能化加速,车载摄像头、激光雷达、显示屏等传感器数量激增,数据传输带宽需求呈指数级增长。传统国际厂商基于私有协议(如TI的FPD-Link、ADI的GMSL)垄断车载SerDes市场,导致车企供应链弹性不足、成本高企。2025年4月,纳芯微电子发布基于HSMT公有协议的全链路国产化SerDes芯片组(NLS9116加串器与NLS9246解串器),通过协议解耦、性能优化与供应链自主可控,为ADAS、智能座舱等场景提供高性价比解决方案,标志着国产车规级芯片从“跟跑”迈向“并跑” 。