同声传译被攻陷!谷歌发Translatotron直接语音翻译

发布时间:2019-05-16 阅读量:1102 来源: 新智元 发布人:

【新智元导读】今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。


让说不同语言的人更容易地、直接地相互交流,这是语音到语音的翻译系统(Speech-to-speech translation)的目的,这样的系统在过去几十年里取得了不错的进展。


今天,谷歌发布Translatotron语音翻译系统,这是第一个可以直接将一个人的声音从一种语言转换成另一种语言,同时保持说话人的声音和节奏的翻译模型。


传统上,语音翻译系统通常有3个独立的部分:自动语音识别将源语音转录为文本,机器翻译将转录的文本翻译成目标语言,最后,文本到语音合成(TTS)系统将翻译文本转换成目标语言的语音。


许多商业语音到语音翻译的产品都采用这样的系统,包括Google Translate。但是,这类系统依赖于中间文本,准确率不高,而且效率较低。


谷歌的新工具Translatotron舍弃了将语音翻译为文本再返回语音的步骤,而是采用端到端的技术,直接将说话者的声音翻译成另一种语言。这使它能够快速地翻译,但更重要的是,能够更容易反映说话人的语调和节奏。


在论文《基于序列到序列模型的直接语音到语音翻译》(Direct speech-to-speech translation with a sequence-to-sequence model)中,谷歌的研究人员提出一种基于单个注意力序列到序列模型的直接语音到语音翻译的新实验系统,该系统不依赖于中间文本表示。


这个系统被称为Translatotron,避免了将任务划分为独立的阶段,比级联系统更有优势,包括推理速度快、自然地避免了识别和翻译之间的复合错误,能够在翻译后保留原说话者的声音,以及能够更好地处理不需要翻译的单词(如名称和专有名词)。


Translatotron:不依赖中间文本,直接翻译语音


语音翻译端到端模型的出现始于2016年,当时研究人员证明了使用单个序列到序列模型进行语音到文本翻译的可行性。2017年,我们证明了这种端到端模型可以超越级联模型(cascade models)。


最近有许多工作进一步改进了端到端语音到文本翻译模型的方法,包括同样来自谷歌的利用弱监督数据的工作(https://arxiv.org/abs/1811.02050)。


Translatotron更进一步,证明了单个序列到序列模型可以直接将一种语言的语音翻译成另一种语言的语音,而不需要像级联系统那样依赖于任何一种语言的中间文本表示。


Translatotron基于一个sequence-to-sequence网络,它将源声谱图(spectrograms)作为输入,生成目标语言翻译内容的声谱图。


输入和生成的声谱图


此外,Translatotron还使用了另外两个单独训练的组件:一个神经声音编码器(neural vocoder),可以将输出声谱图转换为时域波形;另外,还可以选择使用一个speaker encoder,用于在合成翻译语音时保持源speaker的语音特征。


在训练过程中,序列到序列模型使用一个多任务目标预测源和目标转录文本,同时生成目标声谱图。然而,推理过程中不需要使用转录文本或其他中间文本表示。


Translatotron的模型结构


性能


谷歌通过测量BLEU分数来验证Translatotron的翻译质量。该分数是通过语音识别系统转录的文本计算的。虽然结果落后于传统的级联系统,但已经证明了端到端直接语音到语音转换的可行性。


对比Translatotron到基线级联方法的直接语音到语音翻译输出,在这种情况下,两个系统都提供合适的翻译并使用相同的规范语音很自然的说话。


保持声音特征


通过结合扬声器编码器网络,Translatotron还能够在翻译的语音中,保留原始说话者的声音特征,这使得翻译的语音听起来更自然,不那么刺耳。


此功能利用了之前针对TTS的演讲者验证和演讲者调整的Google研究。扬声器编码器在演讲者验证任务上进行预训练,学习从简短的示例话语对扬声器特性进行编码。在该编码上调节频谱图解码器,即使内容是在不同的语言中,也可以合成具有类似扬声器特性的语音。


谷歌提供了诸多使用示例,如下面的例子,Translatotron将西班牙语对话转换为英语,下面的音频分别是西班牙语输入、真人参考翻译,以及Translatotron的翻译。


Translatotron的翻译:


更多示例:


https://google-research.github.io/lingvo-lab/translatotron/#conversational


在这个例子中,Translatotron提供比基线级联模型更准确的平移,同时能够保留原始说话者的声音特征。保留原始说话者声音的Translatotron输出训练的数据,少于使用规范声音的数据,因此它们产生的翻译略有不同。


结论


谷歌声称,Translatotron是第一个可以直接将一种语言的语音,翻译成另一种语言的语音的端到端模型。它还能够在翻译的语音中保留源说话者的声音。谷歌希望这项工作可以作为未来端到端语音转语音翻译系统研究的起点。


参考链接:


http://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html


更多声音样本:


https://google-research.github.io/lingvo-lab/translatotron/#conversational


论文地址:


https://arxiv.org/abs/1904.06037


来源:Google AI

编辑:肖琴、鹏飞


相关资讯
核心对比!无源晶振与有源晶振在结构和工作原理的本质区别

无源晶振与有源晶振是电子系统中两种根本性的时钟元件,其核心区别在于是否内置振荡电路。晶振结构上的本质差异,直接决定了两者在应用场景、设计复杂度和成本上的不同。

温度稳定性对RTC晶振的计时误差影响与分析

RTC(实时时钟)电路广泛采用音叉型32.768kHz晶振作为时基源,但其频率稳定性对温度变化极为敏感。温度偏离常温基准(通常为25℃)时,频率会产生显著漂移,且偏离越远漂移越大。

从参数到实践!剖析有源晶振的频率稳定度、老化率及正确接线方案

有源晶振作为晶振的核心类别,凭借其内部集成振荡电路的独特设计,无需依赖外部电路即可独立工作,在电子设备中扮演着关键角色。本文将系统解析有源晶振的核心参数、电路设计及引脚接法,重点阐述其频率稳定度、老化率等关键指标,并结合实际电路图与引脚定义,帮助大家全面掌握有源晶振的应用要点,避免因接线错误导致器件失效。

如何对抗晶振老化?深入生产工艺与终端应用的防老化指南

晶振老化是影响其长期频率稳定性的核心因素,主要表现为输出频率随时间的缓慢漂移。无论是晶体谐振器还是晶体振荡器,在生产过程中均需经过针对性的防老化处理,但二者的工艺路径与耗时存在显著差异。

无源晶振YSX321SL应用于高精度HUD平视显示系统YXC3225

在现代汽车行业中,HUD平视显示系统正日益成为驾驶员的得力助手,为驾驶员提供实时导航、车辆信息和警示等功能,使驾驶更加安全和便捷。在HUD平视显示系统中,高精度的晶振是确保系统稳定运行的关键要素。YSX321SL是一款优质的3225无源晶振,拥有多项卓越特性,使其成为HUD平视显示系统的首选。