从语音技术本身与其发展轨迹了解语音技术的真谛

发布时间:2016-11-24 阅读量:2366 来源: 发布人:

语音技术在计算机领域中的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势,本文笔者从语音技术本身出发,再结合当前技术的发展方向,带您全面的了解智能语音技术本身。


语音技术的合成方式

语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。

波形编辑合成:这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音,这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。

参数分析合成:这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来。

规则合成:这种合成方式通过语音学规则来产生目标语音,规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则。



语音技术的发展方向

1、提高合成语音的自然度提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大,基于语音数据库的语音合成方法有望进一步提高语音合成的自然度.因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。

但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等.-----无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.还有前端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面的解决,需要自然语言理解的突破。

2、丰富合成语音的表现力目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题。

相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。

3、降低语音合成技术的复杂度语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的。

而对于象HPC,PDA及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。

4、多语种文语合成语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。

例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意。

想更加了解语音识别技术,不妨看看最近科大讯飞举办的智能语音识别大赛。欲解决行业痛点,欲有行业创新精神,人才是关键,一两个人或许改变不了什么,但当一群满怀激情和创意的人集中在一起时,碰撞出炫目的火花,创新的火苗或许也将由此衍生而出。如今,就有这样一个绝佳的舞台供我们大展拳脚——由语音界的大佬科大讯飞联合我爱方案网、快包主办的2016讯飞智能语音设计大赛于近期拉开帷幕,目的是为了征集语音领域更多的应用场景以及创意方案。



凡参赛的选手均有机会获得科大讯飞实习或者工作的机会,而通过入围的个人或者团队不仅仅可以获得由科大讯飞提供的价值十万的开发板的使用权,科大讯飞也会为参赛的选手提供一系列语音方面的技术资源等,待开发完成后每个团队均将获得2000元的现金大奖。而此次大赛的第一名当然也会有特别的大奖,2万现金等你来拿!一切都已准备就绪,只差你那改变世界的一刹那灵感!

无论你是立志往后要成为工程师的莘莘学子,还是已经走在了工程师的精英道路上,参加本次大赛都可以得到锻炼己身的目的,最为重要的是能够获取宝贵的项目经验,同时也能结识一些志同道合之辈。

此次大赛从2016年11月17日开始,历时2个月,面向全国开发者、科技企业、科研机构、高效学生、创客等群体。

大赛规则:此次大赛采用开放式参赛的形式,涉及到智能家居、机器人、智能穿戴、汽车电子、IOT五大项目领域。参赛选手可以是智能硬件领域的技术控,也可以是不懂技术却拥有创意的梦想者。技术控需要具备这五大参赛领域相关的智能硬件开发经验和拥有成功解决方案的案例,梦想者需要拥有智能硬件新颖、可实现产品的创意。但是两者提交的参赛项目要求最少接入一种科大讯飞智能语音技术(语音听写、语音合成、人脸识别、语音唤醒、麦克风阵列、AIUI等)。

大赛分为初赛和决赛两部分,初赛中,所有的参赛团队必须通过上述两种方式提交相关资料,大赛主办方将对所有报名参赛的项目进行统一审核,按照大赛制定的标准择优选择20个项目晋级复赛,并提供相应开发板给晋级选手。而决赛中,晋级的选手需要在限定的开发时间内将自己的创意变现并提交相关文档以及演示视频。

你只需要点击报名,专心参赛,我们将会为你解决了所有后顾之忧,还等什么呢,Come on!

报名链接:http://www.52solution.com/index.php/Home/Special/kdxf

相关资讯
智联未来座驾!中航光电上海车展解码新能源汽车核心技术矩阵

在2025上海国际车展上,作为中国高端互连解决方案领军企业的中航光电(股票代码:002179),以整车电子电气架构革新者的姿态,携五大核心技术体系亮相,构建起覆盖"车-路-云"全场景的智能出行技术生态。

秒级响应+精准识别:解析移远通信毫米波雷达的六大核心优势与市场前景

在智能汽车传感器领域,国产化突破迎来里程碑时刻——移远通信最新发布的77GHz毫米波雷达RD7702AC,以毫米级动作捕捉、多场景抗干扰和全链路国产化优势,率先打破外资品牌垄断格局。作为全球首款集成AR增强现实的脚踢雷达方案,该产品不仅将误触发率压降至0.1%以下,更通过岸达科技国产芯片组实现30%成本优化,同步拓展至舱内活体检测、侧门防撞等智能驾驶场景。在国产替代浪潮与4D成像雷达技术迭代的双重驱动下,这款"中国芯"传感器正加速重构车载感知市场格局,为智能汽车产业链自主可控提供关键支点。

工业级MEMS加速度计革新:IIS2DULPX如何重塑智能制造与资产监测?

意法半导体(ST)推出的IIS2DULPX工业级三轴MEMS加速度计,凭借其边缘智能、超低功耗与宽温域特性,正在成为工业自动化与资产监测领域的核心组件。本文将从技术优势、竞品对比、应用场景及国产替代潜力等维度,解析其如何突破传统传感器瓶颈,推动工业智能化升级。

意法半导体2025年Q1财报:汽车芯片需求疲软致业绩"雪崩" 战略转型能否破局?

(都灵,4月24日)全球半导体行业标杆企业意法半导体(STMicroelectronics,NYSE:STM)今日发布2025财年第一季度财报,数据显示这家欧洲芯片巨头正经历周期下行带来的严峻考验。在汽车电子和工业自动化两大核心市场需求持续萎靡的背景下,公司多项财务指标出现断崖式下跌,引发资本市场对半导体行业复苏节奏的重新评估。

广达37周年释放产业信号:数据中心投资潮下 高阶服务器制造版图重构

全球电子代工龙头广达电脑(2382.TW)在成立37周年庆典上释放重磅产业信号。董事长林百里向《经济日报》披露,企业已锁定美系四大云服务商(CSP)今明两年持续增长订单,并宣布启动"自主型研发"战略转型,剑指AI服务器千亿级市场制高点。