中心议题:
* 语音识别技术简介
解决方案:
* TSR2.1 引擎
语音识别引领崭新应用模式
中科信利语音识别引擎TSR2.1 是中科信利最新发布的电话语音识别引擎。它具有高识别率,高可靠性,高度灵活的可扩展性及易用性。它使电话用户可以通过语音来访问数字信息成为可能。电信应用增值服务商和其他语音应用服务可以利用其先进的语音识别技术来为其客户提供更为快捷有效的服务。
业界领先的语音识别技术
中科信利致力于开发实用语音识别技术,并着重于中文语音识别技术的研究,针对中文特点和应用环境进行特别优化。目前中文语音识别核心技术业界领先。并广泛适用于无线和VoIP 语音环境,即使在有噪音,背景声或语音质量较差的情况下也能保持较高的识别准确率。
灵活的扩展能力和强大的容错能力
中科信利语音识别引擎TSR2.1 的分布式语音识别环境可以提供语音识别服务器集群。可以根据实际需要随时调整集群里的服务器数目。任一服务器故障不会影响整个集群正常工作。
支持开放标准
中科信利语音识别引擎TSR2.1 可以被集成在VoiceXML 2.0 平台。
特点
支持非特定人、大词汇量连续语音识别
TSR2.1 能够识别用户的自然连续发音。支持用户需要的超大词汇量,提供精确的识别结果。识别内核基于隐马尔科夫模型(HMM)。搜索算法针对电话语音识别作了针对性的改进以提高速度和识别率。通常情况下,识别准确率能够达到95%以上。
具有优秀的系统性能
识别引擎占用较小的系统资源(如内存),识别速度很快。在不同性能的硬件系统上,根据不同的应用,语音识别引擎的性能都会有所不同。在一台低端的装有一颗1.8GHZ 的Intel 奔腾4 服务器和1G 内存的服务器上,该语音识别引擎可以支持16 条电话应用。
具有稳健的识别性能
语音模型是基于大量的不同场合,不同人群和不同口音的电话语音数据训练出来的,具有较好的环境适应性。通过采用领先的算法模型,TSR2.1 识别引擎具有较强的抗噪性能。同时系统还具有较好的拒识功能,能够拒绝掉大多数的非语音(如: 敲门声, 咳嗽声,机器噪音等等)。
提供自然语言理解功能
支持用户采用各种复杂的语法定义识别任务,能够提供识别结果的语义信息。能够提供N-Best识别结果。支持用户开发自然语言理解系统。
支持动态语法
在实际应用中(如:语音电话本应用),常常在应用运行过程中才可以确定语法或者在运行过程中需要修改语法。TSR2.1 识别引擎支持这种需求,能够提供灵活的语法功能, 包括动态创建、修改语法和删除语法等。
支持分布式语音识别
通过精心设计的客户端/服务器架构,能够支持成百上千路的语音识别应用。资源管理服务器能够均匀调度识别服务器,达到负载均衡,提高系统整体工作效率。当识别服务器发生故障时,系统能够自动判别,并将识别任务转移到其他服务器。当识别任务量增加时,可以动态增加服务器而无须停止原有的识别系统服务。因而系统具有强大的稳定性和可伸缩性,能够满足电信级应用的需要。
提供多语言支持
TSR2.1 识别引擎采用了与语言无关的识别系统架构,极容易实现多种语言的扩展。目前支持中英文两种语言。根据用户需求,可以很快地增加对其他语言的支持。同时支持多种语言的混合识别。
说话人自适应功能
当用户多次使用同一识别系统时,TSR2.1 识别引擎能够逐步适应其口音,使该使用者的识别性能逐步提高。同时,如果预先给定特定说话人的数据,系统可以针对特定说话人进行自适应训练以获得更加适合其发音特征的语音模型,使该说话人在使用系统时,性能更好。
针对电话平台做了特殊优化TSR2.1 具有BargeIn 功能,支持说话者随时打断系统提示。从而支持方便快捷的人机交互。
识别策略智能调整
TSR2.1 可以根据系统运行情况动态调整搜索策略:在系统较忙时,采用计算量较小但具有足够精度的搜索策略以保证系统的响应速度;在系统不忙时,采用精度更高的搜索策略。
语音注册
TSR2.1 允许用户通过本人语音来向动态语法增加命令或词表。这种方式不但能够有效利用用户个性化的语音,提高系统的识别准确率;而且能够提高用户输入词表的方便性和灵活性。例如,在语音通讯录的应用中,用户可以通过语音的方式来添加通讯录,从而使用户可以随时随地修改自己的通讯录