智能语音真的会成为大家竞相追逐的风口吗?

发布时间:2016-10-25 阅读量:1034 来源: 我爱方案网 作者: cicyxu

当前,语音交互似乎正迎来爆发期,智能语音技术经历数十年的发展,也在沉淀中走向成熟。一个明显的趋势是,语音识别已广泛应用于智能手机。但业内仍有声音唱衰智能语音市场,理由在于语音输入的方式并不稳定,同时应用场景有所局限。智能语音市场长期给人一种属于“大公司游戏”的既视感。而智能语音技术无非是一项工具或者技术,其普及仍需要依托一定的产业形态。



当下大量硬件产品正在寻求和提供智能语音技术公司的合作。一些个性化匹配后的智能语音识别能力,在特定的场景下带来了更好的用户体验。这也推动着不同的产业围绕着智能语音这一新的交互方式走向融合。

当罗永浩站在台上演示基于科大讯飞智能语音技术的M1锤子手机,已经有人在舞台外开始唱衰这一应用的前景,“两个星期之后就会被人忘记”,一位网友在知乎上评论说。这代表了一部分人对于智能语音技术的观点。

这种唱衰自有其道理:和语音转文字的方式相比,直接输入的方式已经被习惯和广泛使用。况且,语音输入的方式并不稳定。

智能语音识别领域似乎从来就是大公司的游戏:长期而高昂的投入,短期内难以见到回报,最终甚至可能发现缺乏实际应用的平台。也因此,开放策略是每个着重智能语音技术研发公司的选择。

但一个明显的趋势是,当下大量硬件产品正在寻求和提供智能语音技术公司的合作。一些个性化匹配后的智能语音识别能力,在特定的场景下带来了更好的用户体验。这也推动着不同的产业围绕着智能语音这一新的交互方式走向融合。

群雄逐鹿

事实上,当你打开身边任何一款手机或者电脑,会发现智能语音技术的身影早已无处不在。无论是iPhone当中的siri,安卓手机当中的Google now,甚至是装载了win10的PC中,Cortana被放在了尤为醒目的位置。

当你打开手里的iPhone,使用搜狗输入法:同样支持将语音转换成文字。而当你使用微信,“语音输入”也隐藏在功能栏当中。若你是一个热衷新科技的青年,恐怕你会发现手腕上的手表、家里的音响甚至头戴式的耳机都可以和你“对话”,并且能够理解你发出的简单指令。

这是一项覆盖足够广的技术,但各种产品的特点和能力参差不齐。以及,其在用来担当输入角色时,被证明并不受到用户足够喜爱。就像你的手机里有siri,但用它来协助工作的用户仅仅是少数。

在上述公司当中,诞生了智能语音技术的两类公司,一类直接面向用户,一类则是向企业开放服务。例如在乔布斯的遗作iPhone4s当中,首次被添加上的siri,底层的语音技术来自全球领先的语音识别软件公司Nuance。

这两类企业也在国内外形成了各自代表,例如国内的To C端的百度、搜狗、出门问问、微软旗下小冰和Cortana等,而在To B端则集结了科大讯飞、云知声、思必驰以及国外的Nuance等。

但无论面向哪一端,一项智能语音技术难以绕过的指标是准确率。好消息是,目前无论科大讯飞抑或是微软,其语音识别的准确度在近年来均在不断提升,其中微软在10月18日宣布,微软进一步将词错率降低至5.9%。

但技术瓶颈仍旧存在。一方面,在嘈杂等环境下,目前智能语音识别准确度将大打折扣,另一方面,则是准确度提升的天花板。事实上,语音识别技术在过去十年准确度进步突飞猛进,但再度提升难度越来越大。

鲜有创业公司在智能语音这项技术当中扮演重要角色。甚至,智能语音当前也并未成为投资人所追逐的热点风口:和人才相比,智能语音市场从来不是一个强资本的领域。

“投资智能语音技术并非不是好选择,只是可投资的选择相对较少。”创新工场前投资经理孙志超告诉记者,其认为在智能语音技术市场,“投资最好的那家就够了。”此外,多位投资人士告诉记者,当前来看,智能语音技术难以成为风口。无论和前两年的O2O市场抑或是今年的直播领域比起来,智能语音技术创业的进入门槛都较高。

也正是由于门槛较高,智能语音市场长期给人一种属于“大公司游戏”的既视感。一方面源自这一技术需要长期的大量投入,而且往往难以在短期带来回报,对于微软等公司来说,承担这一角色的是研究院而非公司部门;另一方面则是由于智能语音技术需要技术储备和大量数据积累,大公司往往在其中拥有优势。

出门问问是一家典型的To C人工智能公司,其将智能语音技术和各项硬件产品结合了起来。出门问问CEO李志飞在采访中告诉记者,作为创业者,面临的行业对手往往是企业当中的某个部门。其时常被问到的问题是,该如何应对来自例如百度这样公司的竞争。

产业融合

部分公司选择利用资本的方式来缩小同对手的差距。亚马逊推出的Echo是一款基于智能语音技术的产品。和微软等公司相比,亚马逊发力语音技术时间较晚,不过自2011年以来,亚马逊收购了大量语音公司。

但并非所有人认同资本运作的方式来切入市场。科大讯飞董事长刘庆峰在接受采访中告诉记者,其认为通过资本并购等手段来发展人工智能的手段并不可取,刘庆峰认为科大讯飞应定义为一家“华为式”的公司。事实上也是如此,科大讯飞发展过程中仅接受过极少数投资方注资。

在亚马逊收购的一系列公司当中,包括语音公司Yap、语音技术公司Evi,研究语音转文字和强化语音识别在商品搜索上的应用,以及于2013年收购波兰语音技术公司Ivona Software。这和Echo的产品定位有关系。

Echo本身是亚马逊推出的一个音响,但亚马逊在其中接入了各项服务,例如通过语音交互的方式来购买商品。因此,其并不单纯追求语音识别的准确性,而是着重定位在购买服务相关。

此举在国内也迎来效仿者。例如京东智能和科大讯飞此前合资成立了一家公司“灵隆科技”,该公司同样推出了一款智能音响,用户能够利用音响来进行叫车、下单购买商品等。此外比较有中国特色的是,灵隆科技将为平台第三方服务商提供补贴,以吸引入驻平台。

长期来看,智能语音技术无非是一项工具或者技术。但其普及需要依托一定的产业形态。

李志飞告诉记者,其认为人工智能研发应当脱离实验室,在寻求落地过程中不断完善技术。目前出门问问在车载后视镜、智能手表领域均推出设备。此外,出门问问本身也是集中在解决用户出行等相关需求等,而非单纯的智能语音识别。

Fill是汪峰担任董事长的一家耳机公司,该公司CTO邬宁告诉记者,其选择和目前已经成熟的智能语音厂商达成合作,在Fill旗下的耳机产品当中加入语音识别功能。邬宁认为,目前市场上已经有成熟的智能语音解决方案,但是否能够对接好,同样考验硬件厂商的功力。

越来越多的硬件厂商寻求和智能语音厂商的对接。但也有出门问问这样的公司,选择自己操刀软硬件。

如此来看,利用智能语音识别技术来进行手机输入还仅仅是一个初步的尝试。由于目前已经有成熟的手机输入方案,智能策略也并未给用户带来颠覆式的变革。因此,或许可以借鉴亚马逊在Echo上的做法,直接砍掉语音交互之外的任何方式,以培养用户使用语音交互的习惯。

可以预见,智能语音技术和其他产业,尤其是硬件产品的结合仍在朝着更加深入的方向发展。

相关资讯
华虹半导体2025年Q1业绩解析:逆势增长背后的挑战与破局之路

2025年第一季度,华虹半导体(港股代码:01347)实现销售收入5.409亿美元,同比增长17.6%,环比微增0.3%,符合市场预期。这一增长得益于消费电子、工业控制及汽车电子领域需求的复苏,以及公司产能利用率的持续满载(102.7%)。然而,盈利能力显著下滑,母公司拥有人应占溢利仅为380万美元,同比锐减88.05%,环比虽扭亏为盈,但仍处于低位。毛利率为9.2%,同比提升2.8个百分点,但环比下降2.2个百分点,反映出成本压力与市场竞争的加剧。

边缘计算新引擎:瑞芯微RV1126B四大核心技术深度解析

2025年5月8日,瑞芯微电子正式宣布新一代AI视觉芯片RV1126B通过量产测试并开启批量供货。作为瑞芯微在边缘计算领域的重要布局,RV1126B凭借3T算力、定制化AI-ISP架构及硬件级安全体系,重新定义了AI视觉芯片的性能边界,推动智能终端从“感知”向“认知”跃迁。

半导体IP巨头Arm:季度营收破12亿,AI生态布局能否撑起估值泡沫?

2025财年第四季度,Arm营收同比增长34%至12.4亿美元,首次突破单季10亿美元大关,超出分析师预期。调整后净利润达5.84亿美元,同比增长55%,主要得益于Armv9架构芯片在智能手机和数据中心的渗透率提升,以及计算子系统(CSS)的强劲需求。全年营收首次突破40亿美元,其中专利费收入21.68亿美元,授权收入18.39亿美元,均刷新历史纪录。

Arrow Lake的突破:混合架构与先进封装的协同进化

2024年10月,英特尔正式发布Arrow Lake架构的酷睿Ultra 200系列处理器,标志着其在桌面计算领域迈入模块化设计的新阶段。作为首款全面采用Chiplet(芯粒)技术的桌面处理器,Arrow Lake不仅通过多工艺融合实现了性能与能效的优化,更以创新的混合核心布局和缓存架构重新定义了处理器的设计范式。本文将深入解析Arrow Lake的技术突破、性能表现及其对行业的影响。

暗光性能提升29%:深度解析思特威新一代AI眼镜视觉方案

2025年5月8日,思特威(股票代码:688213)正式发布专为AI眼镜设计的1200万像素CMOS图像传感器SC1200IOT。该产品基于SmartClarity®-3技术平台,集成SFCPixel®专利技术,以小型化封装、低功耗设计及卓越暗光性能,推动AI眼镜在轻量化与影像能力上的双重突破。公司发言人表示:"AI眼镜的快速迭代正倒逼传感器技术升级,需在尺寸、功耗与画质间实现平衡,这正是SC1200IOT的核心价值所在。"