浅谈穿戴设备的语音/手势识别技术

发布时间:2015-05-7 阅读量:1180 来源: 我爱方案网 作者:

【导读】不知道大家发现没有,最近微信有个语音登陆功能,说到底这也是语音识别技术的应用之一,语音识别技术也常见用于穿戴式装置。由于穿戴式装置可随身配戴,因而成为人们感知与控制周遭联网装置的最佳利器,开发商正积极采纳先进的语音或手势辨识技术,为使用者创造更便利的智慧联网应用体验。

根据2014年6月19日美国Google I/O开发者大会中播放的微电影,可以看见未来人类生活将处处充满网路,从电器至一般家庭用品,现在连门锁都可以透过穿戴装置来开关。Google希望能达成生活中随时都有穿戴装置的愿景,并以云端服务为核心,使用统一系统,让该应用能扩展到使用者所有的萤幕与家用设备当中。

利用Android可让使用者的所有生活用品都迈向智慧化与网路化,这就是最典型直观的智慧联网范例。当文化越来越进步,科技越来越发达,人类的需求就会从如何生存转变为如何活得更好更幸福,因此目前一切技术的发展都是为了让人类活得更便利、更舒适;而要让生活变得更便利的要素就是发展穿戴式技术,让生活中的一切用品都能连上网路。

穿戴式装置让生活更便利

过去人们操作电脑时,须使用滑鼠与键盘做为输入装置;而操作电器时,则大都须要亲自触控其按钮,有些电器具备遥控器可远端操作,如电视、冷气机等,但对老年人与小孩而言,遥控器的操作往往过于复杂而无法直观使用。因此,透过穿戴式装置来输入、控制生活的日用品,就可以让小孩与老年人都轻松使用,甚至不需要太多笨重的硬体,只要一只手环,或是一副眼镜,就能处理生活中一切的需要。

根据资策会产业情报研究所的定义,“凡搭配特殊设计之配件与挂件,将3C产品或电子工具固定挂配于身上,提供更方便自由连续性使用的随身应用产品”可称之为穿戴式装置。

穿戴式装置能透过微机电系统(MEMS)的感测器,或是摄影机来撷取使用者发出的讯号,而这些讯号经由适当运算,可达到控制生活周遭家电用品的目的。

此处所指的运算是一种称为“讯号辨识”的技术,讯号辨识从前述的例子中可分为两类:使用摄影机接收影像讯号的图像辨识或物件辨识,以及MEMS感测器撷取人体运动资讯;另外也包含利用收音装置收取语音讯号的语音辨识技术,其应用如大家最熟悉的“Ok Google”。

由于不同的讯号有不同特性,因而能用以操作具特殊需求的生活用品,如家中的保险箱,即可利用语音讯号来控制。

因为每个人的说话速度、习惯、生理状况、性别、年龄、地域皆不同,所以语音讯号的差异性大能用来辨识使用者身分。此外,过去须要使用钥匙解锁,或是输入密码才能开启的生活用品,也可以透过语音辨识技术让使用者更为便利。

除此之外,需要遥控器控制的电器也往往因遥控器操作复杂,导致并非所有年龄层的使用者都易于使用。于是Logbar团队便开发Ring智慧戒指,使用者可利用该戒指在空中画出频道号码,将电视转至指定频道。

用户使用手环时,也可利用MEMS感测器侦测手部往左或往右移动,做出频道或是音量的增减,以简化原本遥控器的复杂操作。

上述所提讯号辨识技术的发展皆累积了一段时间,然而穿戴式装置的崛起,可帮助使用者从原先须到目标电器旁边才能控制电器,改为只要坐在原本位置并举起手臂在空中做手势或向手表下指令,便能控制电器用品。

分析人体资讯 语音/手势辨识技术便利实用

基于语音会因音高(妇女、儿童较短较薄;男人、老人较长较厚)、音质差异(每个人皆有特别的音质)有许多不同,所以语音辨识相关技术可以用在需要安全性保护的生活用品中。

人体在运动时,系利用杠杆原理,并透过肌肉收缩的方式来完成。手臂系统由手指、手腕、手肘、肩、肩带构成,手指的动作通常以抓、收、放为主;而手腕动作则以旋转为主,光是这些动作的排列组合就可定义出多种不同的手势指令。

语音辨识的流程(图1),是先将输入讯号做前置处理,之后再做特征撷取,然后根据语言模型、辨识模型或样板做出辨识动作。语音辨识的常见技术有两个,一个是动态时间轴校准(Dyanmic Time Warping, DTW),一个是隐藏式马可夫模型(Hidden Markov Model)。

穿戴式装置勾搭语音/手势识别技术  开启智慧新生活
图1 语音辨识基本流程

动态时间轴校准分为两阶段,其一为训练阶段,会先建立各辨识单元的样板;其二则是使用阶段,将输入语音的特征图样与各样板进行比对,最接近者即为辨识结果。这个方法虽然可以用在不同长度的图样比对,但是所得到的样板却无法反应语音讯号的差异性。

隐藏式马可夫模型的训练阶段是在建立各辨识单元之统计模型,第二阶段会先计算由各模型产生输入语音的机率大小,再取其最大者做为辨识结果。相较于动态时间轴校准技术,隐藏式马可夫模型能利用机率分布来描述语音的差异性,因此可得到较佳的辨识率,但模型训练与辨识演算法就复杂许多。跟语音辨识类似,手势影像辨识(图2)的第一阶段也是对输入资料的前处理,包含背景分离、肤色与边缘的侦测、手部定位、手掌侦测,以及此阶段最后的影像正规化。

穿戴式装置勾搭语音/手势识别技术  开启智慧新生活
图2 以影像辨识为基础的手势辨识演算法流程图
接着会进入辨识阶段,此处以阶层式时序记忆(Hierarchical Temporal Memory, HTM)演算法为例,该阶段系利用机器学习的方式,进行各类别手势模型的学习与辨识。HTM演算法以网路型态组成,包含四种性质的处理节点:

·感测节点(Sensor Node)

感测节点位于HTM网路最底端,能将感测到的资料转成能用的资料格式,并传到下一节点。

·HTM节点(HTM Node)

HTM节点是主要运算节点,可根据问题复杂度形成阶层网路架构,各HTM节点进行非监督式学习,并生成时序相近的不变性特征。

·HTM顶层节点(HTM Top Node)

HTM顶层节点位于网路最高阶位置,能将资料输入种类节点进行分类。

·种类节点(Category Node)

种类节点是一个监督式分类器,可辨识输入资料的类别。

以运动感测为基底的手势辨识方式,最常见的是使用加速度计(Accelerometer)、陀螺仪等微机电系统(MEMS)感测器。

加速度计又称为重力感测器(G-sensor),可以提供线性加速度/位移的资讯。透过MEMS技术可将加速度计元件最小化。

近年来智慧型手机大都有包含此元件;穿戴装置如智慧手环、手表也都有加速度计,可做为移动轨迹的手势辨识应用。利用加速度计取得加速度值后,判断出一个轨迹动作的开始点及结束点,之后将讯号作处理动作,此处选用Hanning Filter来平滑化讯号并对讯号做正规化。

将讯号处理完的结果利用动态时间校正演算法做分类,再根据分类结果及加速度振幅大小来辨识出我们指定的指令动作。Hanning Filter可减少讯号转换过程及降低仪器震动所造成的误差。由于动态时间校正具有可以处理不同长度讯号的特性,所以适合用来辨识手势讯号,它的步骤如下:

首先从已知的分类讯号内,选一笔做为样本;接着将待比对序列输入时,与各类样本都做计算,找出最高相似性的样本,本步骤最为重要;最后再根据刚刚结果挑选相似性最高样本做为辨识结果。

穿戴式装置搭桥 有机运算愿景近在咫尺

在2015年国际消费性电子展(CES)中可以发现,智慧手表应用已经结合了汽车,而大陆业者采取低价策略,也加快高规智慧表的降价速度;Google也在最近宣布“完全自动驾驶的首度完整原型”会在加州开始测试。

由这些趋势可知,智慧联网已经悄悄从日常生活的电器用品,拓展到汽车产业;不过值得注意的是,智慧联网的安全性问题也将更被放大,特别是当骇客有机会远端控制用户的车辆或甚至锁住煞车时,后果是无法想像的。

近期的语音辨识热潮,让MEMS麦克风备受瞩目,其在联网汽车的应用领域占有着一席之地,此外,亚马逊(Amazon)近期推出的智慧家庭声控设备,也一举导入七颗MEMS麦克风,允许使用者在家中不同位置都可控制联网和影音操作的语音指令。当个人电脑的显示、储存、运算、输入输出等功能,由电视、家电、手机、汽车等智慧装置取代时,这样的智慧联网空间所需的人机介面,将会是穿戴式装置最能符合人们对便利性的期待。

目前市面上的智慧穿戴装置,多内建了加速度计与陀螺仪等惯性感测器,可以推断配戴者的动作,来发出控制指令。

如使用者将手往上举,便能开启房间电灯;手机来电时,点头便能开启扩音通话;或将食指放到嘴前,客厅的音响就会关闭。然而,往后穿戴装置的操作技术一定不仅限于上述所说的这几种,未来穿戴装置可能有机会或持续发展小面积触控、头部动作、眼球追踪、四肢动作、投影触控、脑波控制等功能。

体感介面为上述操作技术的共通点,特别是在影像类型的手势辨识中。

如工研院已利用智慧眼镜上的3D摄影机来做感测,创造出空中触控虚拟画面的操作方式,智慧眼镜商SpaceGlasses也在2014年推出内建空中手势辨识技术的3D智慧眼镜。

英特尔(Intel)也在2014年发表RealSense3D摄影机技术,让个人电脑、平板电脑等资讯产品,达成脸部辨识、情绪追踪、十指空中手势辨识等功能。凭藉Intel在业界的力量,未来每台个人电脑都有可能会直接内建此技术,以大幅降低辨识空中手势技术的成本。

穿戴装置上的惯性感测器可以感知人类的四肢动作,而头戴装置上的3D摄影机能侦测手势动作;另外,靠近头部的穿戴装置所内建的麦克风则可以接收语音指令。

当穿戴装置已能感知人类所有身体动作的时候,人类最基本的自然讯号:口语语言与身体语言便会成为最后的人机介面。

当穿戴装置以上述最自然的方式发出控制指令,操弄任何智慧联网上的装置,原本要坐在电脑前的行为,只要挥手、说话就能达成,这样的情境称为“有机运算”。 “有机运算”是指人类身边大量具感测器的智慧装置,其具自动感测数据、互相连结、主动运算与分析等功能,还能自动执行相关指令,有如人体的运作模式;而穿戴装置在这样的情境中将扮演关键的人机介面角色。虽然这样的未来还有许多技术尚待克服,但相信凭着目前资通讯科技(ICT)产业强大的技术研发能力,定能加速实现。

(本文作者任职于资策会智通所)

推荐阅读:

【get技能】增强设备技能的传感器融合解析

无边框手机大热背后:国产手机市场缺乏创新

从女司机被打事件深度分析行车记录仪方案
相关资讯
从分销龙头到智造推手:大联大如何以“双擎计划”重构半导体生态价值链?

在全球半导体产业深度变革与工业4.0深化阶段,大联大控股以创新驱动与生态协同的双重引擎,再度彰显行业领军地位。据Brand Finance 2025年5月9日发布的“中国品牌价值500强”榜单显示,大联大品牌价值同比提升12.3%,排名跃升至第218位,连续三年实现位次进阶。这一成就不仅源于其在亚太分销市场28.7%的占有率(ECIA数据),更与其“技术增值+场景赋能”的战略转型密不可分。面对工业数字化万亿规模市场机遇,公司通过深圳“新质工业”峰会推动23项技术合作落地;凭借MSCI连续三年AA级ESG评级,构建起覆盖绿色供应链与低碳创新的治理架构;而在汽车电子赛道,则以“生态立方体”模式缩短技术创新产业化周期。随着“双擎计划”的启动,这家半导体巨头正以全链协同之势,重塑智造升级的技术底座与商业范式。

AMD对决NVIDIA:Radeon AI Pro R9700能否撼动RTX 5080的市场地位?

2025年5月21日,AMD在台北国际电脑展(Computex 2025)正式发布首款基于RDNA 4架构的专业显卡Radeon AI Pro R9700,标志着其在AI加速领域的全面发力。该显卡采用台积电N4P工艺打造的Navi 48芯片,晶体管密度达到每平方毫米1.51亿个,相较前代提升31%。凭借32GB GDDR6显存、1531 TOPS的INT4算力及四卡并联技术,R9700瞄准AI推理、多模态模型训练等高负载场景,直接挑战NVIDIA在专业显卡市场的统治地位。

革新电流传感技术:TMR电流传感器的核心技术优势与市场蓝海分析

在工业自动化、新能源及智能电网领域,电流检测的精度与可靠性直接影响系统安全性与能效表现。传统霍尔(Hall)电流传感器因温漂大、响应速度慢等缺陷,已难以满足高精度场景需求。多维科技(Dowaytech)基于自主研发的隧道磁电阻(TMR)技术,推出了一系列高精度、低温漂、高频响的电流传感器,成为替代传统方案的革新力量。

半导体巨头Wolfspeed深陷债务危机 或启动破产重组程序

全球碳化硅半导体龙头企业Wolfspeed正深陷债务危机漩涡。据路透社、彭博社等多家权威媒体援引知情人士消息,因未能与债权人就数十亿美元债务达成重组协议,该公司或于未来两周内启动《美国破产法》第11章程序寻求债务重组。受此消息影响,其股价在盘后交易中暴跌57%,市值单日蒸发超10亿美元。这场危机不仅暴露了第三代半导体企业在技术商业化进程中的财务风险,更引发市场对碳化硅产业链稳定性的深度担忧。截至发稿,Wolfspeed官方尚未就破产传闻作出正式回应,但此前财报中关于“持续经营能力存疑”的预警已为此次风暴埋下伏笔。

芯片厂商Microchip发起价格攻势 PolarFire系列降价30%抢占边缘计算市场

全球半导体行业正经历深度调整之际,美国芯片大厂Microchip于5月20日宣布对其PolarFire FPGA(现场可编程门阵列)及SoC(片上系统)产品线实施30%幅度的价格下调。这一战略性定价调整源于EEnews europe披露的内部策略文件,标志着该公司在边缘计算领域发起市场份额争夺战。