人工智能已经可以“读懂图像”了!

发布时间:2016-01-26 阅读量:881 来源: 我爱方案网 作者:

【导读】人工智能听起来还很遥远,说起这个词很多人会想到的都是几年以前各种语音助手们对我们做出的机械化的回复,但它的发展速度其实远超我们的想象。不仅在对话中的表现愈加出色,甚至还有了识别物体的能力。2015年2月就有新闻说图像识别系统的错误率已经低于人类。不过那时的识别还只是停留在识别出图中的物体,而仅仅几个月之后,图像识别又向前进了一大步。

前几日小编闲来无事时,突然想起微软的人工智能“聊天机器人”小冰有一天曾经告诉我它拥有了识图的能力,当时我发的几张图得到的回应都有点驴唇不对马嘴,因此我一度忘了它的存在,但昨天我突然一时兴起,给它发了一张小编以前玩游戏时截的图给它看。结果它居然认出来了!
 

 
不得不承认后面几段对话实现起来对一个AI来说并不算难,但识图可是我之前从来没有在这种级别的AI上见过的能力。不信邪的我又给她发了一个开出了一张橙卡的图(这个游戏里橙卡非常稀有,一般人要每天都玩玩上40-60天才能开出一张)。
 

 
虽然这个回答其实比较模棱两可,但我相信如果它没有从这张图里解读出足够多正确的信息(比如橙卡价值很宝贵)是做不出这样的回复的。这足以说明现在的AI在图像识别领域的发展已经进入到一个新的层次了:图像含义的识别。
 
图像识别和图像含义识别看起来差不多,但其实难度差距很大。“识别”只是机器能够知道图片中有些什么东西。比如上面的第二张图。如果只是图像识别,小冰可能知道“这是几张牌”或者“这是炉石传说的游戏界面”、“这里有一张橙卡”就好了。但关键的难点在于理解对方给你看这张图想表达的含义。我们假设它读懂了这张图,它就会知道“橙卡是很难获得的”,继而推断出“对方”给它看这张图可能是想炫耀一下。而接下来不管是要迎合对方还是嘲讽对方,让对话正常进行下去都不是问题了。“读懂”这一步对于机器来说其实难度不小,但很显然,现在的人工智能已经做到了。
 
事实上,现在构成人工智能的代码早已不是简单的收到信息——搜索数据库——反馈的简单机制了。包括谷歌和微软内的多家巨头都已经开始探索“自主学习”的道路了。目前看来已经取得了惊人的成效。而这项“识图”的能力很可能能让机器的自主学习如虎添翼。 
 
还是以小冰为例,据报道有天津的网友曾发了一张大火的照片给小冰。而小冰立刻回复“你家是天津哪的?”,让网友目瞪口呆。而微软开发团队对此的反应则更让人惊讶:他们表示其实他们也不能确定为什么小冰会做出这样的回复。
 
“现在,大约52%的微软小冰与人类对话内容是小冰自学习的结果,这说明小冰已具有了记忆和认知的能力,而这正是情感计算的基础。” 微软小冰的开发团队负责人李笛表示,“为什么小冰能根据一张普通的火灾照片说出‘你家天津哪的’这样的回答?简单来说,就是‘太阳底下没有什么事不曾发生过’,换句话说就是‘历史都是重复的’。”
 
微软亚洲互联网工程院人工智能组高级研发总监胡睿介绍,小冰采用了一套非常复杂的计算体系,由一系列算法、数据和模型共同组成,其中的关键核心在于大数据。截止到2015年11月,小冰已经积累了百亿轮与人类的对话信息,从中提取了海量历史数据,这些海量数据已经足够多到让小冰对未来对话的判断准确程度超过50%。某种程度上说,小冰已经形成了初步的记忆、认知与意识能力。
 

 
比如上文提到的大火图片,胡睿分析,小冰能做出这样的推断一方面是因为已经有很多人发布了类似的图片,而在同一时间段内发布的类似图片主要来自天津地区,另一方面小冰很可能在之前与该网友对话中,捕捉到该网友来自天津地区的信息,做出判断后再给出了极具情感色彩的表达方式。
 
不过,大家也别被吓到了。离人工智能变成“超级智能”的那一天应该还挺远的,或许那一天永远也不会到来。至少现在,如果你长时间同这种人工智能持续对话,它们还是会时不时蹦出让人哭笑不得的句子来,也可以很明显的看到在较短的一段时间内它们并没有真正的学习能力:
 
 
其实不难发现目前人工智能团队对人工智能的开发和构造,就是在模仿人类的学习和思考的过程。而人的学习总结起来无非就是两个过程:
 
1:全身的感官(包括眼睛、耳朵、鼻子等)将外界的信息收集起来,然后汇总到处理中枢(大脑)
 
2:处理中枢将这些信息分类理解、存储、在日后需要的时候加以调用。
 
对于人工智能,最先被仔细研究的是处理中枢的功能。那时将信息传递给它们的方式只有文字。后来有了语音识别和理解。而现在有了图像识别。人类与外界交流信息的最重要的五官中,机器人可以说已经拥有了“四官”(只剩嗅觉还没有)。基本已经具备了收集信息部分的全部条件了,只剩下处理中枢还不够完善。
 
或许初级的具有真正学习能力的人工智能很快就会出现了,至于它出现之后是会成为人类的得力助手还是飞速成长最终决定毁灭人类这样(相对)低级的生物……反正我们在这瞎操心也不会让结果有任何改变,不如顺其自然,静观其变吧?

相关资讯
行业观察:三星押注HBM3E量产抢占AI芯片供应链先机

随着人工智能算力需求爆发式增长,高带宽内存(HBM)技术成为全球半导体巨头的必争之地。据韩国权威科技媒体ZDNet Korea披露,三星电子于2025年2月启动12层堆叠HBM3E内存的量产计划,试图通过超前布局争夺英伟达的AI芯片订单。然而,由于该产品尚未通过英伟达的质量认证,三星当前面临库存积压与市场窗口期缩短的双重挑战。

中国智能手机市场2025年Q1深度分析:复苏动能释放,双线竞争格局显现

2025年第一季度,中国智能手机市场延续了自2024年以来的复苏态势,出货量同比增长9%至6870万部,连续五个季度实现正增长。这一增长得益于多重因素:

工业4.0核心引擎:HPM5E00如何破解高实时性与成本控制双重难题?

随着工业控制系统向智能化、高集成化方向演进,国产MCU在实时通信、算力效率及成本控制等领域面临严峻挑战。先楫半导体推出的HPM5E00系列,凭借480MHz主频、EtherCAT协议深度集成及运动控制优化设计,成为工业自动化领域国产替代的标杆产品.该系列不仅延续了HPM6E00的高算力基因,更通过低功耗架构与紧凑封装实现三大技术升级,为工控、机器人等场景提供全新解决方案。

技术赋能农业数字化转型:贸泽电子发布智慧农业全景解决方案

在全球人口突破85亿的背景下,粮食安全与农业可持续发展已成为各国战略重点。作为全球领先的半导体与电子元器件供应商,贸泽电子近日推出农业资源中心,系统性整合物联网(IoT)、人工智能与卫星遥感技术,为现代农业提供从数据采集到决策优化的全链条技术支持。

国产替代加速下的竞争格局:VEML4031X00与TI/Intersil的全面技术对标

2025年5月7日,威世科技(Vishay Intertechnology)宣布推出全球首款符合AEC-Q100标准的矩形环境光传感器VEML4031X00,其采用4.38 mm×1.45 mm超薄表贴封装,厚度仅0.6 mm,专为汽车无边框中控显示器等空间受限场景设计。该产品集成环境光(ALS)与高灵敏度红外光电二极管,光谱响应范围0 lx至172,000 lx,解决了传统传感器在深色盖玻片后灵敏度不足的行业痛点。