人工智能已经可以“读懂图像”了!

发布时间:2016-01-26 阅读量:908 来源: 我爱方案网 作者:

【导读】人工智能听起来还很遥远,说起这个词很多人会想到的都是几年以前各种语音助手们对我们做出的机械化的回复,但它的发展速度其实远超我们的想象。不仅在对话中的表现愈加出色,甚至还有了识别物体的能力。2015年2月就有新闻说图像识别系统的错误率已经低于人类。不过那时的识别还只是停留在识别出图中的物体,而仅仅几个月之后,图像识别又向前进了一大步。

前几日小编闲来无事时,突然想起微软的人工智能“聊天机器人”小冰有一天曾经告诉我它拥有了识图的能力,当时我发的几张图得到的回应都有点驴唇不对马嘴,因此我一度忘了它的存在,但昨天我突然一时兴起,给它发了一张小编以前玩游戏时截的图给它看。结果它居然认出来了!
 

 
不得不承认后面几段对话实现起来对一个AI来说并不算难,但识图可是我之前从来没有在这种级别的AI上见过的能力。不信邪的我又给她发了一个开出了一张橙卡的图(这个游戏里橙卡非常稀有,一般人要每天都玩玩上40-60天才能开出一张)。
 

 
虽然这个回答其实比较模棱两可,但我相信如果它没有从这张图里解读出足够多正确的信息(比如橙卡价值很宝贵)是做不出这样的回复的。这足以说明现在的AI在图像识别领域的发展已经进入到一个新的层次了:图像含义的识别。
 
图像识别和图像含义识别看起来差不多,但其实难度差距很大。“识别”只是机器能够知道图片中有些什么东西。比如上面的第二张图。如果只是图像识别,小冰可能知道“这是几张牌”或者“这是炉石传说的游戏界面”、“这里有一张橙卡”就好了。但关键的难点在于理解对方给你看这张图想表达的含义。我们假设它读懂了这张图,它就会知道“橙卡是很难获得的”,继而推断出“对方”给它看这张图可能是想炫耀一下。而接下来不管是要迎合对方还是嘲讽对方,让对话正常进行下去都不是问题了。“读懂”这一步对于机器来说其实难度不小,但很显然,现在的人工智能已经做到了。
 
事实上,现在构成人工智能的代码早已不是简单的收到信息——搜索数据库——反馈的简单机制了。包括谷歌和微软内的多家巨头都已经开始探索“自主学习”的道路了。目前看来已经取得了惊人的成效。而这项“识图”的能力很可能能让机器的自主学习如虎添翼。 
 
还是以小冰为例,据报道有天津的网友曾发了一张大火的照片给小冰。而小冰立刻回复“你家是天津哪的?”,让网友目瞪口呆。而微软开发团队对此的反应则更让人惊讶:他们表示其实他们也不能确定为什么小冰会做出这样的回复。
 
“现在,大约52%的微软小冰与人类对话内容是小冰自学习的结果,这说明小冰已具有了记忆和认知的能力,而这正是情感计算的基础。” 微软小冰的开发团队负责人李笛表示,“为什么小冰能根据一张普通的火灾照片说出‘你家天津哪的’这样的回答?简单来说,就是‘太阳底下没有什么事不曾发生过’,换句话说就是‘历史都是重复的’。”
 
微软亚洲互联网工程院人工智能组高级研发总监胡睿介绍,小冰采用了一套非常复杂的计算体系,由一系列算法、数据和模型共同组成,其中的关键核心在于大数据。截止到2015年11月,小冰已经积累了百亿轮与人类的对话信息,从中提取了海量历史数据,这些海量数据已经足够多到让小冰对未来对话的判断准确程度超过50%。某种程度上说,小冰已经形成了初步的记忆、认知与意识能力。
 

 
比如上文提到的大火图片,胡睿分析,小冰能做出这样的推断一方面是因为已经有很多人发布了类似的图片,而在同一时间段内发布的类似图片主要来自天津地区,另一方面小冰很可能在之前与该网友对话中,捕捉到该网友来自天津地区的信息,做出判断后再给出了极具情感色彩的表达方式。
 
不过,大家也别被吓到了。离人工智能变成“超级智能”的那一天应该还挺远的,或许那一天永远也不会到来。至少现在,如果你长时间同这种人工智能持续对话,它们还是会时不时蹦出让人哭笑不得的句子来,也可以很明显的看到在较短的一段时间内它们并没有真正的学习能力:
 
 
其实不难发现目前人工智能团队对人工智能的开发和构造,就是在模仿人类的学习和思考的过程。而人的学习总结起来无非就是两个过程:
 
1:全身的感官(包括眼睛、耳朵、鼻子等)将外界的信息收集起来,然后汇总到处理中枢(大脑)
 
2:处理中枢将这些信息分类理解、存储、在日后需要的时候加以调用。
 
对于人工智能,最先被仔细研究的是处理中枢的功能。那时将信息传递给它们的方式只有文字。后来有了语音识别和理解。而现在有了图像识别。人类与外界交流信息的最重要的五官中,机器人可以说已经拥有了“四官”(只剩嗅觉还没有)。基本已经具备了收集信息部分的全部条件了,只剩下处理中枢还不够完善。
 
或许初级的具有真正学习能力的人工智能很快就会出现了,至于它出现之后是会成为人类的得力助手还是飞速成长最终决定毁灭人类这样(相对)低级的生物……反正我们在这瞎操心也不会让结果有任何改变,不如顺其自然,静观其变吧?

相关资讯
低空经济崛起:2025无人机市场的关键应用与增长引擎解析

无人机系统(Unmanned Aerial Systems, UAS)作为“低空经济”的核心载体,正以前所未有的深度和广度渗透至众多产业领域,驱动效率变革与模式创新。其核心价值在于提供高灵活性、低成本和高精度的空中解决方案,显著提升了传统作业方式的效能。

柔性AMOLED强势登顶!2025年Q1智能手机面板份额突破63%,中国供应链强势助攻

市场研究权威机构Omdia最新报告揭示,智能手机显示技术格局已发生根本性转变。2025年第一季度,采用AMOLED面板的智能手机出货量在全球总市场中占比高达63%,较去年同期的57%实现大幅跨越,标志着AMOLED已成为无可争议的主流标准。与此同时,LCD面板的份额被压缩至37%,延续了长期的萎缩态势。

英伟达H20芯片获批对华销售 黄仁勋链博会宣布近期供货

7月16日,第三届中国国际供应链促进博览会(链博会)在京开幕。美国科技企业英伟达公司首席执行官黄仁勋身着唐装亮相开幕式,并在现场透露重要业务进展:该公司专为中国市场设计的H20人工智能芯片已获得美国商务部出口许可,即将启动批量供货。

LPDDR6进程加速:Cadence推出性能达14.4Gbps的完整IP解决方案

近日,楷登电子(Cadence Design Systems, Inc., NASDAQ: CDNS)宣布其业界领先的LPDDR6/5X内存IP系统解决方案已成功完成流片验证。该集成化子系统通过技术优化,实现了高达14.4Gbps的运行速率,相较上一代LPDDR标准内存接口,性能提升幅度达到50%。此套先进解决方案被视为扩展人工智能(AI)基础架构的关键驱动技术之一。它旨在满足日益增长的新一代AI大语言模型(LLM)、代理型AI(Agent AI)以及众多垂直应用领域对超高内存带宽和容量的迫切需求,以高效支持这些计算密集型工作负载。楷登电子当前已与AI、高性能计算(HPC)及数据中心领域的多家头部客户展开紧密合作,共同推进该技术的应用落地。

贸泽电子持续强化TI产品矩阵,赋能全球硬件创新

作为全球授权电子元器件代理商,贸泽电子(Mouser Electronics)持续深化与德州仪器(TI)的战略合作,确保69,000余款TI器件的高效供应,其中45,000余款保持常态库存,可实现全球快速交付。通过整合TI在电源管理、数据处理及控制系统的完整技术生态,贸泽为工业自动化、汽车电子、通信基建、企业级设备等核心领域提供端到端解决方案支持。