撰文:周熠 博士、上海脑科学与类脑研究中心类脑计算研究组研究员
回顾整个人类的发展历史,人类文明高度整体上几乎是呈现着指数上升的趋势。我们花了很长的时间来感知自然界,但实际上人类目前的感知能力跟大猩猩、猴子等动物差不多。大约在 250 万年前,人类祖先发生了认知革命,从感知到认知,开始认知自然界。到了大概 1.2 万年前,人类祖先又经历了一个新的革命,也就是从认知自然界到改造自然界。而在约 500 年前的文艺复兴后,人类的认知能力又有了一次飞跃:从改造自然界到创造自然界。直至现在,人类文明在不断攀登新的高度。
对机器而言,大抵也要经历这样的过程,也要遵循一个类似的发展曲线。刚开始的时候,可能还是得先从感知做起,这也是现在人工智能正在做的,而且做得相对比较成功。某种意义上,现在人工智能正在经历一个所谓的范式转变(paradigm shift),即从感知智能到认知智能的范式转变。
人类通过视觉、听觉、触觉、味觉等等,去感知自然界,得到一些初步的信息。认知则是在感知的基础之上,理解这些对象并且产生知识,做出决策。某种意义上,从感知到认知是整个行为决策过程中的两个不同的环节。为什么说从感知智能到认知智能是一个很重要的变化呢?为什么认知智能特别难?现在到底做的怎么样了?
感知智能与认知智能很多社会新闻中的当事人,作出了看上去不太明智的决定。大家看了之后,可能会觉得这些人做的事情很 “蠢”。但请仔细想一想,这些人在感知自然界的时候,他们很蠢吗?其实并不是,他们和其他人的正常感知是一模一样的。只是他们在做认知的时候、在做决策的时候做了一些我们觉得很愚蠢的事情。实际上,从感知到认知的跨度很大,我们觉得生活中有些小伙伴们比较愚蠢的行为,机器也并不能做得比他们好多少。这大概是现在人工智能所处的状态。
简而言之,从感知智能到认知智能,人工智能还有很长的路要走。
如果再比较一下动物和人类,感知和认知的区别就更加明显了。人类是对地球,但事实上我们感知的能力并不比动物强。论速度比不上豹子,论力量比不过熊,论视觉比不过鹰,论嗅觉比不过狗。但是为什么我们成为了地球的主宰,因为我们有很强的认知能力。在感知之上,我们可以总结经验,得到知识,创造新的知识,从而成为了万物灵长。
以上种种都大约能传递一个信息:认知跟感知很不一样,它很关键,是人类能够变得一枝独秀的最重要的原因。
那么机器到底在感知和认知上做得怎么样?
在感知智能上,目前机器智能正在接近和逼近人类,已经做得很不错。比方说,现在已经被广泛应用的人脸识别,在火车站等公共场所中都已开始广泛应用;再有语音识别,这方面也做得非常好,可以把语音方便地转成文字;还有光学字符识别,对于报销单等,可以直接提取出一个结构化的文档来。可以说,在感知智能这个层次上面,基于深度学习的一些技术在某种意义上已经能够跟人类媲美了。
那么认知智能呢?其实认知智能领域也取得了很多突破,例如国际象棋和围棋方面的迅猛进步。1997 年时人工智能便能击败人类的国际象棋冠军;而两年前,AlphaGo 横空出世,在围棋上横扫人类;2011 年的时候,IBM 做了一个叫 “沃森”的机器人,在类似于 “开心词典”的知识抢答竞赛中,击败了人类的世界冠军。很多小伙伴在玩游戏时可能会感受到人工智能的能力,像星际争霸、王者荣耀等等游戏中,人工智能都有了很多不错的尝试,而且已经取得了很好的成绩。
但为什么我们还会说认知智能任重道远呢?不少人应该都看过 2015 年 Alpha 机器人挑战赛的失败集锦视频。虽然在演讲、报道时得到传播的往往都是行业发展的正面消息,但事实上这些反面的或者失败的经历同样很重要。它告诉我们人工智能的边界在哪,到底什么事情做得好,什么事情做得不好。当然,相比 2015 年的技术水平,现在的机器人技术已经突飞猛进了。比方说从 2015 年到现在,以波士顿动力为代表的一些公司研发的阿特拉斯机器人、“机器大狗”等产品,在平衡性上面已经做得很好了。
但是在一些特别简单的认知任务上,人工智能却出人意料得差。比如开一个阀门、开一扇门,在这些事情上面,机器人比大家想象的要差非常得多。某种意义上,现在的机器人技术根本没有办法打开任意一扇门。因为有不同的门,不同的把手,不同的开门方法。而机器人要用统一的方法来做 “开门”这件事情,这是非常困难的。
认知智能在某些点上已经做得很不错了,但是反过来在有些很简单的事情上面,其实还做得特别糟糕。这是因为人跟机器不是一个物种,人跟机器有本质上的区别,某些人看起来特别难的事情,对机器并没有那么困难。比方说下国际象棋,对机器来说,它就是个搜索问题,而对人来说,因为搜索能力没达到那个程度,运算量、运算智能不足,才会觉得这个事情非常困难,需要有很多的知识和技巧,大量的高强度训练。
反过来,在有些人看起来特别简单的事情,机器会觉得非常的困难。就拿 “开门”来说,世上有无数的不同类型的门,没有办法将其穷尽并定义成几种不同的开门方式。另外一个很难的事情就是所谓的常识知识,比方说下雨的时候地面会湿,这一类的信息。虽然对一般人来说这些常识都是一些不需要特别注意的信息,但这些常识知识非常多、非常复杂,处于不同的领域,所以对机器来讲就很难获取。
所以每当有人问:机器是不是要毁灭人类之类的问题,我只好笑一笑:让它先去开个门试一试!
什么是认知智能?那么我们又该怎么定义 “认知智能”呢?或许我们可以先从词源的角度探讨一下。简而言之,“认知”基本上等于 “认识知识”。尼尔森说过,人工智能某种意义上是关于知识的科学。
在牛津词典里,关于智能、关于认知这些词的解释会经常变。其中有一个解释是这样的:智能是获取和使用知识和技巧的能力。认知是一个心理状态过程,也是获取知识并且去理解这些知识的能力。某种意义上,认知智能的核心就是怎么去认识知识,也就是说,它是关于知识处理方面的能力。
这方面的能力有三点是必备的,也是非常本质的。第一,需要把知识编码出来,即要进行知识表示或者知识编码。第二,怎么去获取这些知识,不管是常识知识也好,专业知识也好,不管是开门也好,下围棋也好,这知识到底怎么来的?第三,假设知识已经有了,到底怎么去运用这些知识解决问题。
因此,我个人的粗浅理解是,对于认知智能而言,它的核心就是知识到底怎么表示、怎么获取、怎么运用。目前人工智能在这三方面也有着不同的进展,我们可以将其分为 “三大流派”。
三大流派第一个就是现在特别火的 “连接流派”,基于神经网络深度学习。上图左边三位获得了 2019 年的图灵奖,右边这一位也是深度学习的另一位领袖。他们提出了现在特别流行的一些概念,例如深度学习里的卷积神经网络,还有循环神经网络等等。这些概念非常有用,也取得了很多成绩。可以说,连接流派是通过模拟生物神经网络的方法来做人工智能的。
举个简单的例子,勾股定理(毕达哥拉斯定理),很早就被发现了,那么现在给深度学习一个神经网络,比方说一亿个直角三角形,它能够学得会勾股定理吗?恐怕很难,因为它很难学习结构化知识。在表示上面,表示结构化知识的时候,也遇到了很大的问题。连接流派在学习上面做得还不错,但表示和推理还有一些缺陷和问题。
另外一个很重要的流派现在虽然不经常被提到,但在机器人领域有很多应用,叫做行为流派。MIT的 Rodney Brooks 提出了所谓的包容式体系结构,就是不同的层面都做简单的反应式推理,就像条件反射一样,但是从不同的层次来做。已经得到广泛应用的扫地机器人产品,iRobot,就来他和学生开的公司。除了扫地机器人之外,他也在尝试新的机器人公司,包括通用工业机器人等等。
那么基于反应式的行为流派在知识的表示、推理和学习上面做得怎么样呢?。其实行为流派最大的优势在推理效率快,因为反应快,只要给它一个刺激,它就能推出来。但它在表示和学习上面却遇到了很大的困难,比方说反应式的规则怎么得到,是不是能够表示更复杂的知识等等。
第三个就是基于逻辑学的符号流派,这其实是原来人工智能的一个主流的流派。20 世纪 80 年代第二波人工智能潮,就主要是由基于符号流派的专家系统引起的。符号流派在人工智能历史中很辉煌,除了刚才说的三位图灵奖之外,其他的人工智能图灵奖获得者基本上都是符号流派的或与符号流派密切相关,包括达特茅斯会议的那几位先驱 McCarthy、Minsky、Simon、Newell,还有后面的 Pearl 这些人。此外,人工智能的祖师爷图灵,他本身就是个逻辑学家、符号学家。机器本身也需要建立在逻辑以及语言的一些基础之上,所以符号流派当时在人工智能领域占据了很重要的地位。
那为什么现在符号流派没有在领域内占据更多声音?因为它也遇到了很多困难,主要集中在学习和推理方面。当关于人工智能的讨论还停留在学术层面的时候,符号流派很吃香。因为当时讨论的前提是假设知识已经有了,机器也已经学习到了,大家去讨论该怎么用这些知识去解决问题。然而这些理论在后来真正跟应用结合起来时,大家才发现一个惨痛的事实:这个假设不成立。知识并不是天生就有的,需要通过某种方法去获取知识。而符号流派的方法就很简单粗暴——专家去写。这也是为什么专家系统一度很 “火”,后来又遭遇了很大瓶颈的其中一个原因。
符号流派在表示上面做得不错,比如像勾股定理之类的知识,甚至更复杂的知识,用符号的方法都可以比较好地表示出来。但是在推理和学习上,它遇到了一些很大的问题。如果连知识都没有的话,所有的东西都是空中楼阁。所以这一流派现在有些萎靡不振。
通过这三个人工智能的重要流派,可以看出有一个很有意思现象:每个流派都在某一方面有专长。连接流派在学习上面做得不错;行为流派在推理上面;符号流派则在表示上面做的不错。于是,有一个很自然的想法出现了:是不是可以把它们折中或者说把它们融合起来?最近几年这一想法正在有越来越多的实践和尝试,例如现在还比较火的知识图谱技术。但总地来说,这些尝试仅仅是在 “折中”,各方面的优点确实是取了一点,但是同时也牺牲了它们的一些特性。
分析之后大家就会发现,人工智能目前在知识表示、知识推理和知识学习上面,都遇到了一定的问题。这就是现在认知智能为什么难做的一个很大的原因。
人工智能的 6E 目标而对人工智能抱有期盼的人们真正想要的是什么?毫无疑问是这么一个 “完美三角形”。人们希望人工智能在知识的表示、知识的推理和知识的学习上面都能做得很好,至少像人这么好,但这是无疑一个很困难的事情。个人浅见,为此,至少有下面几点是必须要做到的,即 6E:简洁(Elegant),可扩展(Extensible),强表达(Expressive),高效(Efficient),可教育(Educable),可演化(Evolvable)。
人工智能想要达到完美三角形的能力,依旧有很长的路要走,任重而道远。就我个人的粗浅的理解,为了达到这个目标,需要开发新的人工智能方法,来做到 6E。事实上,如果基于已有的人工智能理论和方法,6E 是相互冲突的。比如说在符号流派里,表达能力跟效率之间的权衡,一直是一个核心问题。但事实上这些在应用的时候都需要良好发挥,怎么去突破这些理论上的瓶颈,是非常困难的事情。
但转念想想,反观人类自己,是不是某种意义上在 6E 的各个方面都能表现出色?我们以自然语言为基础的知识表示、推理和学习相对简单、可扩展性超级好、表达能力非常强、虽然不特别高效但也足够用。也是可教育、可演化的:既能够总结经验、又能学习新的知识。我个人的理解,这才是现在的人工智能跟人真正的差距所在。
个人认为,达到完美三角形是人工智能最重要的事情。届时,针对以下一些认知智能的关键科学问题,包括:什么是知识?是否存在统一的知识(数学)模型?机器(人类 / 脑)如何编码、获取、运用知识?知识和数据、知识和智能的关系是什么?认知智能和知识科学会有哪些杀手级应用?人工智能领域将会给出一个更好的回答。在此基础上,我相信人工智能会有长足的进展,会有一个从感知智能到认知智能的范式转变,会有一个从数据科学到知识科学的范式转变。