“强认知”的心理学研究--来自AlphaGo的启示_心理学论文

“强认知”的心理学研究--来自AlphaGo的启示_心理学论文

“强认知”的心理学研究:来自AlphaGo的启示,本文主要内容关键词为:认知论文,启示论文,心理学研究论文,AlphaGo论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      中图分类号:B84-05 文献标识码:A 文章编号:1006-6020(2016)-01-0003-09

      1 引言

      谷歌(Google)公司研发的围棋程序AlphaGo近期与人类围棋冠军李世石的对战轰动了全世界。李世石作为人类围棋界最高水平的代表,竟然以1∶4的结果惨败于一台冰冷的机器。这一结果使无数专业人士和非专业人士感到震惊、迷茫甚至愤怒,人类脆弱的自尊受到严峻挑战。其实2015年10月,AlphaGo就曾以5∶0完胜欧洲围棋冠军樊麾,只不过当时人们尚存侥幸,认为有种种理由可以解释该结果:樊麾在对弈中并未发挥其应有水准;樊麾并不能代表人类围棋界的最高水平;樊麾可能由于种种原因有意输掉了比赛。然而,当此次大战落幕后,再也无人质疑AlphaGo的棋力,一致承认其具有超一流围棋棋手的水平。于是在最新世界围棋排行榜上出现了一个没有性别、没有国籍的非人类名字—AlphaGo,排名世界第二,仅次于柯洁。

      这场围棋大战引发了舆论狂潮,人们纷纷惊呼“奇点”①来临,认为人工智能即将超越人类智能,并脱离人类的控制,迅速改变甚至终结人类文明。也许人工智能在某些方面和某些领域终有一天会比人类更强,但这一天的来临可能还需要几十年,或许上千年,且需要以人类智能的深入研究为基石。作为心理学工作者,我们尚无法对人工智能的未来做出准确预测,然而更重要的是,在人工智能迅猛发展的形势下,心理学研究的走向却值得深思。本文从AlphaGo的实现方式和工作原理出发,着重探讨人工智能技术对于心理学研究的启示,提出了“强认知”的心理学研究取向,旨在为推进学术研究提供新思路。

      2 AlphaGo的算法原理

      AlphaGo的围棋算法并不神秘,相关论文(Silver et al.,2016)已于今年1月发表于Nature,一些前期的技术积累(e.g.,Mnih et al.,2015)则更早见诸学术期刊。计算理论认为,棋类游戏属动态规划(dynamic programming)问题(Bellman,1954),其核心原理是在所有可能的行为空间中寻找最优解。Bellman(1957)提出了此类问题的理论解法,也就是人工智能领域所熟知的贝尔曼方程(Bellman equation),该方法已广泛应用于离散时间最佳化问题的动态规划。然而,正如贝尔曼本人所指出的,虽然他的解法理论上可行,但受到了维度的诅咒(curse of dimensionality)。一旦行为空间的维度过高(每一步可能的行为过多,或达到目标所需步数过多),将导致运算量过大,从而使解法无法实现。具体到棋类游戏上,国际象棋每手棋有35种可能的走法,完成一盘棋约需80手,共计3580种可能。1997年,IBM的深蓝计算机采用手工编码规则,通过搜索所有可能的走法,击败了当时的国际象棋世界冠军。围棋平均每手有250种走法,每盘约需150手,共计250150种可能。因此,即使在20年后的今天,电脑运算速度获得了大幅提升,但遍历搜索所有的行为空间也是难以实现的。

      解决维度的诅咒问题必须缩小搜索空间,降低搜索的广度和深度。许多传统围棋程序通过启发式策略、学习算法等方法达到该目的。AlphaGo则结合了当今人工智能中三个本无太大交集的研究领域:强化学习(reinforcement learning)、深度学习(deep learning)、蒙特卡洛模拟(Monte-Carlo tree search),实现了高效的搜索。

      强化学习是其核心思想,即个体通过感知环境状态选择下一步的行为,并接受环境返回的反馈,强化那些得到高奖赏的行为。针对围棋问题,就是通过学习,使AlphaGo在输入当前局面信息后,输出能导致较高胜率的一手棋。基于该思想,谷歌公司工程师们设计了两个人工神经网络——策略网络(policy network)和估值网络(value network)。前者用于产生下一手棋,而后者用于评估某个局面的胜率。策略网络采用人类棋手数据进行训练,以学习人类下棋的策略。由于训练人工神经网络需要大量数据,工程师们从国际围棋网站上选取了三千万局对弈数据,从每局中抽取一手,共三千万手,用以训练策略网络。为达到更好的训练效果,在此之后AlphaGo用策略网络与自己对弈,产生出新的三千万局数据,再次用于训练。AlphaGo由此习得了人类棋手的下棋策略,学会针对某个特定局面,大多数人如何选择下一手的策略。仅使用策略网络,AlphaGo已经能战胜大多数棋手和其他围棋程序,但面对围棋高手仍有差距。因此工程师们加入估值网络,用以精确计算每一种走法所产生的收益。工程师同样采用大数据对估值网络进行训练,使之能根据当前局面较为准确地估计出胜率。在对弈过程中,AlphaGo采用蒙特卡洛模拟方法,针对当前局面,根据策略网络的建议,有限制地向前模拟展开行为树,并用估值网络对每种走法的胜率进行估计,在展开足够的搜索后选择最优的下一手棋。

      综上所述,AlphaGo的致胜关键可简要概括如下:采用策略网络和蒙特卡洛模拟缩小搜索广度和深度,同时采用估值网络精确评估每一种走法的胜率,并将线下深度学习与在线高效搜索相结合,从而获取围棋问题的有效解法。这是谷歌工程师们创造性地结合了当前人工智能领域数种最先进技术的结果。

      3 人类智能的平凡与伟大

      当人类在引以为傲的围棋项目上落败后,一个令人焦虑的问题浮出水面:人工智能是否已经(或者即将)全面超越人类智能?基于对心理学理论和AlphaGo算法的深入分析,笔者的回答是否定的。笔者认为,在相当长的一段时间内,对人类智能的心理学研究都能对人工智能的发展起积极的导向作用。

      诸多原因导致人们产生了人工智能已经超越人类智能的错觉,其中最主要的是对“智能”不全面的理解。在很多场合中,人们习惯把各种“智力游戏”当作衡量智能水平的标尺,其作用之一就是对个体的智能水平做出区分,如围棋的段位就是这种标尺的体现。人工智能恰恰对这种从生活的丰富情景中剥离出来,且规则明确的游戏非常擅长。相反,人类(甚至包括其他动物)所共同具有的智能,由于不具备对个体的区分度,往往被当成物种存在的背景而未引起人们的关注。这类“背景智能”恰恰是人工智能最难把握的。例如,普通的3岁儿童就能通过语言、视觉与行为的整合,对我们所处的世界有了深刻的理解。这种理解难以定义,而又随时随地以“常识”的形式表现出来。如此内涵深刻的人类智能是当今人工智能无法实现的。然而,挖掘和洞察“3岁儿童”的超越人工智能之长,对心理学工作者而言,不仅需要系统、扎实的心理学训练,而且需要“从平凡中见伟大”的视角。

      通过系统比较AlphaGo与人类的特点,笔者认为,此次围棋大战在展现人工智能快速进步的同时,也凸显了人类智能在诸多方面的优越性。强大的人工智能就像一块试金石,可以使心理学工作者更清晰地捕捉到人类智能的伟大之处。与AlphaGo相对照,笔者将心理学研究值得关注的人类智能优势从如下角度加以归纳。

      3.1 学习量与计算量

      由前述可见,AlphaGo从三千万局人类对弈棋谱中采集数据进行学习,随后又加入了自己与自己对弈产生的三千万局。可见,其棋艺是通过千万级的学习和训练量达到的。这是人类任何一个个体所无法企及的,即使专业棋手如李世石,一辈子又能研读多少局棋谱?此外,硬件上AlphaGo采用分布式计算技术,由几十到上千个CPU和GPU支撑其运算,使其可以达到2μs一步棋的计算速度,保证其在实战中能完成足够深度的蒙特卡洛模拟。换言之,AlphaGo在以每秒一百万手棋的速度思考棋局。然而,实战中的李世石每秒能做多少手精算?跟AlphaGo相比恐怕望尘莫及。因此,要达到AlphaGo的训练水平和计算速度,人类棋手大约需要活上好几万年,并将大脑容量增加几十万倍。然而,李世石竟然与AlphaGo的棋力相去不远——毕竟还赢了一局。更何况这是谷歌公司集合了当今世界最优秀算法和最先进计算硬件才得以实现的智能系统。因此就这次人机对战而言,应该是人类的而非人工智能的奇迹。AlphaGo向人们展现了当今人工智能解决计算问题的复杂性与难度,而李世石却展现了人类自身计算系统的优越性。那么,人类是怎样在如此之少学习样本的条件下,习得如此之高效的下棋策略的呢?这恰恰是值得心理学着重探讨的问题。由此可见,对人类智能的心理学研究,在相当长的一段时间内,仍将指引人工智能的发展方向。

      3.2 信息不确定性

      AlphaGo所面对的围棋问题,属完全信息(perfect information)问题,即解决该问题所需的信息都是已知的。具体到AlphaGo所采用的强化算法,该算法所需的状态信息(即当前局面)、所能采取的行动(下一手棋)以及行动所能获得的奖赏(落子之后根据围棋规则所能获得的收益)都是可以获知的。一旦上述信息存在缺失,该算法将无法有效运作,即使采用某些弥补措施,其计算效能也将大打折扣。目前谷歌公司DeepMind项目所解决的问题,都属于完全信息问题,如围棋(Silver et al.,2016)和简单电子游戏(e.g.,Mnih et al.,2015)。他们计划挑战的下一个目标,就是与人类对战“星际争霸”,该游戏中战争迷雾的设置使信息并非完全可见(知识核,2016)。这表明,处理不确定性,哪怕是电脑游戏这种被人视为“小儿科的把戏”,都是当今人工智能的难点。

      人类所面临的环境,恰恰充满了不确定性,我们不确定一扇门打开后有什么,不确定红绿灯什么时候会变色,更不确定明天股市的涨跌。然而人们在这个不确定的世界中生活游刃有余,并没有太多的无所适从。以至于很多人无法理解,为什么在谷歌的工程师看来“星际争霸”居然是比围棋更困难的游戏。因此对不确定性的处理是人工智能领域一大难点问题,同时也是反映人类智能更为优越的重要方面,从而更是心理学应关注的重要课题。

      3.3 视觉

      谷歌公司选择围棋作为突破口,部分原因是因为围棋中所涉及的视觉处理比较简单。机器视觉是人工智能领域的传统难题,很多解决方法的实现采用了绕开视觉的策略。例如在无人驾驶领域,目前对环境的感知主要是通过雷达和各类传感器获取周围空间信息的方式加以实现的,由此避开了从二维视觉图像还原三维空间的棘手问题,而依靠视网膜投影图像认知三维空间正是人类感知空间环境的主要途径。目前卷积网络(convolutional network)技术的发展很大程度上提升了机器图像处理的能力,使谷歌团队可以完成对围棋棋局和简单电子游戏画面中视觉特征的抽取和计算,从而实现从前端视觉到后端行为的完整人工智能系统。然而面对更复杂的视觉场景,现有的图像工程技术仍然力不从心。

      大多数人并未意识到视觉的计算难度,不是因为视觉问题本身简单,而是因为人类拥有一套强大的视觉系统,使我们在睁眼的一瞬间就能毫不费力地感知并理解了自己所处的空间环境。仅从数据量上比较,AlphaGo一局对弈中仅需处理几百张(一手棋一张图)棋盘大小的图像(分辨率19×19就够用),而人类日常生活中需每秒处理多帧高清图像,二者远远不在同一个数量级。而且人类可以轻易识别物体,并“看到”事物间的关系,例如看见书桌旁有个“被压扁了”的易拉罐。对这类从图像中抽取语义信息的任务,当前人工智能尚无高效、普适的解决方案。因此,对人类视觉及其机制的深入研究将为此类计算问题提供有效的解决思路,从而推动人工智能系统的跨越式发展。

      3.4 知识驱动的内部模拟

      虽然AlphaGo的策略网络和估值网络是通过人工神经网络技术加以实现的,其中并不包含有关围棋的显性知识。然而,其对弈中的关键算法之一——蒙特卡洛模拟,却是按照围棋的规则,在内部模拟比赛的进程。因此一个与外界动态交互的系统,需要有关于外部世界的知识和模型,并基于此模拟事件发展,以对未来进行预测,从而决定当前行为。在围棋世界中,知识相对简单,也即几条围棋规则的集合。而对于复杂度稍高的问题,例如前述的“星际争霸”游戏,解决方法就变得难度陡增。且不说如何实现一个可以学会游戏规则的算法,即使将“星际争霸”的游戏引擎原封不动地“教”给人工智能系统,它也不可能达到AlphaGo下围棋时的速度,则蒙特卡洛模拟无法有效进行。

      在人工智能面临上述难题时,许多相应的心理学课题就显得尤为重要。例如人是如何在上物理课之前就拥有了关于这个世界的朴素物理常识;如何形成关于他人内心活动的心理模型(即心理理论,theory of mind);儿童需要哪些核心知识(core knowledge)才能完成对常识的学习等等。这些对“他人”及“环境”的朴素知识和模型,可以让人基于此对事物的发展进行快速模拟和预测。有关人类常识问题的解决,可以为人工智能技术带来革命性的进展。

      4 强认知:人工智能时代的心理学研究

      由上述分析可见,从人工智能的视角去看待问题,有助于充分理解人类智能的优越所在。这不仅让我们能辨析哪些方向的心理学研究对当前科技的发展会有所促进,更重要的是,作为检视心理学的一面镜子,人工智能让心理学工作者把握计算问题的关键和难点所在,从而明确探究心理机制的着力点。在技术迅猛发展的背景下,人工智能无法匹敌的能力,往往也正反映了人类心智的精华。我们将这一精华定义为“强认知”。

      笔者认为,心理学研究应更积极地以“强认知”为取向。这要求心理学工作者,在正确理解计算理论的基础上,重点关注人类在面对各种复杂计算问题时超越机器的“聪明”之处,而不是满足于揭示人类面对各种简单问题时所表现出的“愚蠢”(即“弱认知”)。我们并非要否定“弱认知”研究的重要性:弗洛伊德对“无意识”的揭示(Freud,1949)是现代心理学的开端;卡尼曼对人类“非理性”的研究(Kahneman & Tversky,1979)为心理学赢得了学术界的最高荣誉“诺贝尔奖”。我们所主张的重点是,任何人类智能的局限性与消极面,都应置于“人为万物之灵”的背景下加以考虑。人类是地球40亿年进化史上最为智能的物种:人类的智慧突破了感官的局限,揭示了牛顿三定律、元素周期律与进化法则等一系列科学规律;人类的智慧还让我们的身体摆脱引力的束缚,进入太空,登上月球。因此,如果心理学的研究仅关注于人的局限,则始终无法回答这些“揭示世界运行规律”、“改变世界发展进程”的创举是如何由人的认知活动而产生的,也注定无法对人工智能、机器学习、计算机视觉等相关学科产生积极的引领作用,进而限制了心理学的社会影响力。

      更为重要的是,缺乏对计算理论的理解与把握,很可能会使心理学工作者将“强认知”误认为“弱认知”,从而让认知研究南辕北辙。以笔者熟悉的视知觉为例,过去30年关于人类视知觉的大量研究成果表明,人类的视觉加工资源极为有限:例如注意瞬脱(attentional blink;Shapiro,Raymond,& Arnell,1997)、变化盲(change blindness;Simons & Levin,1997)、工作记忆(working memory;Baddeley,1992)的容量限制(Cowan,2012;Luck & Vogel,2013)、多客体追踪(multiple-object tracking;Sears & Pylyshyn,2000)的目标数量限制(Cavanagh & Alvarez,2000)。如果缺乏对“强认知”的自觉及对计算理论的理解,很容易得出人类的知觉被层层镣铐所束缚的“弱认知”判断。相反,如果对人工智能及计算机视觉有所了解,就会得出完全相反的“强认知”判断。因为人类基于如此之少的计算资源,仍能近乎完美地实现对视觉场景从局部到整体、从具体事例到抽象概念的实时加工。这是任何人工智能及机器视觉系统,在耗费了大量的计算资源(无任何注意、记忆、追踪限制,可调用大量GPU做并行计算)的条件下,都无法达成的壮举。人类计算资源的局限必然意味着认知算法的优越。如果心理学工作者能跳出对资源限制本身的关注,而揭示其在有限资源下高效运行的计算原理,那么将对人工智能和机器视觉产生巨大的推动作用。心理学在与多学科的合作与竞争中的强势地位也可望得以确立。

      为了推动“强认知”取向的心理学研究,重新认识计算理论作为心理学理论基础和理论工具的重要性,把握当代计算理论的最新趋势,显得尤为重要。笔者将与心理学密切相关的计算科学领域新近成熟的思想和技术归纳为以下几方面:

      (1)产生式计算模型。与传统辨别式计算不同,产生式计算是一种自上而下的计算方式,与心理学中的构建概念类似。它可以实现基于少数样本的学习(人工智能一大难题),通过几个甚至一个样例就可习得概念,并举一反三产生出同类刺激。该特性与人类(尤其是儿童)的学习特点极为相似(Lake,Salakhutdinov,& Tenenbaum,2015)。因此,产生式模型在心理学领域最成功的应用体现为对儿童概念学习的建模,已有研究近乎完美地模拟了儿童由具体对象习得抽象概念的过程,并建立了概念间的层次表征(Hamlin,Ullman,Tenenbaum,Goodman,& Baker,2013; Kemp,Perfors,& Tenenbaum,2004)。

      (2)以贝叶斯推理为代表的逆向推理技术。此类技术可以帮助我们实现对不确定问题的逆向求解,其核心思想是,猜测什么原因最有可能导致目前状态的结果。该技术可用于解释人类心理理论,即通过对个体行为的观察,寻找最有可能产生当前观测行为的内部因素,从而理解他人的心理状态(Ondobaka,Kilner,& Friston,2015)。此外,贝叶斯技术在心理学其他领域,如眼跳和注意(Chikkerur,Serre,Tan,& Poggio,2010; Hoffman,Grimes,Shon,& Rao,2006; Mihali,van Opheusden,& Ma,2015)、决策(Krynski,& Tenenbaum,2007)、记忆表征(Turner,Dennis,& Van Zandt,2013)等课题的心理建模中均有成功应用。

      (3)深度学习。与传统神经网络技术不同,深度学习将抽象问题分解为多个层次加以学习,极大地提高了神经网络的计算效率。借助于深度学习技术,机器在图像识别和分类(Krizhevsky,Sutskever,& Hinton,2012)、主题和语句识别(Cho,Memisevic,& Bengio,2015)等任务中均有接近于人类的出色表现。深度神经网络学习本质上是数据驱动的辨别式模型。辨别式模型和产生式模型在绩效上均有不俗的表现,但同时也存在各自的缺陷或不足。前者需要大量数据的驱动,而后者则在构建合适的产生和推论规则时存在一定困难。新近有研究指出,两类模型可以加以结合,从而得到更优的效果(Jampani,Nowozin,Loper,& Gehler,2014)。这种结合算法有望在很大程度上逼近人类自上而下与自下而上过程协同运作的心理加工模式。

      上述计算科学的新进展,使人工智能表现出人类问题解决的特征成为可能,从而拉近了人工智能与心理学的距离。这些思想和技术也可以通过认知建模应用于心理学研究,成为构建心理学理论的工具,以推动心理学的加速发展。沿着该路径发展的心理学理论必将更利于应用,因为其理论本身即采用计算模型表达,可以很自然地与人工智能无缝对接,从而实现心理学理论研究与社会应用的高度统一。最核心的心理学理论问题恰恰能释放出对现代产业最大的推动力量。结合最新计算科学技术的心理建模研究,可望在人工智能多个领域取得突破性进展:如跨情境的机器视觉、具有获取规律能力的学习机、具有社交智能的社会机器人、可灵活处理复杂路况的无人驾驶。

      综上所述,借当前人工智能快速发展的东风,发展“强认知”取向的心理学,既有助于心理学在重大理论问题上取得突破,又可与高新科技领域的应用实现更紧密的结合,以促进其加速发展。

      ①“奇点理论”是美国学者雷·库兹韦尔提出的假设(Kurzweil,2005),他认为,随着科学技术的不断加速发展,人工智能将在不久的将来超越人类,到达一个人类无法理解的高度,并取代人类成为科技继续发展的智能主体。

标签:;  ;  ;  ;  ;  ;  ;  ;  

“强认知”的心理学研究--来自AlphaGo的启示_心理学论文
下载Doc文档

猜你喜欢