图灵测试六十五年,本文主要内容关键词为:十五年论文,测试论文,图灵论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:N02 文献标识码:A 文章编号:1674-7062(2016)02-0017-05 判别机器“智能”的标准是以“图灵测试”为肇始。聚焦人工智能领域的每一次重大进展,都引发起关于机器“智能”的最终可能性——“机器能否思考”的主题,并在哲学领域又重新回溯到“图灵测试”的争论。 一 20世纪50年代的“智能”内涵与图灵测试 1950年图灵发表《计算机器与智能》(computing machinery and intelligence)。这一论文标题清晰地表明了图灵的创新性——计算机器不仅是一台计算的机器,而且是一台具有智能的机器。图灵在这篇论文中提到的“智能”概念只是一个粗略的描述,它没有准确清晰的定义。但是,图灵在这篇论文的最后提到了机器智能的愿景,“我们或许期望,机器最终能够与人在所有纯粹智力领域竞争,但是最好从哪里开始呢?这是一个困难的选择。一些人认为,下国际象棋这样的非常抽象活动是最好的开始。也有人主张最好供给机器最好的感觉器官,能够花钱买东西,教它理解和讲英语。这是一条沿着正常的儿童教学的过程,指着东西和说出它们的名称等等。我不知道正确答案是什么,但是我认为两条道路都应当试试。”[1]460 这段文本很容易留下这样的印象——“智能”是指“像人那样思考”,“供给机器最好的感觉器官,能够花钱买东西,教它理解和讲英语”这些都是人类的活动,计算机应当是模仿人类的这些活动。图灵提出的“模仿游戏”词汇更是加深了这样的印象,模仿游戏即图灵测试,它是指如果一个人与另一方在两个相互隔离的房间通过字条对话,(另一方可能是机器,也可能是另外一个人。)如果这个人(也就是判官)依据字条对话无法辨别另一方到底是机器还是人,那么可以判定机器具有智能。 纵观图灵这篇文章全文,只是出现“机器能否思考”的表述,从未涉及“像人那样思考”的表述。由此可见,模仿游戏只是涉及“机器能否思考”,而没有涉及“像人那样思考”。图灵写道,“试验性地建议把问题‘机器能够思考吗?’应当替换为‘是否存在想象的数字计算机将在模仿游戏中表现良好’。……考虑到通用性,这两个问题的每一个都等价于另外一个。让我们集中注意于特定的数字计算机C,改变计算机的特性,让它具有充分的存储空间,相应地增加计算速度,提供适当的程序。B的角色由人充当,C能够满意地充当模仿游戏里A的角色吗?”[1]442 “机器能否思考”与“像人那样思考”的区别在哪里呢?这涉及思考是否是人类的专利。著名哲学家塞尔(John R.Searle)认为图灵关于行为主义的混淆导致了错误,[2]智能机器无法理解行为的内在意向性,他的“中文屋”论证展现了对强人工智能观点的反驳。然而塞尔的观点潜在假定,思考是人类的专利,因为思考具有意向性,而智能机器永远不可能具有意向性,从而反驳了行为主义的心灵解释。类似的表述在图灵的时代也已有之,比如斐逊教授(Jefferson)1949年演说写道,“除非机器因为感受到思想与感情,而不是偶然的符号涂写,写出十四行诗或创作协奏曲,我们才能承认机器和大脑是一样的。也就是说,它不仅写出来了,而且理解自己所做的。任何机器都感觉不到(不只是人工信号之类的简单发明)成功的喜悦,也不会因困难而沮丧,因受奉承而沾沾自喜,因犯错误而闷闷不乐,因见异性而神魂颠倒,也不会因欲望得不到满足而暴跳如雷或一蹶不振。”[1]445图灵反对塞尔和斐逊的观点,基于“智能”不是人类的专利,智能机器有它自己的方式——编程的方式运作,斐逊的括号内表述“(人工信号之类的简单发明)”恰是机器智能的“思考”。 智能的实质是机器能够思考,而不是“像人那样思考”,其检验的手段是图灵测试,但是很少人注意到图灵同时列举了两个客观标准。“我相信五十年内它是有可能的,计算机存储量可能达到大约10[9],这使得计算机程序能够非常棒地进行模仿游戏,一般提问者在5分钟提问后,能准确识别是机器还是人的可能性不会超过70%。最初‘机器能够思考吗?’的问题我认为已经没有什么意义,不值得讨论。”[1]442图灵认为,影响图灵测试的有三个要素:一是存储量,二是测试时间,三是辨别智能的概率,后二者都是客观的标准,更像是客观的判断。可以设想,或许某一个人认为它无法分辨,另外一个人认为可以分辨,这样的情况是如何判断它是否通过图灵测试?即便是同一个人,今天无法分辨到底是机器还是人,但是过了一个月甚至更长的时间,他又可以辨别,这是否算是通过图灵测试呢?这两个确定的数值是客观性的标准。 图灵相信“机器最终能够与人在所有纯粹智力领域竞争”,这是一个过程:先是拥有某些能力——比如逻辑运算等,其次才是机器能够思考。关于前者,图灵亲自设计了人类历史上第一个国际象棋程序。受制于当时的内存容量,图灵每隔半个小时才能下一步棋,并且最后输掉比赛。以后的计算机深蓝战胜国际象棋世界冠军卡斯帕罗夫,计算机沃森在美国智力问答游戏节目“危险边缘(Jeopardy)”战胜两位年度总冠军,都是沿着这条道路在前进。关于后者,包括塞尔在内的哲学家们,甚至人工智能科学家们高度怀疑,甚至否定其可能性。图灵却乐观地认为50年后这个问题“已经没有什么意义,不值得讨论”。图灵的前瞻性是相当惊人的,他的科学预见不是5年、10年,而是更长远的50年。他的关于计算机存储量的预见已经成了现实,并且远远超越他的预计,他的“机器能够思考吗?”成了愈加尖锐的问题。 二 20世纪六七十年代的狡猾策略与图灵测试 1966年,美国麻省理工学院教授约瑟夫维兹豪曼(Joseph Weizenbaum)编写了聊天机器人伊莱莎程序(Eliza program),其中最著名的是“医生”机器程序(DOCTOR)是人工智能领域的新突破。它应用的狡猾策略似乎符合图灵测试的两个客观标准,但是它实际上只是“伪智能”,并不是真正的“机器能够思考”。 狡猾策略原先适用于对话心理治疗方法,它是由美国心理学家罗杰斯(Carl Rogers)发明。由于心理治疗的特殊性,医生不可能在心理对话的治疗中逐一回答病人的问题。罗氏治疗法运用狡猾的对话策略,以有限知识基础去回应心理病人的各种复杂情形,并创造出舒适、无判断的环境,能够帮助病人自己寻找问题的解决方案。类似的是,伊莱莎程序设定,计算机遇到“病人”提出超过其有限知识基础的问题,它采取心理医生的一般性回应策略。例如,“我的头痛”。程序回应是,“为什么说你的头痛呢?”再比如,“我的妈妈恨我”。程序回应是,“你们家里还有谁恨你?”又比如,“哪一个是你最喜欢的作曲家?”程序回应是,“你最喜欢的作曲家是谁?”或者“这个问题引起你这么大的兴趣吗?” 运用狡猾策略后,伊莱莎程序成功地使得对话者一时无法分辨是机器还是人,甚至感到相当生气,伊莱莎程序真的通过图灵测试了吗?它能够具有智能吗?第一,图灵的“5分钟提问”是一个客观标准吗?有人一开始情绪激动,随着时间的推延,许多人都逐步意识到这不像一个人的思维特征。如果一个人5分钟内无法分辨,10分钟后可以辨认,这算通过图灵测试吗?第二,“准确识别的概率不超过70%”是一个客观的标准吗?不同群体准确识别的概率是不同的。如果是计算机专家从事判断,那么他们可以提出专业性刁钻提问,很容易发现对方到底是人还是机器;如果是非专业人员进行辨别,那么他们或许很难做出辨别。判官的不同构成直接影响测试的结果,而且判官的公正性,提问和回答耗费的总时间,提问问题的类型和限定条件,这些因素都影响着判断的过程,甚至导致截然不同的结果。 如果判定狡猾策略符合图灵测试,它无须真正理解问题的内容,这显然不符合智能的内涵。比如提问,“奥巴马聪明吗?”它可以直接回答是或不是,也可以回答说“我回家问爸爸”。伊莱莎程序的创造者维兹豪曼1976年撰写了专著《计算能力与人类理性:从判断到计算》,认为伊莱莎程序不能算作通过图灵测试,它不属于真正的机器智能。[3]维兹豪曼的依据是,智能机器只能决策(deciding),而不能选择(choosing)。决策是一个可以程序化的计算行为,它缺乏人类的诸如同情和才智这样的品质,选择是使得我们成为人的能力,它是包括情绪等非数学因素判断的结果而不是计算的结果。 自此以后,人工智能科学家都主张,图灵测试必须避开狡猾策略。从1991年开始在美国波士顿地区举办的一年一度勒布那人工智能竞赛(Loebnerprize),力图采用尽可能标准化的图灵测试方法,通过限制进程来排除狡猾策略。第一,限制主题。参赛者和他们同盟的程序必须严格限制在对话的主题,判官也需要停留在该主题上与代理对话。比如,1991年的第一次比赛围绕着“鸡尾酒会”的主题;第二,限制进程。针对一个特定主题的自然对话过程中,参赛者只允许忠实地复写显示性(evince)行为。这一操作性规则排除了欺骗和狡猾策略。判官应当自然地做出回应,如同像与其他人的对话一样。[4]70-78 按照赛事规则,一旦有团队彻底通过图灵测试,整个勒布那人工智能竞赛永久终止,直接获得十万美元奖金。但是采取上述限制性的图灵测试,以避开狡猾策略后,1991年至今还没有哪一个团队终结图灵测试。哲学家布洛克(Ned Block)一直质疑,这样的比赛能否最终达到其理想——通过严格的图灵测试,意味着智能机器能够像人那样思考。与此对照的是,哲学家丹尼特(Daniel C.Dennett)认为不应当过于在意是否能够通过图灵测试的问题。“长久以来我们都不能从勒布那竞赛中学习人工智能的知识,但是我们或许同时能够学到一些关于社会心理学的无法忽视的知识”,它提供了“允许图灵测试某一天发生后的环境条件的基础”。[5] 三 20世纪计算机沃森的智力问答与图灵测试 智能机器不仅在存储数据量、计算速度上远远强于人类,而且在逻辑运算和推理能力上已经超过人类。在近代已降的哲学发展中,概念、判断和推理被看作是理性的思维能力,这是成为人而区别于动物的重要本质。现在,在人类最重要的本质能力方面,智能机器已经超越人类。1997年IBM公司的计算机深蓝(Deep Blue)战胜国际象棋冠军卡斯帕罗夫(Garry Kasparov),这一人工智能的里程碑式成就使得“图灵测试”的话题重新回到了中心。如果“图灵测试”特指逻辑运算和推理能力,那么人们已经无法区分智能机器和人类,甚至,人们依据智能机器的速度和准确性快于人类,分辨出智能机器和人类的逻辑能力差异。计算机深蓝在人机对决中取得胜利,关键的核心是它能够估算出每一步棋之后12步棋的变化;一名国际象棋高手大约能够估算之后10步棋的变化。按照物理学家阿尔帕德埃罗(Arpad Elo)预测棋局的模型,每增加1步棋的搜索能力,相当于增加下棋强度约80 elo分(elo rating system,即国际象棋联合会官方采纳的埃罗评分系统)。支撑计算机深蓝逻辑能力的是IBM公司的大型快速阵列硬盘系统,它存储了近百年来60万盘高手的棋谱,它有32个国际象棋专用处理器协同工作,处理数据量达到5千兆字节,能在规定的每3分钟内从储存的棋谱中决策出该走的下一步。 2011年2月14—16日,IBM公司研发的计算机沃森(Watson)在美国哥伦比亚广播公司智力问答游戏节目“危险边缘(Jeopardy)”中,迎战该节目有史以来最优秀的两名总冠军肯·詹宁斯(Ken Jennings)和布拉德·鲁特尔(Brad Rutter)。前者是危险边缘节目连胜纪录的冠军——74场,后者是该节目赢取奖金最多的选手——325万美元奖金。计算机沃森最终取得了胜利,赢得100万美元奖金。曾经几乎所有计算机专家认为,智能机器不可能在智力问答中战胜人类,如今IBM把它变成了现实。支撑计算机沃森成功的是IBM的硬件和软件创新。它使用了2880个Power 750处理器,15TB(1TB=1024GB)内存,每秒可进行80万亿次运算,存储相当于2亿页图书,运算能力大约是深蓝的1000倍。沃森比起以往任何智能机器在图灵测试上都要成功,拥有最接近人类的思维方式。计算机沃森的复杂性要远远高于计算机深蓝。这是因为,国际象棋只是逻辑能力的要求,国际象棋的对弈模式有着明确的规则,这是一个连续的逻辑判断过程;智力问答具有相当多样的要求,包括人类自然语言的理解、信息的搜索、答案的判断、风险的评估等多项领域。 仅就1950年“图灵测试”的内涵而论,计算机沃森在这场更高层次的图灵测试中获得了胜利。假定你是一位观众,仅仅依据沃森与其他两位对手的问题和答案的纸条,你很难判断沃森是机器还是人。或许你是因为他的回答太优秀而认出他是机器。从图灵测试的客观标准而言,这场智力问答也有所发展。第一,“危险边缘”智力问答前后跨越三天时间,每次的节目时间都在半个小时以上,它远远超过了图灵当初五分钟问答的时间限制,更加保证了测试的客观性。第二,它采取的是人机竞争智力问答形式,这不是依据判官来做出判断,消除了以往图灵测试中判官结构影响结论的困扰,它依据计算机沃森问题回答的最终积分来判断胜利。如果回答错误,就会扣除你的得分。如果回答正确,则加分。沃森还必须根据自己和对手的得分情况,即根据领先或落后程度,估计节目剩下的奖金数额后,及时调整自己的信息级别——在落后情况下选择高分值问题,反之则选择低分值问题。第三,从危险边缘节目开办以来没有一个问题是重复的,这就避免了沃森从以前题库中调用问题获得答案的可能性。而且,它不允许沃森采用网络搜索,采取直接的对话模式,这些都更好地保证了智力问答竞争的客观性。 计算机沃森能够“听懂”人的话语,这是包括图灵在内的科学家未曾设想的最重要突破。自然语言具有高度的复杂性。比如提问,“当(哥伦比亚广播公司)《60分钟》节目首次播出时,当时的美国总统是谁?对于计算机来说,这是一个相当复杂的问题。它首先必须要理解‘首次播出’是什么意思以及与‘首次播出’相关的日期。其次,它必须要弄清楚具体的《60分钟》节目首次播出的日期。然后,它才能搜索到当时的美国总统是谁。然后交由两个不同的搜索模块,一是搜索日期,一是搜索总统。当‘沃森’得到一个可能答案的列表时,它必须要计算出哪一个最有信心符合标准。所有这些步骤都发生于3秒之内。而且,即便计算机已经处理人类自然语言并给出了答案,答案仍然是一系列的假说,这些假说依据证据的吻合程度进行分数排名而决定。”计算机沃森的设计主持者费鲁奇(David Ferrucci)认为,计算机需要借助于上下文理解模糊的人类自然语言(如双关语、反讽语),进而独立地处理信息作出判断。他举例说,“他在1974年9月8日被总统豁免”,正确的答案是尼克松。一个可能的搜索段落是“福特在1974年9月8日豁免了尼克松”,这是按照问题与段落的一般联系联接。第二种排序是依据史密斯-威迪文次序符合算法,测量最长的相似次序的长度(比如1974年9月8日);第三种排序方法是测量问题和段落的逻辑联系。逻辑联系识别出尼克松是豁免的目标,福特得到更低的逻辑联系分数。[6] 然而,沃森的设计者并不认为沃森通过了图灵测试。他们设定计算机沃森只是满足某些领域的人脑功能,它只在机器学习、自然语言算法、大规模数据库等有限领域模拟人脑取得成功。他们没有设定沃森整体性模拟人脑,重建大脑运行的过程。沃森的设计者潜在假设,图灵测试等价于机器像人思考。这是目前为止难以达到的标准,人工智能专家放弃把模拟人脑作为直接的目标,转而限定在特定的一个或者几个方向模仿人类功能,如机器学习、自然语言算法、数据库搜索等具体的智能领域。 回到图灵,他借助于图灵测试来表述机器“智能”的概念,只是主张机器能够思考,从来没有表述机器像人思考,这是值得重视的一点。按照图灵1950年的图灵测试界定,计算机沃森能够处理人类的自然语言并迅速回答复杂问题,它通过了比图灵测试更复杂的人机对决的智力问答。而且,它能够理解自然语言,虽然它不是像人那样思考,即塞尔在“中文屋论证”中所展现的那样——计算机不能真正理解自然语言(比如中文)的确切语义内涵。但是塞尔未曾充分涉及的是,人类的自然语言并不是独立存在的,它是在上下文关系中被赋予意义。在此意义上,只要人类的自然语言与其上下文之间存在着逻辑关系,计算机便能够依据提问做出恰当的判断。计算机沃森只是开始,人类在理解自然语言上还将取得新的进展,甚至可能有一天,新的计算机在理解自然语言上比人类做得更好。换言之,机器能够思考,只是以不同于人的方式思考。 图灵的智能是指机器能够思考,还是指当代设计者主张的机器像人思考,这二者关于图灵测试与智能的逻辑关系是不同的。前者构成必要条件,后者是充分条件。哈佛大学斯图亚特·谢波(Stuart M.Shieber)所说,“图灵自己已经注意到根据推论证明,标准是智能行为的充分条件而不是必要条件。游戏后来变成了熟知的‘图灵测试’”[4]70。 纵观65年来的图灵测试内涵发展,它随着“智能”概念和人工智能的发展而变化。在20世纪50年代,图灵的智能概念定义为机器能够思考,图灵测试包括五分钟时间和识别概率不超过70%的客观指标。20世纪60年代,智能概念未有变化,图灵测试添加了应当排除狡猾策略的要求。在2011年,智能概念被理解为像人那样思考,随之而来的图灵测试也被理解为具备重构大脑的技能。但是正如谢波所指出的,回到图灵1950年的表述,图灵测试应当是智能的充分条件。笔者认为,按照1950年的图灵测试表述,计算机沃森通过了图灵测试。 应当采取怎样的图灵测试内涵?应当采取怎样的智能概念?究竟是机器像人思考还是机器能够思考,这是图灵测试概念变得复杂的重要原因。机器“智能”在当代面临着临近“奇点”的可能性,美国人工智能专家库兹韦尔(Ray Kurzweil)用“奇点”(Singularity)这一概念重新表述了图灵测试,[7]他认为在未来15年内信息可以上传到人类大脑,30年内奇点来临——人工智能超越人类智能。科学家霍金(Stephen Hawking)、硅谷奇才马斯克(Elon Musk)都高度担心人工智能的发展趋势,并敦促联合国禁止开发自主化武器(autonomous weapons),防止人工智能危及人类。随着计算机领域在过去半个世纪持续不断地快速飞跃,计算机软件在理解人类语言等领域的革命性工作,图灵测试的内涵不断变化,究竟是依据机器智能能够思考,还是像人那样思考,这是一个值得关注的人工智能主题和哲学主题的分歧。标签:图灵测试论文; 图灵论文; 人工智能论文; 自然语言论文; 图灵搜索论文; 智能机器论文; 计算机科学论文; 沃森论文; 智商测试论文;