65年图灵测试_图灵测试论文

图灵测试六十五年，本文主要内容关键词为：十五年论文,测试论文,图灵论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：N02 文献标识码：A 文章编号：1674-7062(2016)02-0017-05

判别机器“智能”的标准是以“图灵测试”为肇始。聚焦人工智能领域的每一次重大进展，都引发起关于机器“智能”的最终可能性——“机器能否思考”的主题，并在哲学领域又重新回溯到“图灵测试”的争论。

一 20世纪50年代的“智能”内涵与图灵测试

1950年图灵发表《计算机器与智能》(computing machinery and intelligence)。这一论文标题清晰地表明了图灵的创新性——计算机器不仅是一台计算的机器，而且是一台具有智能的机器。图灵在这篇论文中提到的“智能”概念只是一个粗略的描述，它没有准确清晰的定义。但是，图灵在这篇论文的最后提到了机器智能的愿景，“我们或许期望，机器最终能够与人在所有纯粹智力领域竞争，但是最好从哪里开始呢?这是一个困难的选择。一些人认为，下国际象棋这样的非常抽象活动是最好的开始。也有人主张最好供给机器最好的感觉器官，能够花钱买东西，教它理解和讲英语。这是一条沿着正常的儿童教学的过程，指着东西和说出它们的名称等等。我不知道正确答案是什么，但是我认为两条道路都应当试试。”[1]460

这段文本很容易留下这样的印象——“智能”是指“像人那样思考”，“供给机器最好的感觉器官，能够花钱买东西，教它理解和讲英语”这些都是人类的活动，计算机应当是模仿人类的这些活动。图灵提出的“模仿游戏”词汇更是加深了这样的印象，模仿游戏即图灵测试，它是指如果一个人与另一方在两个相互隔离的房间通过字条对话，(另一方可能是机器，也可能是另外一个人。)如果这个人(也就是判官)依据字条对话无法辨别另一方到底是机器还是人，那么可以判定机器具有智能。

纵观图灵这篇文章全文，只是出现“机器能否思考”的表述，从未涉及“像人那样思考”的表述。由此可见，模仿游戏只是涉及“机器能否思考”，而没有涉及“像人那样思考”。图灵写道，“试验性地建议把问题‘机器能够思考吗?’应当替换为‘是否存在想象的数字计算机将在模仿游戏中表现良好’。……考虑到通用性，这两个问题的每一个都等价于另外一个。让我们集中注意于特定的数字计算机C，改变计算机的特性，让它具有充分的存储空间，相应地增加计算速度，提供适当的程序。B的角色由人充当，C能够满意地充当模仿游戏里A的角色吗?”[1]442

“机器能否思考”与“像人那样思考”的区别在哪里呢?这涉及思考是否是人类的专利。著名哲学家塞尔(John R.Searle)认为图灵关于行为主义的混淆导致了错误，[2]智能机器无法理解行为的内在意向性，他的“中文屋”论证展现了对强人工智能观点的反驳。然而塞尔的观点潜在假定，思考是人类的专利，因为思考具有意向性，而智能机器永远不可能具有意向性，从而反驳了行为主义的心灵解释。类似的表述在图灵的时代也已有之，比如斐逊教授(Jefferson)1949年演说写道，“除非机器因为感受到思想与感情，而不是偶然的符号涂写，写出十四行诗或创作协奏曲，我们才能承认机器和大脑是一样的。也就是说，它不仅写出来了，而且理解自己所做的。任何机器都感觉不到(不只是人工信号之类的简单发明)成功的喜悦，也不会因困难而沮丧，因受奉承而沾沾自喜，因犯错误而闷闷不乐，因见异性而神魂颠倒，也不会因欲望得不到满足而暴跳如雷或一蹶不振。”[1]445图灵反对塞尔和斐逊的观点，基于“智能”不是人类的专利，智能机器有它自己的方式——编程的方式运作，斐逊的括号内表述“(人工信号之类的简单发明)”恰是机器智能的“思考”。

智能的实质是机器能够思考，而不是“像人那样思考”，其检验的手段是图灵测试，但是很少人注意到图灵同时列举了两个客观标准。“我相信五十年内它是有可能的，计算机存储量可能达到大约10[9]，这使得计算机程序能够非常棒地进行模仿游戏，一般提问者在5分钟提问后，能准确识别是机器还是人的可能性不会超过70％。最初‘机器能够思考吗？’的问题我认为已经没有什么意义，不值得讨论。”[1]442图灵认为，影响图灵测试的有三个要素：一是存储量，二是测试时间，三是辨别智能的概率，后二者都是客观的标准，更像是客观的判断。可以设想，或许某一个人认为它无法分辨，另外一个人认为可以分辨，这样的情况是如何判断它是否通过图灵测试?即便是同一个人，今天无法分辨到底是机器还是人，但是过了一个月甚至更长的时间，他又可以辨别，这是否算是通过图灵测试呢？这两个确定的数值是客观性的标准。

图灵相信“机器最终能够与人在所有纯粹智力领域竞争”，这是一个过程：先是拥有某些能力——比如逻辑运算等，其次才是机器能够思考。关于前者，图灵亲自设计了人类历史上第一个国际象棋程序。受制于当时的内存容量，图灵每隔半个小时才能下一步棋，并且最后输掉比赛。以后的计算机深蓝战胜国际象棋世界冠军卡斯帕罗夫，计算机沃森在美国智力问答游戏节目“危险边缘(Jeopardy)”战胜两位年度总冠军，都是沿着这条道路在前进。关于后者，包括塞尔在内的哲学家们，甚至人工智能科学家们高度怀疑，甚至否定其可能性。图灵却乐观地认为50年后这个问题“已经没有什么意义，不值得讨论”。图灵的前瞻性是相当惊人的，他的科学预见不是5年、10年，而是更长远的50年。他的关于计算机存储量的预见已经成了现实，并且远远超越他的预计，他的“机器能够思考吗?”成了愈加尖锐的问题。

二 20世纪六七十年代的狡猾策略与图灵测试

1966年，美国麻省理工学院教授约瑟夫维兹豪曼(Joseph Weizenbaum)编写了聊天机器人伊莱莎程序(Eliza program)，其中最著名的是“医生”机器程序(DOCTOR)是人工智能领域的新突破。它应用的狡猾策略似乎符合图灵测试的两个客观标准，但是它实际上只是“伪智能”，并不是真正的“机器能够思考”。

狡猾策略原先适用于对话心理治疗方法，它是由美国心理学家罗杰斯(Carl Rogers)发明。由于心理治疗的特殊性，医生不可能在心理对话的治疗中逐一回答病人的问题。罗氏治疗法运用狡猾的对话策略，以有限知识基础去回应心理病人的各种复杂情形，并创造出舒适、无判断的环境，能够帮助病人自己寻找问题的解决方案。类似的是，伊莱莎程序设定，计算机遇到“病人”提出超过其有限知识基础的问题，它采取心理医生的一般性回应策略。例如，“我的头痛”。程序回应是，“为什么说你的头痛呢?”再比如，“我的妈妈恨我”。程序回应是，“你们家里还有谁恨你?”又比如，“哪一个是你最喜欢的作曲家?”程序回应是，“你最喜欢的作曲家是谁?”或者“这个问题引起你这么大的兴趣吗?”

运用狡猾策略后，伊莱莎程序成功地使得对话者一时无法分辨是机器还是人，甚至感到相当生气，伊莱莎程序真的通过图灵测试了吗?它能够具有智能吗?第一，图灵的“5分钟提问”是一个客观标准吗?有人一开始情绪激动，随着时间的推延，许多人都逐步意识到这不像一个人的思维特征。如果一个人5分钟内无法分辨，10分钟后可以辨认，这算通过图灵测试吗?第二，“准确识别的概率不超过70％”是一个客观的标准吗?不同群体准确识别的概率是不同的。如果是计算机专家从事判断，那么他们可以提出专业性刁钻提问，很容易发现对方到底是人还是机器；如果是非专业人员进行辨别，那么他们或许很难做出辨别。判官的不同构成直接影响测试的结果，而且判官的公正性，提问和回答耗费的总时间，提问问题的类型和限定条件，这些因素都影响着判断的过程，甚至导致截然不同的结果。

如果判定狡猾策略符合图灵测试，它无须真正理解问题的内容，这显然不符合智能的内涵。比如提问，“奥巴马聪明吗?”它可以直接回答是或不是，也可以回答说“我回家问爸爸”。伊莱莎程序的创造者维兹豪曼1976年撰写了专著《计算能力与人类理性：从判断到计算》，认为伊莱莎程序不能算作通过图灵测试，它不属于真正的机器智能。[3]维兹豪曼的依据是，智能机器只能决策(deciding)，而不能选择(choosing)。决策是一个可以程序化的计算行为，它缺乏人类的诸如同情和才智这样的品质，选择是使得我们成为人的能力，它是包括情绪等非数学因素判断的结果而不是计算的结果。

自此以后，人工智能科学家都主张，图灵测试必须避开狡猾策略。从1991年开始在美国波士顿地区举办的一年一度勒布那人工智能竞赛(Loebnerprize)，力图采用尽可能标准化的图灵测试方法，通过限制进程来排除狡猾策略。第一，限制主题。参赛者和他们同盟的程序必须严格限制在对话的主题，判官也需要停留在该主题上与代理对话。比如，1991年的第一次比赛围绕着“鸡尾酒会”的主题；第二，限制进程。针对一个特定主题的自然对话过程中，参赛者只允许忠实地复写显示性(evince)行为。这一操作性规则排除了欺骗和狡猾策略。判官应当自然地做出回应，如同像与其他人的对话一样。[4]70-78

按照赛事规则，一旦有团队彻底通过图灵测试，整个勒布那人工智能竞赛永久终止，直接获得十万美元奖金。但是采取上述限制性的图灵测试，以避开狡猾策略后，1991年至今还没有哪一个团队终结图灵测试。哲学家布洛克(Ned Block)一直质疑，这样的比赛能否最终达到其理想——通过严格的图灵测试，意味着智能机器能够像人那样思考。与此对照的是，哲学家丹尼特(Daniel C.Dennett)认为不应当过于在意是否能够通过图灵测试的问题。“长久以来我们都不能从勒布那竞赛中学习人工智能的知识，但是我们或许同时能够学到一些关于社会心理学的无法忽视的知识”，它提供了“允许图灵测试某一天发生后的环境条件的基础”。[5]

三 20世纪计算机沃森的智力问答与图灵测试

智能机器不仅在存储数据量、计算速度上远远强于人类，而且在逻辑运算和推理能力上已经超过人类。在近代已降的哲学发展中，概念、判断和推理被看作是理性的思维能力，这是成为人而区别于动物的重要本质。现在，在人类最重要的本质能力方面，智能机器已经超越人类。1997年IBM公司的计算机深蓝(Deep Blue)战胜国际象棋冠军卡斯帕罗夫(Garry Kasparov)，这一人工智能的里程碑式成就使得“图灵测试”的话题重新回到了中心。如果“图灵测试”特指逻辑运算和推理能力，那么人们已经无法区分智能机器和人类，甚至，人们依据智能机器的速度和准确性快于人类，分辨出智能机器和人类的逻辑能力差异。计算机深蓝在人机对决中取得胜利，关键的核心是它能够估算出每一步棋之后12步棋的变化；一名国际象棋高手大约能够估算之后10步棋的变化。按照物理学家阿尔帕德埃罗(Arpad Elo)预测棋局的模型，每增加1步棋的搜索能力，相当于增加下棋强度约80 elo分(elo rating system，即国际象棋联合会官方采纳的埃罗评分系统)。支撑计算机深蓝逻辑能力的是IBM公司的大型快速阵列硬盘系统，它存储了近百年来60万盘高手的棋谱，它有32个国际象棋专用处理器协同工作，处理数据量达到5千兆字节，能在规定的每3分钟内从储存的棋谱中决策出该走的下一步。

2011年2月14—16日，IBM公司研发的计算机沃森(Watson)在美国哥伦比亚广播公司智力问答游戏节目“危险边缘(Jeopardy)”中，迎战该节目有史以来最优秀的两名总冠军肯·詹宁斯(Ken Jennings)和布拉德·鲁特尔(Brad Rutter)。前者是危险边缘节目连胜纪录的冠军——74场，后者是该节目赢取奖金最多的选手——325万美元奖金。计算机沃森最终取得了胜利，赢得100万美元奖金。曾经几乎所有计算机专家认为，智能机器不可能在智力问答中战胜人类，如今IBM把它变成了现实。支撑计算机沃森成功的是IBM的硬件和软件创新。它使用了2880个Power 750处理器，15TB(1TB=1024GB)内存，每秒可进行80万亿次运算，存储相当于2亿页图书，运算能力大约是深蓝的1000倍。沃森比起以往任何智能机器在图灵测试上都要成功，拥有最接近人类的思维方式。计算机沃森的复杂性要远远高于计算机深蓝。这是因为，国际象棋只是逻辑能力的要求，国际象棋的对弈模式有着明确的规则，这是一个连续的逻辑判断过程；智力问答具有相当多样的要求，包括人类自然语言的理解、信息的搜索、答案的判断、风险的评估等多项领域。

仅就1950年“图灵测试”的内涵而论，计算机沃森在这场更高层次的图灵测试中获得了胜利。假定你是一位观众，仅仅依据沃森与其他两位对手的问题和答案的纸条，你很难判断沃森是机器还是人。或许你是因为他的回答太优秀而认出他是机器。从图灵测试的客观标准而言，这场智力问答也有所发展。第一，“危险边缘”智力问答前后跨越三天时间，每次的节目时间都在半个小时以上，它远远超过了图灵当初五分钟问答的时间限制，更加保证了测试的客观性。第二，它采取的是人机竞争智力问答形式，这不是依据判官来做出判断，消除了以往图灵测试中判官结构影响结论的困扰，它依据计算机沃森问题回答的最终积分来判断胜利。如果回答错误，就会扣除你的得分。如果回答正确，则加分。沃森还必须根据自己和对手的得分情况，即根据领先或落后程度，估计节目剩下的奖金数额后，及时调整自己的信息级别——在落后情况下选择高分值问题，反之则选择低分值问题。第三，从危险边缘节目开办以来没有一个问题是重复的，这就避免了沃森从以前题库中调用问题获得答案的可能性。而且，它不允许沃森采用网络搜索，采取直接的对话模式，这些都更好地保证了智力问答竞争的客观性。

计算机沃森能够“听懂”人的话语，这是包括图灵在内的科学家未曾设想的最重要突破。自然语言具有高度的复杂性。比如提问，“当(哥伦比亚广播公司)《60分钟》节目首次播出时，当时的美国总统是谁?对于计算机来说，这是一个相当复杂的问题。它首先必须要理解‘首次播出’是什么意思以及与‘首次播出’相关的日期。其次，它必须要弄清楚具体的《60分钟》节目首次播出的日期。然后，它才能搜索到当时的美国总统是谁。然后交由两个不同的搜索模块，一是搜索日期，一是搜索总统。当‘沃森’得到一个可能答案的列表时，它必须要计算出哪一个最有信心符合标准。所有这些步骤都发生于3秒之内。而且，即便计算机已经处理人类自然语言并给出了答案，答案仍然是一系列的假说，这些假说依据证据的吻合程度进行分数排名而决定。”计算机沃森的设计主持者费鲁奇(David Ferrucci)认为，计算机需要借助于上下文理解模糊的人类自然语言(如双关语、反讽语)，进而独立地处理信息作出判断。他举例说，“他在1974年9月8日被总统豁免”，正确的答案是尼克松。一个可能的搜索段落是“福特在1974年9月8日豁免了尼克松”，这是按照问题与段落的一般联系联接。第二种排序是依据史密斯-威迪文次序符合算法，测量最长的相似次序的长度(比如1974年9月8日)；第三种排序方法是测量问题和段落的逻辑联系。逻辑联系识别出尼克松是豁免的目标，福特得到更低的逻辑联系分数。[6]

然而，沃森的设计者并不认为沃森通过了图灵测试。他们设定计算机沃森只是满足某些领域的人脑功能，它只在机器学习、自然语言算法、大规模数据库等有限领域模拟人脑取得成功。他们没有设定沃森整体性模拟人脑，重建大脑运行的过程。沃森的设计者潜在假设，图灵测试等价于机器像人思考。这是目前为止难以达到的标准，人工智能专家放弃把模拟人脑作为直接的目标，转而限定在特定的一个或者几个方向模仿人类功能，如机器学习、自然语言算法、数据库搜索等具体的智能领域。

回到图灵，他借助于图灵测试来表述机器“智能”的概念，只是主张机器能够思考，从来没有表述机器像人思考，这是值得重视的一点。按照图灵1950年的图灵测试界定，计算机沃森能够处理人类的自然语言并迅速回答复杂问题，它通过了比图灵测试更复杂的人机对决的智力问答。而且，它能够理解自然语言，虽然它不是像人那样思考，即塞尔在“中文屋论证”中所展现的那样——计算机不能真正理解自然语言(比如中文)的确切语义内涵。但是塞尔未曾充分涉及的是，人类的自然语言并不是独立存在的，它是在上下文关系中被赋予意义。在此意义上，只要人类的自然语言与其上下文之间存在着逻辑关系，计算机便能够依据提问做出恰当的判断。计算机沃森只是开始，人类在理解自然语言上还将取得新的进展，甚至可能有一天，新的计算机在理解自然语言上比人类做得更好。换言之，机器能够思考，只是以不同于人的方式思考。

图灵的智能是指机器能够思考，还是指当代设计者主张的机器像人思考，这二者关于图灵测试与智能的逻辑关系是不同的。前者构成必要条件，后者是充分条件。哈佛大学斯图亚特·谢波(Stuart M.Shieber)所说，“图灵自己已经注意到根据推论证明，标准是智能行为的充分条件而不是必要条件。游戏后来变成了熟知的‘图灵测试’”[4]70。

纵观65年来的图灵测试内涵发展，它随着“智能”概念和人工智能的发展而变化。在20世纪50年代，图灵的智能概念定义为机器能够思考，图灵测试包括五分钟时间和识别概率不超过70％的客观指标。20世纪60年代，智能概念未有变化，图灵测试添加了应当排除狡猾策略的要求。在2011年，智能概念被理解为像人那样思考，随之而来的图灵测试也被理解为具备重构大脑的技能。但是正如谢波所指出的，回到图灵1950年的表述，图灵测试应当是智能的充分条件。笔者认为，按照1950年的图灵测试表述，计算机沃森通过了图灵测试。

应当采取怎样的图灵测试内涵?应当采取怎样的智能概念?究竟是机器像人思考还是机器能够思考，这是图灵测试概念变得复杂的重要原因。机器“智能”在当代面临着临近“奇点”的可能性，美国人工智能专家库兹韦尔(Ray Kurzweil)用“奇点”(Singularity)这一概念重新表述了图灵测试，[7]他认为在未来15年内信息可以上传到人类大脑，30年内奇点来临——人工智能超越人类智能。科学家霍金(Stephen Hawking)、硅谷奇才马斯克(Elon Musk)都高度担心人工智能的发展趋势，并敦促联合国禁止开发自主化武器(autonomous weapons)，防止人工智能危及人类。随着计算机领域在过去半个世纪持续不断地快速飞跃，计算机软件在理解人类语言等领域的革命性工作，图灵测试的内涵不断变化，究竟是依据机器智能能够思考，还是像人那样思考，这是一个值得关注的人工智能主题和哲学主题的分歧。

标签：图灵测试论文; 图灵论文; 人工智能论文; 自然语言论文; 图灵搜索论文; 智能机器论文; 计算机科学论文; 沃森论文; 智商测试论文;

65年图灵测试_图灵测试论文

猜你喜欢