计算机能理解自然语言吗——关于人工智能问题的哲学思考,本文主要内容关键词为:自然语言论文,人工智能论文,机能论文,哲学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
自八十年代以来,微电子技术和计算机技术的发展异常迅猛,尤其随着人工智能的研究取得一定进展,计算机已从单纯的数值计算进入到知识处理阶段。知识信息处理系统(Knowledge Information Processing System,简记KIPS)以及智能计算机系统(Intelligent Computer System,简记ICS)的出现,标志着计算机技术已经迈入一个新的发展阶段,并且越来越多地对社会变革和人类思维产生重大影响。因此,这不仅促使我们对人工智能这一包括逻辑学、计算机科学、数学、认知心理学以及哲学等若干交叉研究内容的学科进行更加深入的理论研究和探索,而且不能不引起我们对研究中出现的一些具体问题的哲学思考。
一、人工智能与自然语言处理
1956年夏季,现任美国斯坦福大学教授麦卡锡(J·McCarthy)联合哈佛大学年青数学家和神经学家,现任麻省理工学院教授明斯基(M·L·Minsky),IBM公司信息研究中心负责人洛切斯特(N·Lochester)和贝尔试验室信息部数学研究员香农(C·E·Shannon)共同发起,特邀莫尔(T·Moore)、塞缪尔(A·L·Samuel)、纽厄尔(A·Newell)和西蒙(H·A·Simon)等十名年青学者,在美国达特莫斯(Dartmouth)大学举办学术讨论班,讨论机器智能问题,并首次决定使用人工智能(Artificial Intelligence,简记AI)这一术语,从而开创了人工智能作为一门独立学科的研究方向。
自然语言处理是人工智能中研究最早并取得试验性成果的方向之一。实际上,在人工智能这一概念出现之前,使用计算机处理自然语言的设想就已经产生了。所谓自然语言是指人类语言集团的本族语,如汉语、英语、日语等,是相对于人造语言(世界语、计算机的各种程序设计语言等)而言的。众所周知,语言是人类思维的载体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在信息社会中,语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。
在当今信息爆炸的社会里,自然语言理解作为语言信息处理技术的一个高层次的重要方面,一直是人工智能领域所关注的核心课题之一。显而易见,如果计算机能够较好地理解自然语言,人机之间的信息交流则可以用人们所熟悉的本族语言来进行,无论是以文字的形式还是以语音的形式,都将大大地简化计算机操作的复杂性,这不仅有助于计算机的进一步普及和应用,而且从另一方面来看,由于创造和使用自然语言是人类高智能的表现,因此,对自然语言理解的研究有助于揭示人类智能的奥秘,深化我们对语言能力和思维本质的认识。
那么,什么叫“理解”呢?
正如什么叫“智能”一样,人们对“理解”也同样存在着各不相同的认识。然而,在人工智能界或语言信息处理领域中,人们普遍愿意接收著名的图灵(Turing)试验来作为判断计算机是否“理解”了某种语言的标准。具体的判断准则至少有如下四条:
1.问答(Question-anwsering):机器能正确地回答输入文本中的有关问题;
2.文摘生成(Summarizing):机器有能力产生输入文本的摘要;
3.释义(Paraphrase):机器能用不同的词汇和句型来复述其输入文本;
4.翻译(Translation):机器具有把一种语言(源语言)翻译成另一种语言(目标语言)的能力。
如果机器一旦达到上述四条中的任何一种要求,它们就会在机器翻译(或机助翻译)、文本理解以及文摘生成、自然语言接口等领域中得到广泛应用。
以自然语言的机器翻译为例,作为涉及语言理解的一个重要的应用领域,在研究初期,人们原以为只要一部双向字典和某些语法知识即可很快地解决自然语言之间的互译问题,结果发现机器翻译的文字阴差阳错。著名的例子有,在早期的翻译系统上输入英文句子:
Out of sight,out of mind.(眼不见,心不烦),结果译成俄文却成了“又瞎又疯”;另一个句子:“The spirit is willing,but the flesh is weak.”(心有余而力不足),翻成俄文后再翻回来竟成了:“The wine is good,butthe meat is spoiled.”(酒是好的,肉却变质了),结果闹了不少笑话。一般地认为,80%的翻译可以用这种简单的翻译办法实现,而剩下的20%由特别设计的程序来处理。然而,剩下的20%问题却非常困难,即使现在的机器翻译系统,也仍然未能解决深层次的语义理解问题,以致于英美等国政府相继中断了对大部分机器翻译项目的资助。有人挖苦说,美国花了2000万美元为机器翻译立了一块墓碑。那么,究竟为什么计算机处理这20%的问题如此困难呢?计算机最终能像人一样理解自然语言吗?机器理解的症结何在?
二、关于机器理解的哲学思考
人是能够认识周围世界,并进行创造性思维,改变周围环境的万物之灵。这个万物之灵的思维主要形式是语言。对语言的理解涉及到语义、语法、语用、语境这些不同的层面。而人们对这些知识的理解和掌握是经过长期的反复实践和认识才完成的。在人们刚刚学会用语言表达自己的初期,无论是词条的掌握,还是语法、语义的理解都是极其初步的,或者只能简单地模仿,其思维的能力是有限的。随着人们与客观世界的接触日益增多,从形象思维到逻辑思维、灵感思维的逐渐形成,人类有目的地进行规划、决策以及控制行为和语言的能力不断提高。笔者认为,在实践生活中,人类对语言的表达处理能力的优势集中地体现在对语义、语用、语境和常识的应用及处理上,而不是语法,这正是为什么很多人并不懂得多少语法,甚至一无所知,但他们对语言的运用能力丝毫也不逊色。而在计算机自然语言处理的研究中,人们很早就创立了一系列偏于形式化结构的语法理论,但是,对于自然语言的语义处理至今尚没有一种十分有效的处理方法,这种先语法后语义的研究顺序恰好与人脑对处理语言方法的掌握顺序相反。在计算机对自然语言的处理研究中,一般对语义的处理只是在某范围内选定若干低级的原语,用这些原语的结构组织来解决高层次词条的语义,并且这些所需要原语的语义必须清楚,这样可以解决一定范围的语义问题。实际仅仅是用一定范围的语法结构代替语义描述,并没有真正解决语义的表达问题。没有解决语义的表达问题,也就无法真正让计算机实现自然语言的理解,因为任何一种理解都是建立在语义处理基础上进行的。当神经网络模型提出来时,许多人将对语义的处理和语言理解寄希望于神经元计算机,因为神经网络模型与人脑有类似的结构。那么,当神经网络系统大到相当程度,层次足够多,同人脑的数量级相当时,是否就可以表达语义,因而能同人一样地思维了呢?对这个问题的回答仍然存在两种不同的看法。反对者认为:神经元计算机对语义的表达和理解实际上并无本质的改观;支持者认为:当神经网络层次很多时,低层的原语语义已经非常贫乏,近似于0、1编码,或是由于层次过低的原语语义对高层的语义已经影响甚微,因而认为可以表达。
实际上,这种关于语义表达和语言理解的争论,不仅触及计算机信息加工的本质,而且提出了令人深思的哲学问题。信息符号是形式化的,在某种程度上抛弃了丰富的内容,抽取保留贫乏的形式。哲学的观点一向认为事物是普遍联系的,但是在具体情况和条件下,有些联系是松远的,甚至完全可以被忽略不计。计算机作为形式化信息加工的装置,要表达和处理现实世界中的任何具体问题,都必须对具体问题在一定程度上切断联系。实际上,从计算机存储信息的媒体结构上来看,信息是用单元编码表示的,而被编码的各单元之间是相互独立的,如果有联系,也要通过运算器及程序指令来表达,这恰恰与事物普遍联系的原理是相悖的,因而概念间的联想联系,对应各种常识信息、语义、语用及语境信息之间的相互关系在抽象的形式化的符号加工模式中就较难以实现,相比之下,神经元计算机要更合理些。但是,事物的联想紧密程度不同,将所有联系都保留,这似乎是不可能的,即使表示有可能,对处理也是极大的负担。也许这正是神经网络为什么最后要发展到符号式处理的原因。世界是无限的,而特定的计算机总是有限的,要计算机去处理具体问题,只能在无限联系的世界中抽取一小部分,一个子集,那么,这种割断联系的处理方式是否可行合理呢?这为我们提出了一个深入的哲学问题,也许这正是当今计算机为什么不能像人脑一样完全理解和正确处理自然语言的症结所在。
从另一方面看,计算机对自然语义的表达和理解问题,不仅与当今计算机的发展水平和处理能力有直接关系,而且涉及到人对自然界规律认识的深度、对自然界问题描述的能力和处理手段以及对事物之间联系的处理等复杂问题。在现有的技术水平和条件下,人对自然语言本身所蕴含的规律的认识也许还不够全面,或者对自然语言本身的表达方式与计算语言学的表达形式之间以及与计算机能够处理的抽象描述形式之间的联系揭示不够深刻,在自然语言和计算机语言之间缺乏一种应有的桥梁,使得计算机无法理解人类自己的语言。也许将来有一天,随着计算机技术的不断发展和人类自身对自然语言规律的认识和理解不断加深,使计算机能够接受的各种表达能力日益增强,机器的智能达到相当的水准,计算机理解和处理自然语言可能不再是一个问题。但是,在整个研究过程中,像其它研究方向一样,可能会不断提出更多深入的哲学问题,这正是自然科学对社会科学的严峻挑战,对于这些问题的思考和解决将是摆在我们面前的艰巨任务。
尽管辩证唯物主义的哲学代替不了具体的人工智能学科,认知科学的研究也替代不了各门具体学科的研究,但是,它们的研究成果却毫无疑问地会加速计算机的高层次应用,加快社会生产力的发展,并为计算机的应用和发展指明正确的方向。而计算机的实践所提出的哲学问题也必将丰富哲学的思维。