语法知识在语言信息处理研究中的作用*,本文主要内容关键词为:语法论文,作用论文,语言论文,知识论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 语言信息处理的研究对象
随着社会生活的日益信息化,人们越来越强烈地希望用自然语言同计算机交流信息。如果计算机能够“理解”自然语言,用户就能够通过自然语言使用数据库、专家系统、管理信息系统等各种软件,那将一扫计算机屏幕前沉闷枯燥的气氛,使计算机的环境变得更加引人入胜。因此,“自然语言理解”一直是人工智能中的一个富有挑战性的课题。从计算机科学的角度看,自然语言理解的任务是建立一种计算模型,这种计算模型能够像人那样“理解”自然语言。这就有必要给出关于“理解”的定义。然而,由于自然语言固有的复杂性,人们对自己理解语言的机制也还是不甚了了。说话人可以用不同的话表达同样的意愿,也可以用同一句话表达不同的意思。反过来,对于同一句话,不同的听话人也会有不同的反应。人与人用自然语言(包括口头的与书面的)进行交流之所以没有困难,是因为交流总是在一定的环境中进行的,交流双方的知识背景一定有共同的部分,而且交流的目的大体上也有预设。现在的计算机智能还远远没有达到能够像人一样了解环境与理解语言的水平,即使在可预见的将来也达不到这样的水平。因此,给“自然语言理解”下一个本质性的定义是极其困难的。不过,由于语言是信息的载体,关于计算机对自然语言的理解一般可以根据实用的信息处理的观点来进行评判。如果计算机系统实现了(1)人机会话,或(2)机器翻译,或(3)自动文摘,或(4)抑扬顿挫带有感情地朗读文章等语言信息处理功能,则认为计算机具备了一定程度的理解自然语言的能力。由于这些系统除了分析输入给计算机的文章或话语之外,还需要具备生成自然语言的语句或文章的功能,因此,在计算机科学中,除了“自然语言理解”,也常常使用“自然语言处理”或“语言信息处理”这些意义相近的术语。本文则使用“语言信息处理”。观察计算机系统所处理的语言信息,大致上可分为两类:一类是模式信息,如声音和图象,它们是语音识别和文字识别的前期处理对象;另一类是符号信息,如书面语的文本或者作为汉语语音识别结果的音节符号,它们是代码化了的,或者更确切地说,计算机只将每个字符的编码看作处理对象。利用键盘进行人机会话,对存储于计算机系统内的文本进行检索、校对、翻译、做摘要,乃至让计算机“理解”人类的语言所有这些工作,计算机所处理的对象都是符号信息。通常文献中所说的“语言信息处理”是指其处理对象为符号信息,本文也是在这个意义上使用“语言信息处理”这个术语的。
自然语言信息处理经历了艰难曲折的发展过程。无论同计算机科学技术本身的发展速度相比较,还是同计算机适合各行各业的应用技术的发展速度相比较,语言信息处理的发展是相当缓慢的。尽管如此,由于社会需求的推动,特别是近年来,Internet迅速扩张,大量的信息犹如潮水般涌来,这些信息的主要载体仍然是自然语言,人们渴望发展自然语言信息处理技术以实现文本自动分类、文献检索、信息提取、自动翻译、自动文摘、自动勘校,以加速信息、知识与文化的交流,促进社会、经济、科学的进步,显然这是每一个国家都面临的挑战。语言信息处理技术的发展又有了新的强大的推动力量。人们已经了解到,语言信息处理技术有着广阔的应用领域。已有一些语言信息处理系统形成产品,进入了市场。同时,人们在开发语言信息处理系统时所创造的各种分析技术,所积累的诸如电子词典、语料库等语言数据资源也会被集成到各种信息处理系统中,从而提高信息处理系统的智能水平。语言信息处理产业崛起的前景已经呈现在人们眼前。语言信息处理研究所取得的理论成果还会对哲学与人文科学的发展产生重要的影响,其社会意义可能更在技术、经济意义之上。自然语言理解的研究也在为探索人类智能的本质贡献力量。
我国的学者研究语言信息处理,自然以汉语作为主要研究对象。汉语信息处理同其他语言有很多的共性,也有自己的特性。同科学技术的其他领域一样,在语言信息处理领域,中国学者也面临竞争和挑战,不过这个领域却为中国学者留下了更为广阔的空间。汉语的“根”在中国。国内学者同汉语最亲近,最易把握汉语信息处理的特殊性。关键的问题是如何处理好既要努力同国际研究接轨又要充分把握汉语信息处理特殊性的关系。在艺术界人们承认最有民族性的艺术也最有国际性,在语言信息处理领域也应作如是观。中国学者只要充分认识到自己的优势,善于扬长补短,一定可以在语言信息处理领域为中国的发展和世界的进步作出自己独特的贡献。
二 语言信息处理系统的基本模型
机器翻译系统是典型的,其应用价值也是最明显的自然语言处理系统。当代机器翻译系统的模型可用图1表示:
图1 机器翻译系统基本模型
图1反映的是基于规则方法的机器翻译系统的基本模型。90年代,机器翻译研究还发展了基于统计与基于实例的各种模型。不过,当前世界上实际运行的机器翻译系统基本上仍以基于规则的模型为基础。从这个基本模型可以了解到,机器翻译系统的基本原理乃是要素合成原理。首先将原文的句子分解成基本构成要素(词,惯用语等),这样才可以查词典,才好运用语法规则找出句子的结构,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示。于是可在结构的层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行词序调整、虚词增删及形态变化,最终得到译文的表层句子。
三 语法知识的重要作用
上节介绍的机器翻译系统除了一般的计算机系统都有的硬件和软件(分析与生成程序)外,还有一个特别的组成部分,即语言知识库,包括静态的词典、语法规则库等,也包括动态的上下文相关信息。而且,在机器翻译系统中,语言技术(既包括存储于计算机系统内的语言知识库,也包括语言知识的归纳、表示与运用)是居于核心地位的技术。同硬件、软件相比较,目前语言技术发展得尚不够成熟,成为机器翻译开发过程中必须攻克的难关。
不难理解,词典与语法规则库中需要注入大量的语言知识,上下文相关信息的提取当然也要依靠语言知识的运用。更重要的,是要在适当的语法理论指导下,找出一种合理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识,而且需要保证自然语言句子的表层线性序列与其内部表示之间以及不同语言的内部表示之间具有可计算性,也就是彼此之间能通过一系列规则、操作或过程进行转换。可以说,语言技术特别是语言知识库的质量已成为自然语言处理系统成败的关键。
除了少数实验模型,大多数自然语言处理系统都包含句法分析这个步骤。狭义的语法分析就是指句法分析(包含词法分析),广义的语法分析则包括句法分析、语义分析和语境分析。
在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易理解的。在汉语中,很容易举出例子:
例1 老师写毛笔。/例2 学生吃食堂。
对于这些例子,仅仅在句法的层次上分析出“写”和“吃”是动词,“毛笔”和“食堂”是名词,且动词与名词之间是述宾关系,并不能妥善地解决机器理解与翻译的问题,必须进行语义分析,系统要在词典与常识库中为分析程序提供语义信息,如:“写”和“吃”是人或动物的行为。参与“写”这个行为的角色有“施事”“内容”和“工具”等,通常只有表示人类的名词才可以充当其“施事”,书写的“工具”应属于文具类。参与“吃”这个行为的角色有“施事”‘受事”‘处所“等,动物类的名词可以充当其“施事”,只有食品类的名词才可以充当其“受事”。还要给“老师”‘学生”分别附以“人类”的语义标记(“人类”是“动物”的下位概念),给“毛笔”附以“文具”类,给“食堂”附以“处所”的语义标记。[1]
同样,也有充分的理由认为语境分析是不可缺少的,例如要将“老王修车去了”这句汉语译成英语或日语,至少要从上下文中弄清楚老王是不是修车师傅。系统要有一个动态的知识库存放分析语境所得到的信息。分析程序要参照动态知识库,说明只有突破一个句子的界限,在篇章的范围内才可能正确地理解每一个句子。
人们大致上采用两种方式使用自然语言进行交流。[2]一种是“意合法”,发话者的几个关键的词语,就可以让听话者捕捉到有关的信息,这当然要依赖于当时的上下文环境。另一种是“结构法”,即人们平常说的、写的句子,虽然表面上这些句子看来只是音节或词的线性序列,但实际上是有一定的结构的。在这两种方式中“结构法”是基本的。目前,计算机能处理的也就是这样的有合法结构的句子,其中心任务就是通过句法分析、语义分析和语境分析得到句子结构的形式化的机内表示。句法分析、语义分析与语境分析,这三者之间的关系应当是以句法分析为主,词法和句法知识总是最基本的,也是研究得比较成熟的。适度的语义分析和语境分析是必要的,可以消除句法分析后残留的歧义结构。句法分析固然解决不了关于理解的全部问题,但也不宜对语义分析与语境分析期望过高。因为反映客观世界的语义系统(或者说知识系统,概念系统)即使能建立起来,也会十分庞杂,语境分析更是没有边界,这方面的研究虽有进展,但很不成熟。因而,当前开发自然语言处理系统的正确策略应该是将三者有机地结合起来。这也许是最有效且最经济的原则。这个原则对汉语是否合适,人们仍有怀疑。由于汉语是我们的母语,在日常交流中运用“意合法”得心应手,对汉语语法的形式系统缺乏清晰的认识,因此,当借助句法分析开发汉语信息处理系统而得不到理想的效果时,容易对汉语句法分析的作用产生怀疑。不过笔者认为当前句法分析在汉语信息处理系统中仍然具有举足轻重的作用,仍有很多潜力可以发挥。不过这需要仔细分析汉语句法分析的特殊困难及其产生的原因,并采取恰当的对策。
四 汉语句法分析的特殊困难与对策
语言信息处理研究的实践表明,汉语分析碰到了很大的困难。从外语(特别是英语)到汉语的机器翻译系统比从汉语到外语的要成功得多。笔者以为,这种情况主要同汉语语法的特点有密切的关系。造成汉语自动分析困难的原因可以从以下几个方面进行探讨。
1.同一词类可担任多种句法成分且无形态变化。[3]
2.汉语句子的构造原则与短语的构造原则基本一致。[3]汉语短语结构的一个重要特点是各类短语的组成成分又可以是各种类型的短语。汉语表现自然语言普通具有的这种递归性的特殊之处在于短语担任不同的句法成分时形态不发生任何变化。
以上两个特点对计算机分析汉语有重要影响。计算机程序可以从词语的形态变化中找到句法分析的根据与线索。例如英语句子中的主要谓语动词容易根据形态确定,主句与从句也比较容易区分,这些对句法分析都是至关重要的。外国人学汉语不会没有困难,但困难不在于对汉语语法基本规律的掌握。无论是中国人还是外国人都有共同的关于客观世界的知识,都有共同的用“意合法”表达知识、交流信息的能力。因而,人对汉语词类的多功能与多级语言单位的结构的一致性是容易理解、容易掌握的。相反的,计算机没有这些知识与经验,通常机器词典所包含的信息又相当贫乏,像分析英语那样,仅依靠一些语法公式来分析汉语会碰到更大的困难是不难理解的。
除了上述两个特点外,其他的一些特点也增加了计算机分析汉语的困难。
3.汉语的语序相当灵活。
4.汉语中的虚词虽然重要,却不是必不可少的。
5.汉语按句连写的书写习惯也成为语言信息处理的第一道关卡。
这里只简略讨论了由于汉语语法特点而造成的汉语分析的特殊困难。当然,任何一种自然语言,其分析和理解都是困难的。既不宜低估也不宜夸大汉语的特殊性。作者相信只要深入细致地进行思考与探索,终究会有所领悟与突破。不过作者又清醒地认识到限于当前的主、客观条件,并不奢望汉语分析能在短时期内取得突破性进展。作者尤其认为在以下两个方面进行开拓与积累,总是会有收获的:一个方面是建造大规模的语言知识库,另一个方面则是采用受限汉语。
关于受限汉语的研究,作者近两年来重新认识了它的必要性与意义。[4,5]自然语言处理技术经过数十年的探索与实践,虽然取得了相当大的进步,但在处理大规模的真实文本或随意的话语时仍然是举步维艰。实用的自然语言处理系统对自然语言总是自觉不自觉地进行了某些限制。这使人们认识到受限语言的研究是有价值的,作者积十余年在汉语信息处理研究中的经验,尤其认为在语言信息处理技术的发展进程中,受限汉语规范的制订与应用更是必不可少的。不过,受限汉语的研究决不是消极地回避困难,它必须建立在对自然语言的复杂性和技术现状的全面了解的基础上,它可以起到里程碑的作用。受限汉语的规范成为自然语言处理系统的目标。随着技术的发展,规范可以不断地修订,逐步接近自然语言,而每一步的目标都是明确的,是可以实现的。由于周锡龄教授的努力及有关主管部门的支持,受限汉语研究已列入国家九五科技攻关项目,并已启动。期望这个项目能够取得较好的成果。
关于语言知识库,与受限汉语的情况有所不同,作者不仅在刚刚进入自然语言处理领域时就已经认识到了它的重要性,而且十余年来持之以恒地进行语言知识库的建造工作。[6]大规模的语言知识库当然不是一蹴而就的,作者选择了“现代汉语语法信息词典”作为第一阶段的基础工程。对于汉语来说,词典的重要性很突出,汉语的形态不发达,适用于汉语机器分析的形式系统也不够成熟,这种客观现实要求研究者从机器处理的需要出发,深入地考察汉语的语言事实,系统地总结汉语语法知识,并且以既便于语言学家表述又便于机器使用的形式把这些知识表达出来。笔者及其同事们正是从这种理念出发,在朱德熙先生的“词组本位”语法体系的指导下,经过十余年的努力,研制了一部“现代汉语语法信息词典”。
五 语法知识在语言信息处理系统中的应用
“现代汉语语法信息词典”所包含的语法知识在语言信息处理多个领域的应用,已有文章介绍,[6]本文不再重复,这里只补充介绍这部词典在中文输入与文本校对中的应用。
1.中文输入
这里的“中文输入”主要是针对键盘输入而言的。中文键盘输入的方式多种多样,任何一种中文键盘输入方式都需要设计一套输入码。完全没有重码的编码方案必然增加用户的记忆负担,不适合一般人使用。当某种编码方案允许一个输入码对应若干候补词时,变换程序就可以利用语法知识从候补词中正确选取所需要的词语,提高输入变换的命中率。为了便于说明问题,这里以“汉语拼音方案”作为讨论的基础。
同以字、词为单位相比较,以语句为单位进行中文输入在技术上的进步是显然的。以语句为单位本质上同以短语为单位是一样的,这当然是由于作者承认“词组为本”的语法体系在理论上的指导作用。作者还有一个纯技术的考虑,即通常认为短语比句子要短一些。过长的句子无论是作输入变换还是作句法分析都是十分困难的。因此,作者以为目前的中文输入研究直接提“以短语为单位”比较实际。
在以短语为单位输入中文时,其变换模式可区分为“逐词变换”和“短语变换”两种。在“逐词变换”模式下输入中文时,每键入一个词(包括多字词与单字词)的输入码,输入软件就将它转换为对应的中文词,与以词为单位的输入方式不同,输入软件完成变换工作时,不仅依赖当前的输入码,而且参照在此之前已输入并转换成功的词语,这种模式可以更完整地叙述为“依赖上文的逐词变换”。在“短语变换”模式下输入中文时,要等一个完整的短语所包含的全部单词的输入码都键入之后才对所有输入码一次性地进行变换而给出相应的短语。这里假定键入以词为单位,即词与词之间留有空格,暂不考虑自动切词以免问题过于复杂化。在下面的例子中,汉语拼音之后的数字1,2,3,4代表四声,轻声用“5”代表。有的汉语拼音不带声调,甚至有些词语的输入码只用构成音节的首字母组合表示。
(1)在逐词变换模式下词法知识的应用
汉语的某些词类也有重叠等形态变化。如由两个汉字A、B构成的形容词AB 就有AABB、ABAB、A里AB、ABB等多种形态变化。像“冷清”可变化为“冷冷清清”,“冷静”可变化为“冷静冷静”,“慌张”可变化为“慌里慌张”,“孤单”可变化为“孤单单”。这些由原形词AB变化出来的变形词不一定作为词条登录在词典中。如果输入这些变形词的汉语拼音,即“1englengqingqing”“lengjinglengjing”“huanglihuangzhang”“gudandan”,直接查词典是查不到的,但可以判断它们是否为AABB、ABAB、A里AB、ABB等模式。如果是,则从中抽出AB,按AB去查词典的总库,其候补词会分别包含“冷清”“冷静”“慌张”“孤单”。其词性都是形容同。进而在形容词库中可查出这些词确实有AABB、ABAB、A里AB、ABB的形态变化,因此不难判定这些拼音串对应的汉字串可为“冷冷清清”“冷静冷静”“慌里慌张”“孤单单”。
(2)在逐词变换模式下句法知识的应用
例1.后数词的变换:在如“三十”或阿拉伯数字“30”这样的数词之后键入“jinl”,候补字有“金、今、津、斤、巾、筋……”。应用“数词后接量词构成数量短语”的规则,再查词典,知道在所有的候补字中只有“斤”是量词,自动选择“斤”是有理据的。
例2.后继程度副词的变换:在诸如“很、极、挺、最、非常、相当”之类的程度副词之后键人“zhong4”,候补字有“中、种、重、众、仲”等,根据“程度副词可以修饰绝大部分形容词和少数动词构成状中结构”的语言知识,配合查词典中各个词的词性,可以从候补字中筛选出“中、种、重”,如果进一步检索形容词库与动词库中的“很”属性字段,可以知道形容词“重”可以受“很”修饰,动词“中、种”不能受“很”修饰,因此不难决定在此情况下,应该选择“重”。这样的过程也可以用陈述式的规则来描述,即利用复杂特征集扩充上下文无关的语法规则。
例3.后继形式动词的变换:在形式动词“加以”之后输入“yanjiu”,有两个候选词:“研究”和“烟酒”,不过从词典中可以查到“加以”只能带谓词性宾语,因而这里也不难决定应当选择“研究”。
“逐词变换”模式也可以扩展,即决定当前词不仅依赖上文最近一个词的信息,也可以利用上文若干个词语的信息。
例4.后继数量短语的变换:在“三吨”之后键人“tang”,会出现“堂、棠、唐、糖、汤、塘、搪、膛、躺、趟、烫……”等候补字。但其中只有“糖”是名词且可以同“公斤、吨”等度量词匹配。由于名词与上文的量词并不直接构成合法的结构,而同上文的数量短语构成名词性短语,因此认为选择“糖”是依赖于“五吨”而并非仅仅决定于“吨”。同样,在“两斤”之后输入“pi2pa5”,就会选择“枇杷”而不会选择“琵琶”。
(3)在短语变换模式下语法知识应用的例解
例5.当希望录入“每天必须查点人数”这个短语时,操作员可以在依次键人如下拼音序列:“meitian bixu chadian renshu”之后,再按变换键。变换程序开始工作。“meitian”对应“每天”,“bixu”对应“必须”,“renshu”对应“人数”,但“chadian”对应“查点”和“茶点”,有歧解。通过查词典,可以知道“每天”是时间词,“必须”是副词,“查点”是动词,“人数”和“茶点”是名词。如果变换程序利用如下语法公式:副词(d)+动词(v)—>动词短语(vp)
动词短语(vp)+名词(c)—>述宾短语(vbp)
时间词(t)+述宾短语(vbp)—>简单句(djt)
很容易确定“chadian”只能对应动词,因而能把“查点”唯一地确定下来。
当短语中出现两个以上的词语有歧解的情况时,利用句法分析的效果则更明显。
例6.当希望录入“体育馆冬季出借冰鞋”时,键入的输入码为:“tygdongji chujiebingxie”对于三个字以上的词语,通常只输入各个字的拼音首字母也能把它们唯一地确定下来,这里,“tyg”对应“体育馆”,“dorngji”对应“动机”和“冬季”,“chujie”对应“出借”和“出界”,“bingxie”对应“冰鞋”。变换程序可以利用以下公式:动词(v,体谓准<>“”)+名词(n)—>述宾短语(vbp)
时间词(t)+述宾短语(vp)—>简单句(djt)
名词(n)+简单句(djt)—>简单句(djn)
并检索词典中各个词的词类及有关属性值,也不难确定“dongji”只对应时间词“冬季”,“chujie”只对应及物动词“出借”,尽管“出界”也是动词,但它不是及物动词。如果“冬季”的输入码不是“dongji”,也只键入两个字拼音的首字母“dj”,对应的词语有“动机、冬季、多级、点校、代价、等级、大家、毒剂、当今……”,但其中属于时间词的只有“冬季”和“当今”,候补词语从近百个一下子减少到两个。
2.在文本校对中的应用
使用某种中文输入方法的用户在写完的文章中常出现如下类型的错误:
“这根棍子不常。”(5.1)
“他不长去北京。”(5.2)
“请在来一次。”(5.3)
“他再来学校的路上。”(5.4)
“常”与“长”、“在”与“再”都是使用频度很高的单字词,这类错误无论采用切分词语的办法还是利用单词间的互信息都是难以查出的,更难以改正。然而“现代汉语语法信息词典”却提供了校正这类语法错误的线索。“常”与“长”、“在”与“再”是同音字,采用拼音输入就互为可能的错字。“常”是副词,在(5.1)中却做了谓语,显然不对,宜改为形容词“长”,词典中也指出形容词“长”可以受否定副词“不”修饰。在(5.2)中,形容词“长”处于修饰动词“去”的状语位置,然而词典认为形容词“长”是不能作状语的,如果改成副词“常”就合理了。判断(5.3)中的“在”乃“再”之错,是不容易的。“再”是副词,“在”也兼作副词,都可以置于动词之前作状语。在语法信息词典的动词库中设立了“动词可否受副词‘在’或‘正在’修饰”的属性字段。查动词“来”的这个字段的属性值,可知“来”是不能受“在”或“正在”修饰的,这样就查出了(5.3)有错,且有信心将“在”改为“再”。反过来,判断(5.4)中的“再”乃“在”之错就更困难了。但熟练运用语法知识,仍可找到解决问题的钥匙。先试着分析现在的(5.4),“再来”“再来学校”“再来学校的路上”都是合法的状中短语、述宾短语、体词性定中短语,不过这个体词性短语不能作“他”的谓语,整个句子不合法。当然也可以先将“来学校的路上”判定为体词性短语,副词“再”不能修饰体词性短语,也不合语法。若将“再”改成同音的“在”,“在”有动词词性。“来学校的路上”是体词性短语,“在来学校的路上”是合法的述宾结构,作主语“他”的谓语是完全合法的。因此,在这些语法知识的启示下,校改软件有可能将(5.4)中的“再”正确地改为“在”。
六 结语
以上介绍了应用“现代汉语语法信息词典”所包含的语法知识改进中文输入与文本校对的原理。由于语法知识的抽象程度较高,规则和词语的语法属性信息对实际语言现象的覆盖面较广,立足于语法知识的中文输入和文本校对技术既能表现出一定的智能,又不会把适用范围限制得过窄。为了实现自然语言理解,最终当然要利用语义信息以及包括常识在内的语境信息。
*本文研究工作得到国家自然科学基金的资助(项目号:69483003)。