20世纪80年代以来汉语信息处理研究述评--现代汉语语法研究的应用背景之一_自然语言处理论文

80年代以来汉语信息处理研究述评——作为现代汉语语法研究的应用背景之一,本文主要内容关键词为:汉语论文,述评论文,现代汉语论文,语法论文,背景论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

面向信息处理的语言研究带有交叉学科的边缘性质,在拓宽研究领域、扩大研究视野的同时,新开辟的研究空间也难免带有一定程度上的背景模糊和层次不清。本文首先对80年代以来中国大陆计算语言学界、汉语研究界分别从各自不同角度开展的有关汉语的信息处理研究做一番梳理工作,从而对研究现状及研究成果有一个清醒的全局认识。在此基础上,探讨适合信息处理的现代汉语语法研究的发展方向。限于资料和篇幅,本文基本没有涉及海外学者的相关研究。副标题是“现代汉语语法研究”而不是“现代汉语研究”,主要是因为本文不谈语音处理方面的研究。另外,本文所指的语法研究,从宽理解也包括语义内容。

第二节简要勾画目前语言信息处理研究的宏观模式与格局。第三节把80年代以来国内汉语信息处理研究划分为三部分,并分别展开述评。第四节在述评的基础上对一些论争和理论问题作一番思考,提出汉语语法研究人员围绕信息处理开展相关研究时应关注的问题,以及应遵循的原则和标准,最后就面向信息处理的现代汉语语法研究的发展方向谈谈自己的看法。

自然语言的信息处理跟计算机的诞生几乎是同时的。来自计算机科学、语言学、数学等学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到主要是非数值信息处理。不管是数值还是非数值信息,计算机处理信息的一般模式都可以归结为以下三部分。

(1)处理对象(输入):有限种符号的有限长序列(M=a[,1] a[,2]…a[,n]);

(2 )处理过程(运算):用事先编制好的程序对其进行有穷次的变换;

(3)处理结果(输出):产生新的符号表达式(M')。

把自然语言作为处理对象在计算机中进行处理时,上面模式中的(2)在实现策略上可以有不同的选择。 比如早期人机对话系统采用的是简单模式匹配方法;后来发展起来至今仍在广泛使用的基于规则的处理方法;以及近年来日趋流行的语料库统计方法等等。总的说来,规则方法和统计方法的并存,形成了当前自然语言处理领域理论和技术策略取向的基本格局。

无论是哪种方法,都包括两个方面,一是关于自然语言的知识,二是表述知识的机制。我们假定有关自然语言的知识是客观的,那么知识本身对规则方法和统计方法来说应该是共同的,没有差异。这样,比较规则方法和统计方法的差异,很显然就可以归结为表述知识的机制的不同。一般而言,规则方法最常见的是以一定的形式语法系统来表述自然语言中大小成分间的组合规则;统计方法则以各种统计数据来显示语言成分间的组合可能性。不少论文在谈及这两种方法的优劣时,通常会说在实际操作上前者的知识来自专家的内省,后者则是由计算机从真实语料中统计得来;在效果上前者的知识颗粒度大,而后者的知识颗粒度小;在面对处理对象时前者的鲁棒性(robustness)差,而后者的鲁棒性强等等。我们认为这样的比较显得很直观,但却是一些似是而非的粗糙意见,并没有触及两种方法的实质。实际上,在甄别规则方法跟统计方法的异同时,真正应该回答的问题是,两种方法在组织语言知识时各自的困难和负担在哪里,对语言知识的控制方式如何,系统的总体效率和代价如何,等等。要知道哪一种方法对自然语言处理更有用时,也不应该是笼统地下结论,而应该是对不同层次和级别的自然语言处理问题分开来讨论。比如,统计方法用于自动分词和词性标注以及语音识别等领域,取得了比较好的效果,用在句法结构和语义的分析上又会怎样呢?

规则方法和统计方法的优劣不在本文讨论的范围之内。无论是哪一种方法,最终都需要依赖可靠的语言知识驱动计算机正确地处理自然语言。从目前对自然语言知识掌握的水平来看,两种方法都还有许多研究工作要做,尚不到一争长短的时候。此外,把两种方法对立起来看仅仅是一种视角,自觉地审视二者的共性并互相补充,对研究工作可能更有启示。事实上,已有不少研究人员用统计的方法发现规则,再用得到的规则进行分析处理;或者利用统计方法在传统的上下文无关语法的规则中加入概率权值得到概率上下文无关语法的产生式规则,这些研究都显示出将二者结合起来的趋势。

统计方法涉及到较多的数学公式,考虑到本文的主要目的在于为文科背景的研究人员进入汉语信息处理这一研究领域提供参考信息,我们下面的讨论将集中在有关汉语信息处理中跟规则方法相关的研究上。

就规则方法而言,人要做的工作主要包括:

(1)从自然语言中抽取可被形式化的语言知识;

(2)以一定的形式化方法表述这些语言知识;

(3)将这些语言知识算法化后编制成程序输入计算机。

上述工作一般说来应该由语言学和计算机科学工作者共同完成。理想的做法是,语言学工作者主要承担的任务是从纷繁复杂的语言现象中抽取可形式化的语言知识;计算机科学工作者则通过一定的形式模型表述语言知识以及将语言知识算法化编制成程序。

在基于规则方法的框架中,语言知识可以分为范畴和规则两部分内容。而所谓从自然语言中抽取语言知识,也就是由人来为自然语言建立有限的范畴,并以有限的规则来表述这些有限范畴之间的有限关系。80年代以来国外语言学流派纷呈,理论迭出,实际上是在语言知识的抽取中,对确立哪些范畴以及采取何种表达方式来组织规则系统各抒己见。国内计算语言学界、汉语研究界在面向信息处理开展的语法研究方面,也同样如此。下面我们基于这种认识展开具体评述。

80年代以来国内在汉语信息处理领域的主要研究大致可以分为三大块:

(1 )引介国外理论方法并结合汉语特点探讨计算机处理汉语的理论问题;

(2)各种跟汉语的信息处理相关的实验和应用系统的研制开发;

(3)汉语知识库的建设及汉语语法规则的发掘。

需要说明的是,这三大块只是就最主要的方面勾勒而已。分成三块很大程度上也是为了叙述方便,实际的研究并不见得就只有这些并一定以这样的面貌呈现。鉴于本文主要是在考察80年代以来汉语信息处理研究基本状况的基础上,探讨以信息处理为应用背景如何进行现代汉语语法研究,我们对前两块研究内容的评述相对简略,对第三块的研究工作,其中包括已经建成相当规模的知识库,以及虽然规模不大但堪称积极探索的对汉语语法规则的相关研究,评述要详细一些。

下面我们先来看第一项研究工作。

这一块的工作在引介国外计算语言学领域的理论方法为主的同时,有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索。

自乔姆斯基50年代末提出转换生成语法以来,一系列跟形式语法密切相关的语法理论相继问世,诸如扩充转移网络(ATN)、 管辖约束理论(GB)、功能合一语法(FUG)、词汇功能语法(LFG)、定子句语法(DCG)、中心词驱动的短语结构语法(HPSG)、 广义短语结构语法(GPSG)、范畴语法(CG)、连接语法(LG)等等。此外,形式化程度不高的语法有配价语法、格语法、系统功能语法等。计算语言学的迅速发展为上述各种理论提供了一个良好的演练舞台。这些各具特色的语法理论在计算语言学的各个应用部门,诸如机器翻译、人机对话等领域,几乎都已得到广泛实验。应当交待的是,这些研究涉及到的自然语言差不多都是英语。

国内50年代末开始机器翻译研究,中间停顿后80年代初期恢复,成为当时自然语言处理研究领域的主要风景。代表性的研究工作基本收录在陆续出版的3卷《语言和计算机》论文集中。 而对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面(所谓的第一代、第二代乃至第三代人机对话系统等等)。范继淹、 徐志敏(1982),李家治、陈永明(1982),冯志伟(1980 )等的介绍及其所研制的实验系统的报告,是这方面的代表。

将国外的语法理论和方法全面系统地汉化是在80年代中后期开始的。随着《中文信息学报》在1986年底的创刊,国内这一领域的研究者有了一块稳固的研讨阵地。介绍国外各种语法理论的文章成为国内研究汉语信息处理的重要参考文献。在语言学界《国外语言学》和《语言文字应用》也同时扮演了这方面的文献传播者的角色。此外,自1991开始的两年一度的全国计算语言学联合学术会议,为研究者提供了宝贵的交流和学习机会。90 年代初国内出了三本介绍计算语言学的著作。 钱锋(1990)、陆致极(1990)、刘开瑛和郭炳炎(1991)将有关自然语言处理这一领域的基本理论和方法加以总结,基本上反映了国外一个时期内的基础研究面貌。这三本引论性质的著作对研究人员形成一个关于计算语言学的整体印象助益良多。90年代中后期,系统地介绍计算语言学的专著又陆续问世,其中冯志伟(1992a,1995a)、姚天顺等(1995)等著作堪称代表。跟早一批的著述相比,这时期一方面增补了有关国外新的研究内容,另一方面对国内学者所做的系统研究和理论探索也多有涉及。对自然语言理解做深层次的带有哲学色彩的思考,在国内就显得非常冷清。仅有的研究见宁春岩的“自然语言理解中的几个根本问题”(1985),以及他译介的美国哲学家Hubert L.Dreyfus 的专著《计算机不能做什么——人工智能的极限》(1986),还有袁毓林的“自然语言理解的语言学假设”(1993)。

值得一提的是,国外对多种形式语法理论进行广泛实验,但其效果并没有理论提出之初那般的轰动。自然语言处理的困境仍未得到实质上的改善,暴露出对自然语言知识本身的发掘很有限的弱点。尽管表达方法先进了,所能表达的内容却并不一定就会跟着有实质性的提高。这也是这些语法理论难以从根本上解决自然语言处理问题的症结所在。

总体来说,引介国外计算语言学理论对确立我国计算语言学领域的宏观格局起到了决定性的作用。对这一领域许多现象的观察,以及对研究课题的把握,都离不开这个大背景。

下面我们再简单谈谈第二项跟汉语信息处理相关的研究。

这一块的研究工作主要是实践应用,带有浓厚的工程技术色彩。结合汉语的实际情况,用计算机对汉语进行信息处理,首先碰到的是汉字的输入输出问题。跟汉字的输入密切相关的研究是汉字编码。国内在经历了所谓万“码”奔腾的汉字编码战国时代之后,这方面的问题基本解决。目前汉字输入已不构成汉语信息处理的障碍。不仅如此,从键盘到光字识别、手写识别直到语音输入,汉字的输入方式已是多种多样,能够满足多种需要了。跟汉字的输出密切相关的是汉字字库的信息压缩技术。享有“当代毕昇”美誉的北京大学教授王选与其同事一道研制成功的汉字折线段压缩技术,很好地解决了这个难题,从而划时代地使汉字文献的印刷出版告别铅与火,进入了电子时代。

跨过了字处理难关的科研人员在继续迈步前进时,又迎面遇到汉语特有的自动分词的困难。由于汉语书面语按词连写的习惯,词与词之间没有像拼音文字那样的天然空格隔开。这样,计算机面对的汉语整句输入,实际上就是单个方块汉字线性排列的字符串。要像人那样对句子进行处理,就必需把这一串字符切成合乎人的语感的一串词。这是我们进行其它所有跟自然语言处理相关的应用开发,诸如机器翻译、人机对话等的前提。然而不像在解决字处理难题时那么走运,在分词问题上,尽管我们的许多计算机自动分词应用系统都宣称达到90%以上的正确率,但在实践中仍有相当多的分词歧义问题、未定义词问题等困扰着研究人员。

这有两方面的原因。一方面是在理论上没有最终解决汉语词这个语言单位的性质问题;另一方面,也是更重要的方面,是汉语词本身的特点造成的困难。

不管怎样,汉语切词软件目前也算基本上达到实用要求。分词结果作为后续处理的输入基本能够满足要求。相比之下,比分词更进一步的,同时也是自然语言处理核心部分的句法分析,情况则是更加不尽人意。就汉语的特点而言,句法分析的很大一部分工作实际上可以看作是短语(词组)结构分析。当汉语信息处理迈入句处理(短语结构分析)阶段时,遇到的困难比字处理和词处理阶段的要多、更大。以语言信息处理中最引人注目的机器翻译领域为例,吴蔚天等在设计汉外机器翻译系统Sino—Trans时提出的汉语完全语法树模型, 就是在尝试建立适合计算机使用的汉语句法分析模型。这虽然在一定程度上推动了计算机分析汉语句法结构的研究,但在直接发掘汉语语言知识方面,即揭示汉语的语言成分组合规律方面并没有多大进展。

不过,值得指出的是,除了机器翻译之外,还有如汉语生成、篇章理解、信息检索、自动文摘、自动校对等应用系统的开发,都对汉语语言知识提出了迫切的需要。这些需要从一开始就是而且也是今后汉语研究的主要驱动力。在这一点上,计算机科学跟语言学研究人员应该联合攻关,以充分发挥各自的知识优势。

下面我们要评述的第三项研究工作,是国内研究人员在发掘汉语语言知识方面所做的尝试和努力。其中就有计算机科学和语言学两方面研究人员联合攻关的范例。

我们先看两个规模比较大的构建汉语知识库的工作。一个是鲁川、张普、林杏光等倡导的基于格语法的汉语语义格关系研究。另一个是朱德熙、陆俭明、俞士汶等倡导的基于词组本位语法的现代汉语语法信息词典的研究。从抽取汉语语言知识的角度看,这两项工作在建立汉语语义知识和语法知识的基本范畴体系方面都做了相当深入的探索工作。

鲁川主编的《动词大词典》(1994)在将格语法理论落实到汉语一个个具体的动词上去时,提出了一个由22个格组成的汉语格系统。这22个格分成两大类、7小类,组织成汉语动词的格关系系统。图示如下:

而对动词本身,《动词大词典》“根据动词所表明的与动作或状态相关的主体客体间的语义关系”,将动词分为6个次类。分别是:

他动词:主体是动作的发出者,动作涉及客体,如:吃、重视、研究等;

自动词:主体是动作的发出者,动作不涉及客体, 如:走、跑、毕业等;

外动词:主体不是动作的发出者,动作涉及客体, 如:碰见、知道、懂等;

内动词:主体不是动作的发出者,动作不涉及客体, 如:病、死、输等;

领属动词:表示领属关系的动词,如:有、拥有、具有等;

系属动词:表示系属关系的动词,如:是、等于、属于等。

基于上面的总体框架,《动词大词典》对1000多个现代汉语常用动词按义项进行了动词语义格关系的描写,并对每个动词的各种格框架情况给出相应的例句来说明。比如:

爱护〈他动〉爱惜并保护。

【基本式】[施事{军人、猫、图书馆}+爱护+受事{儿童、 士兵、眼睛、身体}]读者要爱护图书

【扩展式】[系事]〈作为读者〉每个人都应该爱护图书。│你〈作为公司的职员〉应爱护本公司的名誉。……

从这里所举的简单样例不难看出,《动词大词典》实际上是对汉语动词跟名词性成分的语义搭配进行了概括描写。在学术界对汉语动词语义应设多少格尚无结论的情况下,这部词典的编者出于语言工程的考虑,花大力气从具体描写每个动词的格框架做起,应该说是很有些魄力的。但语义描写从理论框架的确立到每个词项的把握,不是易走的坦途。正如《动词大词典》的编者在序言中指出的那样,深化现代汉语格关系的研究是没有止境的。动词格框架系统中各个格的确立是否恰当(包括名目和数目),每个动词在刻画其格框架时如何取舍,名词是如何跟动词发生格关系的,在动词的语义组合框架中如何确定名词的语义特征和类别从而整理出名词的语义分类体系,这一系列问题还有待解决。离真正能让计算机发挥效力的汉语语义模型的建立还有很长的路要走。不管怎样,先有一个一定规模的探索性成品出来作为后继者的参考,是经验也好,是教训也好,都是有启发意义的。

《现代汉语语法信息词典》以朱德熙先生提出的词组本位语法体系作为设置各项语法范畴的理论基础。做法是首先确定具体的功能标准以建立汉语的词语分类系统,并对照一个词语的句法功能表现按义项把它归入某个词类;然后是以功能理念指导词语语法属性项目的设置,并根据一个词语的实际用法情况标记它的属性值。词典中的属性项目相当多,例如作为研究重点的动词在词典的总库和分库中共设立了100 多项属性,来标记一个动词能否重叠、能否直接受名词修饰、能否作“有”的宾语、是带体词宾语还是带谓词宾语等等。根据每个词在这些属性项目上的取值,我们就大致上可以确定一个词在实际话语中出现时的分布状况。下面我们举两个动词为例说明。

词语 同形 义项 助动 外内 体谓准 双宾 着了过 重叠

保管1

保存体 着了过

保管2

担保谓

帮 帮助体双着了过

VV

VVO离合单作谓语 单作补语 兼类……

可q

“保管”有两个义项,作“保存(物品)”理解时,它可以带上“着、了、过”等助词;还可以单独作谓语(如“我保管”);带体词性宾语等。而当它作“担保”理解时,它就不具备这些功能性质了。从分布上看,“保管”一词的两个不同义项,在句法上有大致的互补分布关系。“帮”除了作动词外,还兼属量词类(标记为q)。 这样描述记录一个词的功能用法特征的方式很容易让人联想到所谓复杂特征集(complex feature set)之类的形式化手段。实际上, 《现代汉语语法信息词典》可以说正是复杂特征集的形式化描述方法在汉语词语的语法知识形式化方面的一次大规模实践。在离散式的复杂特征集外衣下, 5万多汉语词语的语法知识靠词组本位语法理论统一起来,成为一个有机整体。像上面例子中“体谓准”这样的属性项目名称,就直接取自朱德熙关于汉语动词宾语性质的区分。

跟语义知识的复杂性相比,语法知识相对容易把握一些,但也并不是没有问题存在。《现代汉语语法信息词典》为各类词设置的属性是否包含冗余信息,词语的相关属性之间在取值上的一致性是否得到保证,词语的语法特征信息作为静态的孤立的标记,在它参与组合时如何变化,即语法信息词典对一个词的用法所作的记录跟它在实际语言中出现时的丰富性相比还有多大差距等等,都是有待进一步研究的问题。这对词语的语法属性在用于计算机对汉语句子进行句法分析时能发挥多大作用有直接的影响。

上面介绍的两项研究并不属于信息处理领域的某个应用系统,而是出于通用的考虑,可以看作是在面向汉语的信息处理这个大目标下展开的构筑基础平台的工作。规则方法也好,统计方法也好,在具体操作中其实都离不开这样的语言基础知识库的支持。不过,如果回到范畴加规则的语言知识结构视角上来,不难发现,上述汉语知识库的建立,主要还是句法语义范畴的设置,并没有涉及范畴之间关系的研究,即对直接服务于信息处理的汉语句法规则缺乏总结。下面将要提及的一些面向汉语信息处理对汉语语法展开的宏观探讨,以及一些针对汉语特定的具体问题的研究,可以看作是涉足汉语句法规则的研究。其中宏观研究方面有代表性的包括马希文(1989),冯志伟(1992b,1995b ), 白硕(1995),罗振声、郑碧霞(1994)等。这些研究把汉语研究置于计算机信息处理这个广阔的应用背景上,并给人以启发。白硕的研究工作提出了一套利用计算机来辅助发现汉语语法知识的体系,并从数学上给出了证明,同时以动词的小类划分为实例进行了小规模的实践检验,很具参考价值。谈到这里,有一点需要顺便指出,白硕在他论文的最后,单辟一节“结果的语言学解释”,对由计算机通过计算抽取的汉语知识给出语言学上的解释。这是非常可取的做法。而时下不少研究工作,尤其是一些用统计方法来处理语料的文章,疏漏了这方面的必要说明,罗列一大堆统计公式再配合一两个简单的例子,让读者特别是文科背景的读者丈二和尚摸不着头脑。

面向信息处理开展汉语具体问题研究的还有马真、陆俭明(1996)的对汉语“名词”+“动词”词串组合歧义的研究,孙宏林(1997)的从标注语料库中归纳汉语“V+N”序列的语法规则的实验分析,以及詹卫东(1997)的对汉语“P〈被〉+VP[,1]+VP[,2] ”歧义格式自动排歧的探索等等。这些研究重在规则的发现,力求在已知词项自身的范畴属性值基础上,来发现多个词项在组合时的相互制约条件,或是根据语符串的上下文环境来判断一个语符串的内部层次和关系。比如“V+N”序列,在“维护大局积极进取”中,“维护”跟“大局”形成述宾式VP;而在“维护大局的稳定”中,“维护”跟“大局”不发生直接的结构关系。又如“P〈被〉+VP[,1]+VP[,2]”排列格式,“被警察抓住 vp[,1]罚了款vp[,2]”,介词“被”的辖域(scope)一直到第2个VP“罚了款”;而“被老师批评vp[,1]写了检查vp[,2]”,“被”只管到第 1个VP“批评”,“写了检查”则不是“被动”的。不难看出,要让计算机能正确判断这些结构的组合格局和内部关系,必须建立在对汉语的短语组合规则有充分详细的描写的基础上。我们已经有了比较系统的汉语词语语法语义范畴体系(当然这些范畴仍有进一步调整改进的必要),下面的工作重心就应是在短语的范畴研究和规则研究方面加大力度。

如果我们以对汉语语言知识的抽取水平作为一个标尺,来衡量在这个不算太短的时期内,面向信息处理的现代汉语语法研究的发展程度及状况,我们可以得到的一个大致清晰的初步结论是,在确立现代汉语语法语义的范畴方面取得了较好成绩,在规则方面虽有一定探索,但跟范畴方面的进展相比则显得不足。概括而言,就是对汉语知识规律的发掘的整体水平仍难以满足计算机处理的需要。(注:这样的观点多少会被斥为保守或至少是态度不甚乐观。上文对80年代以来汉语信息处理领域三大块主要研究工作的评述,可支持这个评价。不管怎样,清醒地审视过去和现状,才能有效地去设计未来。)

上面把80年代以来汉语信息处理领域研究的基本状况做了简要评述。这一节我们在此基础上对面向信息处理进行汉语语法研究的两个相对宏观的问题发表一点看法,希望能给投身这一领域的语言学研究人员提供参考。

第一个问题是如何看待80年代以来五花八门的各种语法理论以及语料库方法对汉语语法研究的意义。

80年代以来发展起来的诸如GPSG、LFG、HPSG、DCG等,以及乔姆斯基生成语法学派不断翻新的理论体系(包括X—bar、GB、θ—theory等),大致上都可以看作是将语言知识加以形式化的方法。这些理论本身并不一定就能给汉语语法研究带来更丰富的有关汉语结构规律的知识,但因其视角的新颖和描述手段倾向于严密的形式化表述,可以促进我们认识上的清晰化和对汉语语法研究的规范化。然而带来的问题是,这些理论如果分别用于汉语语法研究,效果会一样吗,还是各有高下?对这个问题目前还难以回答。笔者没有太多的实践经验,国内也很少看到真正用某个理论一以贯之地组织出一套较为完整的汉语语法的研究成果。但如果允许根据有限的经验做一些尝试性的猜想的话,我们的看法是,这些理论用于组织汉语语法知识的大效果应该是差不太多的,差别只在技术细节和具体的计算机实现上。

这里值得一提的是,国内学者黄曾阳(1997)积多年研究心得,提出面向整个自然语言理解的理论框架——概念层次网络理论(HNC), 对传统的基于句法知识的语言表述及处理模式提出挑战,代之以语义表达为基础来对汉语进行理解。就其理论模式的思想原则而言,我们认为,HNC仍然是试图以有限的形式符号去控制无限的自然语言意义。在HNC理论的宣言中,有限的形式符号的组织方式是以所谓有限的句类、有层次的网络概念体系出现的,并断言是建立在对人类大脑语言感知过程的模拟基础上的,可以完备地表述自然语言任何语句的语义结构。事实上,按照我们对自然语言知识的分析,从句法入手还是从语义入手,并没有本质上的差别。问题的关键在于,从句法入手,就要分出大大小小的句法类,并以这些类为基础去进一步表述各类之间可能的关系,给出同类关系和异类关系的判别依据,在需要的情况下引入语义知识来帮助判断。从语义入手也是采用这个基本模式,同样要分出大大小小的语义类,给出把实际的语言成分归入这些类的操作标准,并在对语言成分进行正确组合或分解时给出基于语义类的判别依据。这样看来,HNC 理论作为一条新路,探索精神值得我们钦佩,探索的方向也反映了目前自然语言理解领域研究的趋势(即对自然语言语义知识的迫切需要),但实际落实起来,要做的工作仍然是困难重重(无法回避给意义分类的问题)。

再谈语料库方法的崛起。这主要表现为近年来大规模语料库的积极建设以及语料库自动检索、查询、标注等自动加工工具的不断提高和完善。基于经验来抽取汉语语言知识从根本上讲离不开人的语言直觉的有力支持。比如建设汉语的树库,选用什么语法体系确立标注集,人工标注到什么人的语言直觉的有力支持。比如建设汉语的树库,选用什么语法体系确立标注集,人工标注到什么深度,都得事先由人来决定。再比如所谓的从语料库中发现汉语的分析规则,同样也得事先由人来设计好一定的知识模板,有目的地去发现。当然我们同时又必须看到,随着计算机硬件软件技术的飞速发展,对语料的处理能力已经今非昔比。如果有好的统计模型和质量可靠的标注语料库支持,利用计算机发现汉语的结构规律是非常值得探索的道路。总之一句话,高性能的计算机无疑是语言研究的有效工具,但光有简单的语料库和计算机程序,统计出来的语言知识必然很有限(比如词频或简单的互信息等等)。无论多好的工具,还得人来驱动。

第二个问题是在信息处理的背景下如何看待汉语研究界长期以来积累的一些争议问题,以及如何评价近年来提出的各种语法体系对汉语信息处理的意义。

众所周知,汉语研究过程中遗留了一大堆争议问题,诸如“词类问题”、“汉语中词这一单位的有无问题”、“汉语的句子是主谓模式还是话题陈述模式”等等。汉语信息处理为我们重新认识这些问题提供了一个非常有利的视角。拿“词类问题”来讲,争议最大的是“词无定类”还是“词有定类但类无定职”。在我们看来,一个词的词类属性,仅仅是该词一个比较重要的功能值而已。给词定一个词性,不是自然语言处理的最终目的。词性只是分析的手段之一。我们说“劳动”这个词只属一个类(譬如动词),或者说“劳动”兼属两个类(譬如动词和名词),都不是问题的实质。实质问题是,我们拿“劳动”的词类属性来干什么,以及为了这个目的,是给“劳动”定一个词性好,还是让它兼两个类好。根据笔者本人用形式化规则的方式来组织汉语知识的经验,坚持“词无定类”原则带来的后果是词典中的描述负担重;坚持“词有定类但类无定职”原则的后果是规则的负担加重,而词典的负担减轻。权衡之后是“词有定类”更加可取一些。“汉语中有没有词”这个问题也是如此。简单地拿印欧语来对比一下,说汉语的“字”如何如何独特,跟“word”如何如何不同,实际上解决不了任何问题。对计算机处理来说,与其问“汉语中有没有词这个单位”,不如问“汉语中的字在组合时有什么规则”。因为,无论设不设立“词”这个单位,纯粹的语法研究也好,为信息处理服务也好,都得回答一个共同的问题,即“小的单位是怎样组合成大的单位的”。同样,汉语的句子构造是“主谓模式”还是“话题陈述模式”,也不是一个真正的问题。真正的问题是,如果坚持主谓模式,就得回答汉语中哪些成分在什么条件下可以做“主”,哪些成分在什么条件下可以当“谓”。而坚持话题陈述模式,就得说清楚“话题”和“陈述”分别是由哪些成分充任的,有无形式标记,二者的结构规则是什么,等等。回答不了这些问题,主谓和话题陈述的争论就没有多大意义。

联系上述争议问题,近年来出现了一些语法体系,如“小句中枢说”、“字本位语法”等等,和更早的“句本位语法体系、词组本位语法体系”等并立于当今汉语研究界。如何看待这些在不同的历史时期提出的汉语语法体系?我们还用上面的眼光和思考方式,联系信息处理对汉语语言知识提出的要求来看,无论哪一种体系,都应该以对汉语语法知识的发掘程度及表述上的简洁程度为衡量标准。从这一点上说,上述体系在发掘汉语语法知识方面各有着重,也各有可取之处。比如按句本位的研究路子,对汉语的句型知识可能就会有较深入的总结。按小句中枢,对汉语的复句系统,应该更能产生研究成果。按词组本位,对汉语的短语结构规则就容易深入探求其规律。按字本位的眼光,对汉字组词的规则就更加重视。这些理论体系之间,不是简单的一个否定另一个,而是对汉语语法知识的各个层次、各个方面有不同侧重,从不同途径去挖掘汉语语法知识。谈到表述的简洁程度,因为汉语在构词造句的各个层次上存在着大致的同构倾向,而词组本位体系牢牢扣住这一点来组织汉语的语法知识,总体上来看,比句本位体系表述汉语语法知识要精练一些。至于字本位理论,因提出时间不长,尚未见到关于汉语具体语言规律的系统的知识表述问世;而“小句中枢说”虽有邢福义的《汉语语法学》(1996)做了比较系统的阐发,但就具体语言知识的挖掘而言,目前看来跟词组本位语法体系并没有什么本质的不同,只是在关注的重点方面有所偏重。

综括起来,我们倾向于在清晰的应用背景下来思考上述争议问题和评估不同的理论体系。有时候,表面的争端并不像强调的那么尖锐。似是而非的问题下面才是需要真正去认真思考的实质问题。这里我们不妨打一个比方。几个瓶子里分别装有不同的液体,如果一个没有嗅觉和色觉但会认字的人来用它们做菜,他就只能根据瓶子外面贴的标签来决定如何使用它们。如果贴有“酱油”标签,就用它来增加咸味;如果贴有“黄酒”标签,就用它来祛除荤菜的腥味。计算机处理自然语言,大致上也就是这样。计算机系统就像那个没有嗅觉和色觉但能认字的人一样。它只能根据事先贴好的标签来决定怎么做。比如我们给“劳动”和“光荣”分别贴上“动词”和“形容词”的标签,同时又让计算机知道“动词”后面加一个“形容词”可以构成合法的主谓结构,表达一个完整的意思(相当于那个人知道“酱油”可以增加咸味),计算机就能造出“劳动光荣”这样动听的汉语句子来。但问题在于,我们在给“劳动”贴上“动词”标签的同时,还给“企图”也贴上了同样的“动词”标签。计算机当然就根据上述知识也“理直气壮”地造出让人觉得别扭的“企图光荣”来了。很显然,人看了这个糟糕的结果后,有两个地方需要检查。一是标签是否贴得合适;二是如果标签贴得合适,是不是该告诉计算机,有的“动词”跟“形容词”不能随便组合成“主谓结构”来表达意思(相当于告诉那个人不是所有的“酱油”都能给菜带来可口的咸味,对“酱油”可能还要进一步细分来加深认识)。

我们以这个也许算不上很恰当的比喻来结束本文,只是想强调,对面向信息处理从事汉语语法研究的人来说,真正的问题始终应该包括:(1)我们该为汉语准备多少标签?(2)给汉语中的任意一个成分(无论是语素、词、短语还是句子)贴上某一个标签,意味着什么?(3 )关于这些标签之间的相互搭配使用关系,我们掌握了多少?从80年代以来汉语信息处理研究的基本状况来看,接下来的研究重点首当其冲应该是回答第三个问题,即汉语一类词跟另一类词之间的组合规则是什么?一类短语跟另一类短语之间的组合规则到底是怎样的?而在回答这个问题时,应该时刻想到答案是给计算机用的,不妨尽可能地把计算机想象得傻一些,给出的答案就不得不务求清晰明确。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

20世纪80年代以来汉语信息处理研究述评--现代汉语语法研究的应用背景之一_自然语言处理论文
下载Doc文档

猜你喜欢