现代汉语五万词语归类的实践*,本文主要内容关键词为:现代汉语论文,词语论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 关于汉语词类问题的基本认识
北京大学计算语言学研究所与中文系合作,历时10余年,研制了一部电子版的“现代汉语语法信息词典”。希望了解这部词典的内容及其应用的读者请参考本文所附的文献,[1,2,3,4]笔者不再赘述。本文总结在这项语言工程中所完成的5万多词语归类的实践经验,因而不得不涉及词典赖以建立的词语分类体系,也就不得不涉及汉语词类问题。词类问题是汉语语法研究中的老大难问题。
1.汉语的词语需要分类。本文所说的词类就是一般人熟悉的名词、动词、副词、介词等等。
这是从研究句组织和句法分析的角度对词语进行的分类。面向人的语法研究需要研究词类,面向机器的语法研究也需要研究词类。在用于自然语言处理的各种语法理论中,上下文无关语法是最基本的,根据它分析句子所得到的句法树的叶结点都是词类代码。“现代汉语语法信息词典”是以词语分类为基础的。[2]
2.汉语的词语可以分类。经过100多年的长期研究,语法学界对汉语词类理论问题的认识大体上已经趋于一致,[7,8]很多学者都在自己的论著中提出了汉语的词类系统,不过彻底的研究应当是一个词一个词地进行考察,至少要完成几万个常用词语的实际归类。“现代汉语语法信息词典”收录词语5万多,并分别归入25个类别中。这项研究工作的一个重要特点是面向信息处理。国内外约有20个单位的语言信息处理系统采用了“现代汉语语法信息词典”中的词语分类体系,显示了这个体系的生命力。“现代汉语语法信息词典”的词语分类体系是以朱德熙先生倡导的“词组本位”语法体系为基础的,[5,6]并将依据语法功能进行分类的原则贯彻到分类体系建立和实际词语归类的全过程中。
3.词类信息不能满足汉语信息处理的全部需要。尽管词类信息浓缩了词语的大量语法信息,[9]但由于自然语言的复杂性和模糊性,在任何一种实际可行的分类体系中,既有属于同一类的词语有不同属性的情况,也有属于不同类的词语有某些相同属性的情况,因此仅仅利用词类信息是不可能消解汉语语句剖析过程中可能出现的歧义结构的。新发展的计算语言学理论要求采用复杂特征集描述词语的特征属性。[10]语法属性是最重要的一部分特征属性。“现代汉语语法信息词典”的研制正是为了适应这种需要。按照“现代汉语语法信息词典”规定的关于信息量的计算方法,[4]目前词典所包含的总信息量达250万,词类信息只有5万,只占总信息量的百分之二。当然,这百分之二的信息的填写难度较大。
二 现代汉语词语分类体系
在朱德熙先生的语法理论的指导下,北京大学计算语言学研究所与中文系合作,在多项语言工程实践的基础上,经过几年的研究,于90年代初提出了一个面向语言信息处理的现代汉语词语分类体系,简介如下:
现代汉语词分为以下18个基本词类
名 词:马、苹果、水泥、编辑、战争、红色、北京
状态词:雪白、通红、泪汪汪、满满当当、灰不溜秋、沉甸甸、光秃秃
时间词:昨天、元旦、宋朝、现在、夏天
处所词:空中、地上、江南、门口、乡下、心中
副 词:白、不、很、都、刚刚、难道、忽然、自动
方位词:上、下前、后、东、西、里面、外头、中间
介 词:把、被、对于、关于、按照、依据
数 词:一、第一、千、零、很多、百万
连 词:和、与、或、虽然、但是、不但、而且
量 词:个、群、公斤、盘、片、种、些、平方米、公顷
助 词:了、着、过、的、所、似的
区别词:男、女、金、银、微型、高等、自动、慢性
语气词:吗、呢、吧、嘛、啦、呗、啊、呀
代 词:你、我们、这、那么、哪儿、谁、怎么样
拟声词:叮咚、啪、叮呤啷、哗啦、哇、嗡嗡
动 词:编辑、休息、喜欢、能够、打仗、是、调查、繁荣
叹 词:唉、喔、哎哟、嗯、啊、哦、呃
形容词:白、红、老、温柔、高级、突然、繁荣
此外,从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,“现代汉语语法信息词典”还包含了以下7类不能看作“词”的语言成分。
前接成分:阿、老、非、超小
后接成分:子、性、员、们、家
习 用 语:跑龙套、光杆司令、磨嘴皮、木头疙瘩、正儿八经
语素:民、衣、失、郝、物
非语素字:蟋、枇、鸯、葡、萝
简称略词:三好、政协、北大、幼教、足协
成语:胸有成竹、八拜之交、百折不挠、不堪一击、齐心协力
前4类是比“词”更小的单位,这些成分的数量有限,只要语言信息处理系统的规模允许,应当尽可能地将这些成分全部收入词典。后3类是比“词”更大的单位,词典中只能收一部分使用频率高的。“现代汉语语法信息词典”将以上25类语言成分笼统地叫做“词语”。
本文的重点就是讨论在将电子词典中的5万多词语分别归入到这25个类别中去的过程中所出现的问题及其处理策略。
三 归类的困难与对策
1.分类的依据是什么?“战争”和“打仗”指的是同一个概念,为什么“战争”划归名词,而“打仗”却划归动词?同样,为什么“高级”划归形容词,而“高等”又算区别词?为什么“突然”是形容词,而“忽然”是副词?为什么“红、红色、通红”分别划归形容词、名词和状态词?从这些实例可以悟出不是依据词的意义而是依据词的语法功能在划分词类。所谓词的语法功能,概括地讲是指在一定的语料范畴内词在句法结构中的位置和分布,具体地讲是指(a)词在句法结构中充当句法成分的能力;(b)词与某类词或某些词组合成短语的能力。“战争”在句法结构中通常担任主宾语而不担任谓语,因此划归名词;“打仗”因其主要功能是作谓语而划归动词。“高级”“突然”‘‘红”都可以作谓语,且可以受“很”一类副词修饰,因此都划归形容词。“高等”只能作定语,“忽然”只能作状语,因而分别划归区别词和副词。“红色”是名词,“通红”虽然像“红”一样可以作谓语,但与“红”的语法功能差别较大,宜归入状态词。关于各类词语的语法功能特点以及划类标准,很多论著都有详细的论述。这些论述自然成为各个词类系统进行词语归类的指导原则。不过,实际工作时,研制者的“语感”或隐或现地也起作用。胡明扬先生对此有精辟的见解。[7]因此,研制者不仅要努力掌握容易操作的形式标准,更要注意积累对语言的内在规律的感性知识,这种感性知识包括对每个词语的语法功能的认识与运用。
2.既然词的语法功能包括词在句法结构中充当句法成分的能力,那么是否可以根据词在某一个特定的句子中担任的句法成分就决定它所属的类别呢?例如有以下几组例句:
(1a) 他来了。(1b) 他在调查情况。
(2a) 来可以了解情况。(2b) 调查很及时。
(3a) 他愿意来。 (3b) 这件事需要调查。
(4a) 来的时机不好。 (4b) 调查的结果很难说。
在第(1)组中“来”和“调查”都表现了动词的能力,没有问题。但在第(2)组中它们担任主语,在第(3)组中它们都是宾语,是否又判定它们兼属名词呢?在第(4)组中它们加上助词“的”又作了定语,是否又认为它们是形容词呢?“现代汉语语法信息词典”不采纳这种认为汉语的句子成分与词类也是一一对应的观点(即主宾语与名词对应,谓语与动词对应,定语与形容词对应),只将“来”和“调查”划归动词。理由有两条:第一条是汉语语法的一个重要特点就是汉语的同一词类在句法结构中可担任多种句法成分,而且这些不同的句法成分没有必不可少的形态上的标记。在汉语中并非只有名词才能作主宾语,动词也可以作主宾语;并非只有形容词才能作定语,动词、名词也可以作定语。第二条是对第一条理由的进一步阐述。在第(2)(3)(4)组的句子中“来”和“调查”虽然作了主宾语和定语,但它们仍保留了动词的主要语法功能。与名词不同,它们可以作谓语,可以带宾语,可以带补语,可以受副词修饰。在(2)(3)组都可以扩充出很多合法的句子。例如:“他来可以了解情况”“警察调查案件很及时”“他愿意经常来”“这件事需要调查清楚”。与形容词也不同,它们可以带真宾语,可以后接动词构成连动结构或述补结构,第(4)组也可以扩充出很多合法的句子。例如“来英国的时机不好”“来投资的时机不好”“调查下去的结果很难说”。这些语言事实说明第(2)组至第(4)组中的“来”和“调查”仍然是动词,并没有转化为名词或形容词。也许有人认为将不同句法位置上的词标注为不同的词性有助于消解歧义结构,减少自动分析的困难。其实不然。按照当前的常规技术,计算机进行自动分析的前提条件是要知道语句中词的词性,然后才能确定词在句法树或其他内部表示中的位置及功能。如果词典中大量的词是多类词(如果用上述汉语句子成分与词类一一对应的观点指导词语归类,会有大量的词属于多个词类),在分析句子时,首先在词性自动标注时多选一的问题就很严重,如果又说可根据词在这个句子中的功能(即看它是担任谓语还是主宾语、定语等等)来判断,逻辑上岂不是陷入矛盾。仅仅依靠词性这种单一的信息无法减少汉语自动分析的困难。
3.承认汉语的词类具有多功能是否意味着不承认有兼类的词?兼类在理论上指的是如果同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。同一个词的含义是同字同音同义。请看下面的第(5)组至第(7)组的例子:
(5a) 共同完成一些任务(5b) 我们的共同愿望
(6a) 自动控制这个开关(6b) 方便的自动步枪
(7a) 定期检查机器(7b) 一笔定期存款
(a)中的“共同、自动、定期”与(b)中的“共同、自动、定期”,字形与读音完全一样,词义也没有差别,但在(a)中,这三个词都作为状语修饰动词,而在(b)中,这三个词又都作为定语修饰名词。这3个词都不宜归入形容词,因为它们不能作谓语,也不能受“很”修饰。作状语同作定语又是差别很大的语法功能,所以(a)中的“共同、自动、定期”宜划归副词,(b)中的“共同、自动、定期”宜划归区别词。同字同音同义的这三个词就兼属副词与区别词。基于这种观点,在语法信息词典的每类词的数据库中都设立了“兼类”的属性字段。再看第(8)至第(11)的例子:
(8a)买了一束花 (8b) 花了很多钱
(9a)开了一个会 (9b) 会拉小提琴
(10a)桌子上有两封信(10b) 别信他的话
(11a) 选举他当代表(11b)他代表我们发言
(a)组中的“花、会、信、代表”与(b)组中的“花、会、信、代表”,字形与读音也完全一样(按普通话读音,不考虑北京话的儿化音),但词义显然有区别,并且(a)组中的都是名词,(b)组中的都是动词。对于这种情况,有些语言学家不认为它们是兼类词,只认为它们各是两个不同的词。[11]作为两个不同的词,在语法信息词典中当然都要登录。名词库中有,动词库中也有。不过,为了支持计算机处理自然语言,电子词典应该给分析程序方便地提供相关信息,即在名词“花”的记录中需指明还有一个同字同音的动词“花”,同样在动词“花”的记录中也需要指明另有一个同字同音的名词“花”。可以在电子词典中设立一个“异类”的字段来表达这种相关性。但在句法这个平面上,从计算机处理这个角度看,“异类”与“兼类”区别不开,在各类词库中将“异类”与“兼类”合并为一个字段,即“兼类”。也可以认为第(4)至第(7)中词的“兼类”是“狭义的兼类”,而将第(8)至第(11)中词的兼类看作是“广义的兼类”。由于词的意义的辨别有时并不容易,依据语法功能进行分类比较容易操作,采用“广义兼类”可以降低句法层面上研究的难度。
至于同字不同音的两个词,如果不属于同一类,则无论如何不宜将它们看作兼类词。如读“hao3”的“好”是形容词,读“hao4”的“好”是动词。总库中有一个“同字词”字段,用于填写词典中汉字相同的词语的个数,这也为分析程序提供了必要的控制信息。
“现代汉语语法信息词典”一方面承认现代汉语词类划分中存在兼类现象,另一方面又不主张扩大兼类现象。不同类的词具有部分相同的语法功能,就不宜看作是词的兼类。动词和形容词都能受副词修饰,都能带趋向动词作补语,都能带数量宾语。如“不学习”“不灵活”“风忽然刮起来了”“灯忽然亮起来了”“睡了两小时”“安静了两天”。不能根据这些零星的语言事实就认为动词“学习”“刮”和“睡”兼属形容词或者认为形容词“灵活”“亮”和“安静”兼属动词。有少数动词,如“喜欢”“想念”“放心”“抱歉”等可以受“很”一类程度副词修饰,也不能认为它们兼属形容词。部分由两个汉字AB构成的动词有“ABAB”的重叠形式,有些形容词如“高兴、开心、痛快”也有这种变化,可以说“高兴高兴、开心开心、痛快痛快”,而且形容词ABAB重叠形式具有动词意味。尽管如此,语法信息词典不认为“高兴、开心、痛快”兼属动词,因为这也只是局部相同的语法功能。动词和形容词本来就同属更大的类即谓词,它们有一些共同的语法功能是理所当然的。词类的活用现象也不应看作是兼类。例如,“中国”是名词。但有人说了“我的长相很中国”,把“中国”活用为形容词,但不能据此将“中国”划归名词兼形容词。又如在“岁月苍白了你的头发,却坚强了你的意志”中,形容词“苍白”和“坚强”都作及物动词用。认为这里的“苍白”属于活用,不兼属动词,大概没有争议,至于“坚强”就会有不同意见。最后还要注意词的用法在发展。例如,“投入”原是动词,“投入精力”和“投入资金”都是述宾结构,但是现在有了形容词的用法:“他对事业很投入”“搞科学研究不投入是难有成就的”。还有,像名词“专业”现在也常被用作形容词,形容词“辉煌”又常被用作名词。在具体的语言工程中,对这样的个别的词的处理应该允许有一定的弹性。
对于狭义兼类现象还有一个处理策略问题。因为广义兼类词本来就是两类不同的词,是客观存在。狭义兼类词的研究对象是形同音同义同而语法功能不同的词,如何处理就有策略问题。仍以区别词和副词为例来加以说明。区别词与副词的关系可用图1来表示。
图1 区别词与副词的兼类
在图1中,左边的圆代表区别词的集合,右边的圆代表副词的集合。这两个圆不相重合部分分别用b,d表示,相重合的阴影部分用$表示。区别词与副词虽然都可以作偏正结构中的修饰成分,但它们也有区别,如区别词通常只作定语,不能作状语;反之副词一般只能作状语,不能作定语。根据这些语法特点,可以把绝大部分区别词与副词区分开来。但是,汉语中确实有一些词处于两个圆相交的部分,如“共同、定期、自动”等,这些词既具有区别词的语法功能,又具有副词的语法功能,并且看不出它们作为区别词或者作为副词,在意义上有什么差别。对于如图1所示的区别词与副词的这种关系,逻辑上有以下4种处理办法:
(1)将b、d、$各自处理成独立的类,这就要增加基本词类的数目,还要为$起个合适的名字。为了维持已经划定了的18个基本词类的稳定性,没有这样做。
(2)将阴影部分$与b合并,区别词的集合就是左边的完整的圆,区别词集合中的各个元素的语法功能就有不一致性。副词的集合只剩下d,副词集合内的各个元素间语法功能的一致性就加大了。语法词典没有这么做。
(3)与(2)是对称的,将$与d合并。副词的集合就是右边的完整的圆。区别词的集合只剩下了b。语法词典也没有这么做。
(4)b为区别词,d为副词。$为兼类词,既是区别词的子集,又是副词的子集。反映在电子词典中就是将同一个词如“共同,定期,自动”区分成两个词语,分别归入区别词与副词。这样做的好处是维持了区别词与副词各自的特性,但兼类词的数量增加了,语法现象的复杂性还是存在。语法信息词典实际上就是这么做的。
如果将b、d、$抽象为任意两个不同的词类及它们的交集,以上4种处理办法中,哪一种更为妥当则不能一概而论。对区别词与副词的交集中的“共同、定期、自动”这些词,采用了第(4)种处理办法,名词与副词也有一个很小的交集,如“重点、根本、决心”等,也如此处理。但不等于说,对其它词类也一律这么办。第(2)种或第(3)种办法在划类实践中也被采用过。处理兼类问题的总的原则应该是,当把A、B两类词分开的时候,可以允许有一部分词兼属A,B两类,但是兼类的词只能是少数。如果把A和B分为两类之后,大部分A类的词兼属B类或大部分B类的词兼属A类,那只能说明当初把A和B划分为两类词本身没有多大意义。[5]这条原则同样适合电子词典的开发,因为坚持这个原则可以保证词典的冗余度小。兼类现象以及对兼类现象可以采取不同的处理策略更进一步说明了,在承认词类是反映词的组合关系的聚合类这个客观事实的同时,也要承认词类的划分存在着相对性,主观建立的词语分类体系对于实际的语言现象只是一种近似。
4.上面提到在“岁月苍白了你的头发”中“苍白”的动词用法属于临时活用,是否将形容词带真宾语的用法一律都看成活用呢?不能这样简单处理。第2节的动词与形容词的示例中各有一个“繁荣”,表明动词与形容词之间也有兼类现象。“市场很繁荣”中的“繁荣”是形容词,而“繁荣市场”中的“繁荣”是动词。
5.第2节的动词与名词的示例中各有一个“编辑”,一个“编辑”指行为动作,是动词;另一个“编辑”指从事这项工作的人,是名词。这属于广义兼类。类似的,还有与动词“锁”相应的指动作的工具的名词“锁”,与动词“计划”相联系的指动作行为的内容或结果的名词“计划”,等等。请注意,第2节示例中有动词“调查”,并没有名词“调查”,即没有将“调查”处理成兼类。汉语中没有同动词“调查”字音都相同的起指称作用的名词,即没有广义动名兼类的“调查”,这不难得到一致意见。不过,主张将“调查、教育、研究、训练”这一类的词划为动名兼类的意见倒是经常听到的。语法信息词典也认为这些词有名词特性,但又不认为可以出现在主宾语的位置上就是名词的特性,那么动词的名词特性具体指的是什么呢?朱德熙先生提出4条意见:[6]i.可以作“有”的宾语;II.可以作准谓词性宾语;IIi.可以受名词修饰;iv.可以修饰名词。实际语料中确实有“有调查”“进行调查”“社会调查”“调查结果”的用例,因而认为“调查”有名词特性。同样“教育、研究、训练”也有这些特性。既有名词特性,按照第3节第3段提出的兼类处理策略,当然可以仿造区别词与副词的办法,也处理成动名兼类,不过,语法信息词典没有这么做,采取了第(2)种或者说第(3)种兼类处理策略。语法信息词典只在动词库中收“调查、教育、研究、训练”这些词,没有处理兼为名词(狭义兼类)。语法信息词典的价值就在于在动词库中详细描述了这些名词特性。如果依据某种规范,要求将动词中的这个“名动词”子集处理成动名兼类,那是很容易做到的。对形容词的一个子集“名形词”也采用了同样的处理策略。
动词“胜利”、形容词“刻苦”都可以单独做状语。在动词库中有一个“单作状语”字段,在形容词库中有一个“状语”字段,用于描述动词或形容词有没有作状语的功能。要求将这些具有副词特性的动词和形容词处理成兼属副词是可以的。如果要求这样做,一方面要在副词库中增加词语,另一方面应在动词库与形容词库中删去或修改有关“状语”的字段。现在并没有这么做,因为研制者认为词类划分有一定的相对性,汉语的词类本来就具有多功能,这样处理可以使词典有较少的冗余。
6.以上论述特别是关于狭义兼类问题的讨论,坚持了依据语法功能进行词语分类的观点,但在建立广义兼类概念时还是涉及了词的意义,这是因为划分词类只能在确定了词的同一性的基础上进行。[5,6]所谓同一性指的是在不同的语言环境中出现的汉字和读音皆相同的若干个词应该算同一个词还是应该算不同的词。《现代汉语词典》中作为不同条目收录的自然是不同的词语,由于同一条目还分为不同义项,依据“现代汉语语法信息词典”确立的语法功能与义项相结合的收词原则,[12]不同的义项也可能作为不同的词语收录。在前面所举的例子中,名词“花”与动词“花”是不同的条目,“制服”各有一个名词和动词,也是属于这种情况。前例中的名词“信”与动词“信”、名词“代表”与动词“代表”则属于同一条目不同义项的情况。由于词义的界限本来就较模糊,严格区分“广义兼类”还是“狭义兼类”是困难的。朱德熙先生曾以“死”为例,说明将“死”看作两个词(两个义项)分属动词和形容词,或者将“死”看作一个词(“不灵活”的义项是“失去生命”的义项的引申)兼属动词和形容词都是可以接受的。因此,语法信息词典也未作区分,在句法的层面上,这样处理也是可以满足要求的。
7.综上所述,词语归类的依据是词法功能,而又不能脱离意义,显然这项工作是极其复杂的。对一个一个的词语来说,通过查词典、查语料分辨条目,辨析义项,依据功能,一一归类,可以做到“全”,无懈可击,但如果从5万词语的全局来把握,这样做也会带来问题。正如认为电子词典收词越多越好是认识上的一个误区,[13]每个词语的义项和词性也不是收得越多越好。现在的语法信息词典不是词语、义项和词性的完备集,与词语的收录一样,词语的义项和词性的选取也要考虑其他的因素:(1)如某个义项是古汉语义或只用于文言书面语,则不收。例如,“却”作为副词是现代汉语的常用词;“却敌”和“却”,按其功能与意义,应划为动词,不收。(2)非普通话的方言不收,包括北京话的方言也不收。例如,“棒”有“强;高;好”的义项,有典型的形容词功能,也是典型的口语词,语法信息词典现在未收,不能据此批评语法信息词典收的词或词性不全;又如,“言语”是名词,但在北京方言中另有“招呼;回答;开口说话”的意思,动词用法,语法信息词典只收了名词,未收动词。(3)较偏的领域中的意义与用法也可以不考虑。表示“有名无实”的“空头”是区别词,词典收了;股票买卖中的与“多头”相对的“空头”是名词,未收。(4)有些义项几十年前还常用,现在不用或不常用,也可以不收。如读“liao4”的“料”是名词性语素,可以收;过去可用作量词:“一料木材”,不应收。现在“教练”与“教授”指人,常用,自然划为名词;查《现代汉语词典》,“教练”与“教授”都有表示动作行为的义项,其构成成分“教;练;授”都是表示动作行为的,很容易又认为它们兼属动词,然而现在几乎没有动词用法。(5)现在常将动词“料理”用作名词,将形容词“光荣”用作动词。这些用法尚未稳定下来,词典暂不收。(6)有些义项一般人不易区分,也可以不分开,如“新衣服”中的“新”是形容词,没有异议;但“新同学”中的“新”不像形容词,因为既不能说“很新的同学”或“新的同学”,也不能说“这个同学是新的”,这个“新”划归区别词似乎更恰当。这两个“新”的意义很难区分,只划为形容词也是可以的,因为形容词的功能覆盖了区别词的功能(作定语)。
五 结语
“现代汉语语法信息词典”的研制是一个动态的发展过程。现在虽然有了一个可供语言信息处理系统应用的版本,但研制工作并没有终结。历时十余年,课题组的成员必然有变化。虽然有规格说明书和填写规范作为依据,不同的人对同一个语法体系,对每一个具体的词语都会有不同的认识。即使同一个人,认识也在不断发展。比如,汉字相同读音不同的两个词形本不是一个词,不存在兼类的问题(无论广义兼类还是狭义兼类)。形容词“地道”读“di4dao5”而名词“地道”读“di4dao4’’,曾将形容词“地道”处理为兼名词,显然是不恰当的。又如,根据“巾帼英雄”等用法将“巾帼”划归区别词,后发现有“巾帼不让须眉”的用法,又将它改为名词,其实这样改未必合适。只有语法信息词典同语言信息处理系统不断进行磨合,才有可能产生适合语言信息处理系统需要的语法信息词典。
*本文研究工作得到国家自然科学基金的资助(项目号:6983003)。