《信息处理用现代汉语词汇研究》课题中期成果汇报(之一),本文主要内容关键词为:现代汉语论文,课题论文,词汇论文,成果论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息处理用现代汉语词类及标记集规范
李竹
引言
用于现代汉语信息处理系统中的汉语词类和词类标记集有很多种设计方案。经过多年的研究,人们对信息处理系统中的词类问题,已经有了一个基本统一的认识。现行的语言信息处理系统中的词类体系,从本质上说,没有实质性的差别,但在划分词类时的具体做法又不完全一致,词类标记集的大小和使用的符号也相差很多,这给语言信息处理系统的信息交换带来了困难,现在越来越需要有一套面向信息处理的、统一的现代汉语词类和标记集。国家语委语用所计算语言学研究室承担了《信息处理用现代汉语词类及标记集规范》(国家社科“九五”重大项目《信息处理用现代汉语词汇研究》的子课题,项目号97@yy001-4 )这一研究课题。我们制定的标记集规范力求满足中文信息处理的需求,覆盖信息处理用的现代汉语词汇集,使得各个汉语言信息处理系统能够用统一的词类描述方式体现各自的特性。
在课题的研究过程中,我们通过各种方式对国内有影响的词类及标记集做了调查,标注了一定量的语料,并在一定词集上做了归类试验。
一、词类及词类标记集规范的确定原则
确定信息处理用现代汉语词类及词类标记集规范,首先要在现代汉语词集上,建立一个分类体系,该分类体系要符合信息处理的特殊目的和要求。信息处理用现代汉语词类及标记集规范工作的主要原则有三个:①语法功能原则,语法功能是词类划分的本质依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。词的语法关系表现为词在句中的分布情况,它们都能充当什么样的句子成分,以及词和词、词和词组之间的组合关系。什么样的词可以组合在一起,组合起来后词与词之间或词与词组之间有一种什么样的关系?哪些词不能组合在一起?根据词的语法功能将词划分为不同的类别。②注意各种统计研究。现代汉语的某些词类,可能具有多种语法功能,但这多种功能的分布概率不同。在具体语料中,对词的句法功能和短语组合功能,进行全面深入的调查,根据词的分布特性,确定各类词的主要语法功能。③在中文信息处理界已产生了较大的影响,涉及词类标记集的相关系统,也是我们制定《信息处理用现代汉语词类及标记集规范》的重要参考。
二、术语及解释
1.词
为满足计算机处理真实文本的需要,《信息处理用现代汉语词类及标记集规范》中的词,不仅限于语言学意义上的词,一些比词小的成分,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等,和比词更大的成分,如成语、习用语、简称略语以及标点符号、非汉字符号等。这样,《信息处理用现代汉语词类及标记集规范》才有可能与信息处理的实际相结合,提供信息处理所需的信息。《信息处理用现代汉语词类及标记集规范》中的词包括以下几项:
(1)语言学家认可的词典中的词;
(2)俗语、简称略语和一些结构较为紧密的成分, 如“总而言之”“齐抓共管”“勤学苦练”“千千万万”“说三道四”“三头六臂”“本着”“贱卖”“分之”等;
(3)前后接成分;
(4)语素字、非语素字等等;
(5)标点符号及非汉字符号。
2.词类
词类是指对词按句法功能的原则划分的类。
3.基本词类
基本词类指《信息处理用现代汉语词类及标记集规范》中名词、动词、形容词等26个类。有关名词动词形容词等的描述将另写文章说明。
4.细类
细类是隶属于某个词类之下具有某些特殊性质的词的类,设立细类的目的是为了进一步描述基本词类下一些词的特殊句法功能,因此细类不同于语言学词类划分中的小类。设A,B,CD,……Z 是二十六个基本词类,X∈{A,B,C,…Z},是任一基本词类,X[,i]是任一细类,则有,
,其中i=1,…,k,k是基本词类X下细类的个数,#表示集合中元素的个数。即,每个词类集合之下的所有细类之并不大于该词类集合,不同细类集合之交可以不是空集。
5.兼类
汉语中的歧义现象极为普遍,表现在词类上的歧义就是兼类。兼类是指一个词具有两类或两类以上词的主要句法分布特征。这些词可以分为两类:(1)无论分布如何,词义没有发生根本变化, 即同形同音词在不同的分布中同义。(2)当具有不同的分布时,词义有明显的区别,即同形同音词在分布不同时词义不同。例:“国家标准”和“他的发音很标准”中的“标准”属于(1)类; 而“白跑了一趟”和“白颜色”中的“白”属于(2)类。语言学家们一般认为(1)类词是兼类词,而(2)类词当分布不同时根本就是不同的词,即同形词。在计算机语言信息处理系统中,对于(1)类词,因为它兼属不同的类, 在词典中要有它所兼的各类词的词类信息,并指出这是一个兼类词;对于(2 )类词,如果作为不同的词(同形词)收入机器词典,则在词典中给出这个词的同形词信息。如副词“本”与量词“本”,是同形词,既作为副词收入词典又作为量词收入词典,在副词“本”的记录中指出有一个同形的量词“本”,在量词“本”的记录中指出有一个同形的副词“本”,这样,对计算机而言,这个同形信息和兼类信息没有本质的区别,因此我们将(1)类词和(2)类词都看成是兼类词。当系统不具备词的语音信息时,一个同形词,如果具有两类或两类以上词的主要句法功能,这个词也是一个兼类词。
兼类与活用不同,当甲类词临时活用为乙类词时,并没有改变它原来的词类特征,只是修辞的需要。活用现象不能包含在兼类之中。
三、有关兼类问题的处理策略
当一个同形词,具有两类或两类以上词的主要句法功能时,这个词就成为一个兼类词。在考虑具体词的兼类问题时可能遇到如下的情况:
文本的领域特征影响某些词的兼类信息。
在某个特定的领域,一些词可能已经具备了另一类或几类词的主要句法特征,但在其他领域,还不具备这些特征。
本规范认为词的兼类信息与系统所面对的语言文本的领域特征是相关联的。即面对不同应用领域的汉语信息处理系统中的词的兼类信息可以不同。
四、词类标记集
词类标记集由英文字母和10个(0-9)阿拉伯数字组成。 每个标记由英文字母开头,后跟字母或数字,长度不超过4个字符。
其中:
①标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共26类。用英文字母表示。
②标记的第二、三位代码,表示信息处理用现代汉语词类的基本词类下的各级细类。用阿拉伯数字或字母表示。当用英文字母表示时,说明这个细类具有字母所代表的基本词类的属性。
③标记中其余各位代码,用以表示与现代汉语词类相关的其他信息。
下面是《信息处理用现代汉语词类及标记集规范》的词类标记集。语言信息处理系统在使用《信息处理用现代汉语词类及标记集规范》时,可根据需要按规定标记更细的词类。(1)名词(n):专有名词(n1):
姓氏(n11):专用姓氏(n111)
人名(n12)
地名(n13)
机构名(n14)
无量名词(n2):除专有名词之外,不受任何量词修饰的名词。(2)时间词(t)(3)处所词(s)(4)方位词(f):单纯方位词(f1)
合成方位词(f2)(5)数词(m):基数词(m1):系数词(m11)
位数词(m12)
序数词(m2):序列词(m21)
概数词(m3)
分数词(m4)
数量数词(m5)(6)量词(q):名量词(q1):
个体量词(q11)
集体量词(q12)
度量词(q13):复合量词(q131)
种类量词(q14)
成形量词(q15)
倍率量词(q16)
不定量词(q17)
动量词(q2):时量词(q21)(7)区别词(b)(8)代词(r)(9)动词(v):助动词(v1)
趋向动词(v2)
系动词(v3)
不及物动词(v4)
及物动词(v5):体宾动词(v51)
小句宾动词(v52)
双宾动词(v53)
兼语动词(v54)
形式动词(v55)(10)形容词(a)(11)状态词(z)(12)副词(d):关联副词(d1)
可修饰名词性成分的副词(d2)(13)介词(p):(14)连词(c):用于连接词、词组或分句, 以表达它们之间相互关系的词。
并立连词(c1)
从属连词(c2)(15)助词(u):结构助词(u1)
动态助词(u2)(16)语气词(y)(17)拟声词(o)(18)叹词(e)(19)前接成分(h):名前接成分(hn)
数前接成分(hm)(20)后接成分(k):名后接成分(kn)
动后接成分(km)(21)语素字(g):名语素(gn)
动语素(gn)
形语素(ga)(22)非语素字(x)(23)俗语(i):俗语是汉语中的固定用法,包括成语、惯用语、 谚语、格言等。它们在汉语中语义内容丰富,稳定性强。
名俗语(in)
动俗语(iv)
形俗语(ia)
句子(i0)(24)关联词语(1 ):关联词语是句段间起关联作用并且习惯上常在一起搭配使用的词组。如“总而言之”“由此可见”“一方面”“一则”“二则”等。(25)简称略语(J)(26)其他(w):标点符号(w1)
公式符号(w2)
其他非汉字串(w3)
汉语词类兼类研究
胡明扬
分类不解决,兼类无从谈起,所以我们这一阶段仍然在对某些过去没有仔细考察过的词类大类进行考察,如助词、拟声词等,同时集中力量考察形容词和动词的再分类问题。难点很多,统计和复核工作一时还没有做完,只是发现了不少问题,提出来向大家请教。
一、形容词的再分类
形容词的再分类同样需要花一点工夫去做细致的考察。现在对形容同的再分类的意见尽管有不少共同点,但是也还有一些分歧意见,这恐怕只能通过具体问题的具体分析来解决,因为原则性分歧并不多。有一个小类意见基本一致,不管叫非谓形容词也好,叫区别词也好。吕叔湘、饶长溶给非谓形容词列出7 项句法特征(《汉语语法论文集》增订本,商务,1984年,349页),朱德熙给区别词下的定义跟吕叔湘、 饶长溶给非谓形容词下的定义差不多(《语法讲义》,商务,1982年,52—53页),别人似乎也没有什么不同的意见。至于非谓形容词或区别词算不算形容词的一个小类,还是跟形容词并立的一个大类,那就要看怎么给形容词下定义,如果形容词的定义是“主要是用作谓语的一类词”,那么非谓形容词应该独立。不过那样的话,形容词就应该归并到动词中去作为动词的一个小类,赵元任就是那么处理的。当然,还要看怎么处理大类小类问题,如果把第一层次的小类提升为大类,原来的小类也就跟大类平起平坐了。这些似乎不是太重要的原则问题,可以各行其是。朱德熙把余下的形容词分为两类,一类是性质形容词,一类是状态形容词。状态形容词不受程度副词修饰,不加“的”大都能做非独立句的谓语,加“的”能做定语和谓语,还有部分非谓形容词兼副词,状态形容词内部比较单纯,只包括两小类,一类是派生形容词,如“黑乎乎、酸勒吧卿、小小儿的、干干净净(的)”等等,大都是:“形容词十词缀”,另一类是复合形容词,如“雪白、漆黑”等等,不过按朱德熙的意见其中还包括,“挺好的、很小的、怪可怜的”等等。这最后一小类有争议,多数人是作为句法结构来处理的,因为觉得是“程度副词+形容词+结构助词”的短语,不是“词”。
典型的性质形容词就句法功能而言似乎应该都能受程度副词修饰,都能做定语和谓语,但是实际情况不完全如此。现在所谓的“性质形容词”内部很复杂:就能受程度副词修饰而言,一部分现在归在性质形容词里面的词不能受程度副词修饰,如“岸然、料峭、芬芳、博大”等等;就做定语而言,有的可以直接做定语,也可以加“的”做定语,有的不加“的”不能做定语,必须加“的”才能做定语,有的加了“的”还不能做定语,还需要在前面加程度副词才能做定语;有的干脆在任何情况下都不能做定语,加什么都不行,只能做谓语。如果形容词必须既能做定语又能做谓语,那么这部分不能做定语的形容词的地位跟非谓形容词或区别词的地位差不多,也就是能不能算形容词都成了问题。还有一部分性质形容词在语义上根本不表示属性而表示时间、数量、范围、方式等等,在句法功能上同时可以做状语,放在“性质形容词”里面好像也不合适。这样看来,现在所谓的“性质形容词”是个大杂烩,需要分为几个小类,也许可以分为:
(一)性质形容词:既能做定语,又能做谓语,又能受程度副词修饰,在语义上表示性质,如“好、坏、新鲜、陈旧”等等。
(二)情状形容词:既能做定语,又能做谓语,又能做状语,又能受程度副词修饰,在语义上不表示性质而表示时间、方式、范围、情状等,如“早、快、全、粗暴”等等;
(三)唯谓形容词:只能做谓语,在任何条件下不能做定语,如“岸然、磷峋”等等,这些多数是文言形容词;还有一些必须前加“程度副词”后加“的”才能用作定语,如“多、少、冲、大方、背静”等等;还有一些必须加“的”才能用作定语,如“焦、贵、安分、美丽”等等;还有一些似乎只能做补语,如“透”等。这部分很复杂,我们还来不及仔细考察。现在大都不分加“的”不加“的”,混在一起,都算性质形容词。
根据“动词是用作谓语的一类词”的定义,“唯谓形容词”都该算,“动词”!可是我们在语感上又通不过。这是因为我们有一个朦朦胧胧的“形容词”的语感,因为觉得这些词表示某种性质,同时起“形容”作用,所以就先认定是形容词,可是认真一分析又不合形容词的定义,倒合乎动词的定义,可是在语感上觉得又不像动词。这一类词还需要琢磨琢磨。
还有“绯红、白胖、岸然、博大”等等似乎跟“碧绿、雪白”差不多,按理应该归复合形容词(状+形)或状态形容词,但是可以说“漫山遍野雪白雪白的”,可是不能说“他的学问博大博大的”,至少“岸然”等归不进去。这一类词的身份现在还不十分明确,需要专门考察。
最近我们有人对3000多个形容词进行了初步考察,其中“皑皑、滔滔、脉脉”等等几十个“词”算什么?这些绝大多数是文言,可是“热气腾腾”的“腾腾”明明是现代汉语。这一类词有点像。“状态形容词”,可是有的不加“的”能直接做定语,如“皑皑白雪”,“滔滔江河”等(这里很可能用的是文言语法),这又跟“状态形容词”不同。这部分大都是文言(没一一检查)。有的不能直接修饰名词,加“的”也不行,如“*堂堂(的)相貌”“?腾腾(的)热气”。 这部分中一小部分是现代口语中还说的,但是也没有一一考察过。
关于性质形容词有两个理论问题要探讨和研究:一个问题是加“的”不加“的”要不要严格区分,吕叔湘指出过“把大的树和大树等同起来,好像有没有一个的字没有什么关系,这就小看了这个的字了。的字虽小,它的作用可不小。……有的和没有的是很不相同的两种结构。”(《汉语语法分析问题》商务,1979年,24页)从理论上来说,完全正确,大多数人对别的词类也是这么区分的,可是我们上次在《词类问题考察》中给形容词开了特例,加“的”才能做定语的也算“能做定语”。朱德熙在这种场合似乎也不区分形容词加“的”不加“的”,可是我们心里一直不踏实,这个问题还需要认真对待,再考察,再考虑。另一个问题是形容词的定义问题,如果形容词是既能做定语又能做谓语的一类词,那么非谓形容词和唯谓形容词就根本不能成立,可是大概是受我们的语感影响,觉得这些词,“像”形容词,有的还很容易向典型的形容词转化,先认定这些词都是形容词,然后再给它们分小类,所以都叫什么形容词; 当然我们也可能受了英语语法区分predicativeadjectives和non-predicative adjectives的影响。如果单单是一个名称问题倒好解决,反正到了计算机里面全成了代码,平时也可以不去计较。可是在理论上反正不周全,是个缺点。怎么办还需要认真考虑。
最麻烦的还是形容词做定语和在独立句中做谓语时加“的”不加“的”需要不需要严格区分的问题。要严格区分,就会带来一系列重大变动。不严格区分,理论上又说不过去。怎么办?
区分不区分加“的”不加“的”,牵涉到的问题很多。先说做定语的问题。如果严格区分加“的”不加“的”,那么
(一)在所谓“性质形容词”范围内的“唯谓形容词”要大量增加,在1500个左右的性质形容词中不能直接做定语的比例有可能从目前的70个(张宝林,《词类问题考察》208—214页)增加到200个左右,如果把“状态形容词”加上,就更多了,因为状态形容词几乎都不能直接用作定语。
(二)“加‘的’做定语”和“前加程度副词后加‘的’才能做定语”需要不需要区分?加“很”说明谓语性极强,似乎跟只需要加“的”不太一样。但是如果要区分,归到哪一类里去?朱德熙把一些“程度副词+形容词”归到“状态形容词”里去,恐怕也是感觉到了这种区别。但是,“程度副词+形容词”毕竟是短语,不是词。能不能把只能出现在这种结构中才能做定语的形容词单算一类?可是在定义上又会跟动词的定义重叠。
(三)加“的”不加“的”都可以做定语的性质形容词,加“的”和不加“的”有什么不同?是不是“描写”和“限制”的差别?如果是,在作出语义解释的时候,是不是加“的”的部分要算一个命题?这又牵涉到“的”的作用,究竟是“体词化”还是“取消谓语性”?还有,至少,“美丽”必须加“的”,而“漂亮”可以不加“的”,感觉不出来有什么不同。这些都是问题。
(四)不区分加“的”不加“的”对“理解”没有问题,但是对“生成”明显有问题。怎么办?
再来看做谓语的时候加“的”不加“的”的问题。
(一)“状态形容词”做谓语要加“的”,这个“的”是结构助词还是语气助词?加“的”才能做谓语,那么“状态形容词”算是能做谓语,还是算不能做谓语,其实,汉语的名词、形容词、动词,除了在泛指、否定、疑问、假设情况下和在非独立句中,一般要做谓语,都得加点什么才行,不加点什么就得加语气助词。所以我们倾向于认为“状态形容词”能直接做谓语。行不行?
(二)非谓形容词大都(没一一检查过)要前加“是”后加“的”才可以做谓语,但是在非独立句中至少一部分非谓形容词或区别词加“的”可以做谓语,如“这种手机新型的,贵;那种手机旧式的,便宜”。这里“是”后面的“的”可以认为不是语气助词,可以算后面省略了一个根据上下文或语境能理解的名词。这样的话,如果要一以贯之,这些非谓形容词是不是也要分出小类来?
二、动词的再分类
动词是再分类难点中的难点。我们初步摸了摸两个问题。
(一)及物动词和不及物动词问题
及物动词是能带宾语的动词,不及物动词是不能带宾语的动词,这是一种定义。另一种定义带宾语的动词是及物动词,不带宾语的动词是不及物动词。这两种定义只有一字之差,前一种定义多了一个“能”字,后一种定义少了一个“能”字。似乎差别不大,事实上差别很大。说“能带宾语”事实上是从基本句式出发的,是从配价的角度出发的,并且承认有些场合宾语可以省略。说“带宾语”是从具体句于来考虑的,是从纯描写的角度出发的,并且原则上不承认有省略,因此同一个动词带宾语的时候是及物动词,不带宾语的时候是不及物动词,这样区分及物不及物就有困雄,并且事实上也没有太大的必要。因此,我们考虑及物不及物的时候采用前一种定义。但是,还有困难。“门开了”究竟是有人开了门,还是风把门吹开了,还是门自己开了?“杯子砸了”的情况差不多。国外不少人作为及物不及物两可来处理,很多词典就注上v.t.&i.。现在国外有人给加了一个ergative的标签,不过这算不了什么实质性的贡献。这里牵涉到语感问题,“门开了”似乎就是“门开了”,似乎没有省略什么,跟“吃了”不一样,单说“吃了”会让人联想到吃了什么,否则会追问“吃了什么?”可是语感是一个见仁见智,很难拿来做分类标准。
同一个动词不同义项有及物不及物之分,同一个动词的同一个义项也可以是及物的,也可以是不及物的,标注都是v.t.&I,没有区别。不必区分?怎么区分?
(二)关于“谓宾动词”问题
现在的“谓宾动词”是根据是否可以出现在“动+动(宾)”这种格式中来确定的,但是有一部分这类“谓宾动词”实际上是一句省略或隐含了主语的小句,如谓语动词“希望、想、赞成”等等。美国李英哲他们指出过(《实用汉语参考语法》,北京语言学院出版社,1990年,148页以下)。生成语法在语义解释的时候也是作为小句来处理的。 这里又牵涉到承认不承认有省略的问题。有的谓宾动词不是小句的省略,可是又牵涉到名物化或“名动词”的问题。这些都需要仔细研究。
(三)使令动词
使令动词跟兼语式有直接关系,如果能分出使令动词一类,凡是使令动词后面就一定是兼语式,这有利于自动分析。
我们摸了摸这方面的问题,初步分出十类使令动词:
1.使令类:使、使得、促使,让、叫等;
2.命令类:命令、责成、支使、叫等;
3.派遣类:派遣、派、安排、雇等;
4.请托类:请、报请、聘、求等;
5.强迫类:强迫、逼、操纵等;
6.鼓动类:鼓动、说服、劝、挑动等;
7.带领类:带领、领导、指挥、带、领等;
8.指导类:教、教导、辅导、训练等;
9.帮助类:帮助、陪同、营救、救济等;
10.选举类:选举、调动,提拔、挑选等;
11.称呼类:称、封、叫、任命等。
这部分我们只是个别人摸了一下,还没有讨论研究,看来也挺复杂。首先是哪些动词后面必定是兼语式,哪些动词后面可以是兼语式,也可以不是兼语式要分清,可是要分清也不容易。
三、名词直接修饰名词的情况
吕叔湘和朱德熙都很强调性质形容词做定语和状语时的粘着性,因此认为形容词做定语是不自由的,相反,名词做定语是自由的。这里面牵涉到两个问题,一是单音节名词、形容词、动词处在定语和状语位置上似乎都有粘着倾向,不单是形容词的特点;二是在很多场合是“短语”是“词”分不清楚,而举的例子有的是“词”,不是短语。
为此,我们考察了名词直接修饰名词的情况,对3000多个名词进行了考察,大概有15%左右的名词不能直接修饰名词,如:哀思、把戏、才能、大势、厄运、格局、浩劫,疾苦、空子、毛病、难关、偶像、癖好、期限、热忱、伤势、天性、完人、喜事、雅兴、杂念等等。因为认为,“员额”中的“员”和“脖后”中的“脖”都算是“能直接修饰名词”,也就是没有区分“词”和“短语”,所以大量单音节的名词都算是“能”直接修饰名词的了。如果区分词和短语,那么不能直接修饰名词的名词数量还要增加。这就是说名词也不能自由修饰另外一个名词,而只能说大部分名词可以修饰名词。这部分工作也没做完。
四、计算机处理基数词和序数词的问题
在信息处理用的词类体系中要不要区分“基数词”和“序数词”,如果要分,怎么分。如果序数词都带“第”,那就好办。可是实际上不是这样。计算机无法区分“三分队”“城八区”究竟是“第三分队”还是“三个分队”,是“城内第八区”还是“城内八个区”,因此即使分出“基数词”和“序数词”也没有意义。人是根据上下文和语境来判断基数和序数的,我们有人已经初步制定了这方面的判别规则。
我们希望先把计算机处理自然语言的词类定下来,否则兼类问题无从下手。但是我们不能等待,所以这一阶段还是在考察词类问题,不过主要是再分类问题和一些词类大类的遗留问题。我们设想,最好第一步先解决“信息处理用词类分类体系”和“信息处理用通用词表”问题,第二步解决。“逐词标注词性的信息处理用通用词表”,第三步解决兼类标注和语法属性词典问题。词类、兼类、语法属性都跟语法体系有直接联系,比较复杂。从目前情况看来,除语法属性词典以外,其他各部分有可能求同存异取得一致意见,而语法属性描写大概只能力求配合,但是也不一定非跟其他部分完全一致不可,因为描写越细致,大概从总体上来看意见就越会接近,特别是关于词类大类和第一个层次的小类的意见会基本一致,至于术语名称问题则不是实质性的,不妨各行其是。
“现代汉语词的语法属性描述研究”的目标与进展
俞士汶 朱学锋
引言
作为国家社科基金语言学科“九五”重大课题“信息处理用现代汉语词汇研究”的一个子课题,“词的语法属性描述研究”既要继承和扩展北大计算语言学研究所的一项基础研究“现代汉语语法信息词典”的成果,又要有所创新和突破,将词的语法属性描述研究提到一个新高度。这项研究的基础性和重要性是不言而喻的。不过,社科基金的支持力度毕竟有限,要使研究工作达到一定的规模,体现计算语言学的特色,同时赶上语言信息处理技术发展的需要,这项基础研究课题又必须同具体的语言工程相结合。本文介绍两年来北大计算语言学研究所沿着这个方向努力所取得的进展,同时也描述本子课题期望达到的目标。
一、《现代汉语语法信息词典》的发展
《现代汉语语法信息词典》是本子课题的重要基础。北京大学计算语言学研究所和北大中文系合作,积10年之努力,于1995年底完成了“七五”“八五”国家科技攻关项目“现代汉语语法信息词典”的研制任务。这部电子词典的规格说明书在《中文信息学报》1996年第2 期上发表,更详细地介绍这部词典的专著《现代汉语语法信息词典详解》[1] 于1998年出版,它在汉语信息处理领域的影响已经显现出来[ 2] 。 从1997年7月至1999年7月,北大计算语言所又完成了词典的扩充。这既是一项语言工程的成果, 又完全适应本子课题研究工作的需要(以下称1997年以前的版本为原版,称1999年7月以后的为扩充版)。
2.1词典规模的扩大
同原版相比较,扩充版实际增加了22000多条词语, 同时更加明确了选词标准。1997年版收录的51000 多条词语对中文真实文本已有很高的覆盖率,再增选2万多词语并不是一件轻而易举的事。 为了避免将大量的自由短语也作为词包揽进来,北大计算语言所遵循了以下原则:若干汉字的组合是一个词,而其中的字有不是词的,则将该组合可作为一个词语收进扩充版;两个以上的单纯词可以组合成一个较大的单位,如果该单位作为一个词,它的词性不能由组合结构推导出来,这个词也可收进扩充版;如果复合词的意义不是组成成分意义的简单叠加,这个复合词也可收进扩充版。
为了给未定义词自动识别和合成词构造规律研究提供更多的知识,扩充版收入了国标GB2312中的全部汉字,除作为词收入各个词类数据库的以外,其他的汉字均收入语素库。现在,语素库共有7142个记录。原词典规格说明书关于语素的专有语法属性只有1项,即语素的子类。在扩充版中大幅度增加了语素的属性字段,现在语素库共有14个属性字段,其中9个是专有的[3]。
其他词类的语法属性也有增加和调整。名词、方位词、动词、形容词、副词各增加了一个属性字段。将名词的子类也作了调整,由原来 7个增为8个, 即增加了“过程名词”(只能与动量词或时量词搭配的名词)。
2.2语法属性描述的质量保证
质量是词典的生命。研制者把不断提高词典的质量作为长期的任务。利用出版《现代汉语语法信息词典详解》的机会,作者对作为样例的1 万词语的全部语法属性极其认真地又审查了一遍,其最终成果已吸收到扩充版中。 对于新增加的22000多条词语的归类及各项语法属性的描述,课题组除继续坚持研制原词典时采取的各项质量保证措施外,还按照出书的标准增加了释义和实例。
扩充版还实现了7万词语兼类的自封闭:若某类词库X中有词W 且兼类字段填了“YZ”,则在Y词库与Z词库中,也一定有W, 且兼类字段的信息一定是ZX与XY。
二、《现代汉语语法信息词典》精品版的规划
适应研究生做博士、硕士论文及某些基础研究的需要,本子课题有一个制作《现代汉语语法信息词典》精品版的规划,其目标是选择2 万到3万常用的词,筛选一些最重要的语法属性, 并保证属性描述的高准确度。
1999年初,清华大学孙茂松副教授将《现代汉语词典》、北大的《现代汉语语法信息词典》(原版)和李行健先生正在编纂的《现代汉语规范词典》的词条进行了比对,得到三者共同的词条约3万条。 北大计算语言所子课题组还从香港城市大学得到一个8万词的词表, 又从台湾中研院得到另一个也有8万词的词表,并将大陆共同的3万词条同香港、台湾的词表进行了比对。得到一个两岸三地的通用词表(约19000多词)。这个事实证实了在1997年夏季课题论证会议上语言学专家所作的全球各地华人的共同词汇约两三万条的估计是正确的。这就为词的精选提供了可靠的根据。本子课题组还对《现代汉语语法信息词典》原有规格说明书中的语法属性字段进行了筛选,形成了《现代汉语语法信息词典(98精品版)的规格说明书》(草案)。另一个子课题“现代汉语词类标记集规范”已经出了第3稿。 该规范的“细类”完全能影射到《现代汉语语法信息词典》的相应属性。这就为从另一个侧面为挑选重要的语法属性提供了参考意见。另外,关于语法属性的选择也兼顾了词的概率语法属性研究的需要。
三、概率语法属性描述研究
尽管在词的语法属性研究方面已经取得了一些成果,但需要认识到,现在语法信息词典中的语法属性字段的值多数为“可否型”或“是非型”,在此基础上建立语法规则,仍然难免“说一不二”或“非此即彼”,缺乏柔性。本子课题将以《现代汉语语法信息词典》(精品版)为基础,以大规模真实语料的统计数据为依据,用概率值描述词的语法属性,这将是一项全新的研究工作[4]。
比如,在动词属性字段中,有一个字段描述动词能否受“很”一类程度副词修饰。像“属于、进行”等动词不能受“很”修饰,可规定其值为“否”;像“爱、想念、重视”这些动词能受“很”修饰,取值为“很”;不过,该字段取值为“很”并不等于说该动词在实际文本中一定受“很”修饰。这种类型的字段在语法信息词典中占的比例最大。
如果将这种“可否型”属性看作随机变量,用随机变量的概率值刻画该属性,则既可以客观反映语言的模糊性,又可以避免个人语感因素的干扰。仍以动词“很”字段为例。设某动词在语料库中共出现m次,其中实际受“很”修饰的有n次, 则定义该动词受“很”修饰的概率值为
p=n/m,将动词“很”字段的值的类型由数据库中的字符型(或逻辑型)改为数值型(只有小数位),并将此字段填以“p”, 则完成了对动词是否受“很”修饰这个属性的描述方式的改造。设某动词的“很”字段的概率值为0.05,则认为该动词受“很”修饰的机会是0.05;显然,这样的描述更为科学,更为客观。在此基础上还可建立概率语法模型。
适应某些应用的实际需要,又可以在概率属性值的基础上重新建立“可否型”的描述方式。设一阈值δ。若p≥δ,则定为“可”;若p〈δ,则可考虑定为“否”。
四、结 语
总的来说,本子课题从1998年开题到现在已完成了相当一部分工作,并为完成本子课题的目标乃至更远的研究作了一些必要的准备。
“信息处理用现代汉语词汇研究”课题负责人为本子课题创造了优良的研究环境,并不断给予鼓励。本子课题表示衷心的感谢。本子课题也感谢所有协作单位的和北大计算语言所的同仁为本项研究所作出的直接的或间接的贡献。
现代汉语名词槽关系系统研究初步进展
陈群秀
一、概述
面向机器处理的语义学研究,国内外起步时间均不长。20世纪60—70年代开始,语义学在世界上成为语言学界讨论和研究的热点,各种语义学流派如雨后春笋涌现出来,学说纷呈,提出了一些处理语义问题的模式、理论和方法,但还远没有一个公认的、照顾周全的体系,至于汉语语义系统和汉语语义学模式的建立更是一片未开恳好的科学园地。因此动词、形容词的论旨网格的建立和名词为中心的槽关系系统的建立以及句子情态的研究,不仅理论上具有极大的意义,而且将对我国的中文信息处理有很大的实用意义。国外形成的一些语义理论和流派,均是以英语等西方语言为基础的,都是建立在“以动词为中心”的前提下。由于汉语不仅是以动词为中心也是以名词为中心的(许多汉语句子可以不包括动词,这是汉语重要特点之一),所以仅研究动词句不研究名词句难以满足汉语机器理解的要求。另外,光研究动词、形容词中论旨角色的语义组合关系也不够,还要研究动词框架中的名词为中心的槽关系即论旨角色内部的语义组合关系。由于汉语缺乏屈折变化,是语义型语言,句法分析对句子的贡献比英语要小,因此语义分析对汉语机器理解尤为重要。
根据框架语义学,格关系、槽关系和情态是句义的三大语言知识工程。论旨网络描写的是论旨角色间(或与动词间)的语义关系,即事件的各种角色间的语义关系(格关系,框架的语义关系)。在此基础上,再来研究论旨角色内部的语义关系是很有必要的,即研究动词框架的槽关系。槽关系是事件内的偏词和正词之间的语义关系,即研究以名词为中心的词组的定语与中心词之间的关系。所以取名槽关系是因为采用人工智能中框架知识表示中的术语“框架”“槽”。现代汉语的槽关系是现代汉语语义系统的一个重要组成。研究名词为中心的槽关系,其重点是研究名词。印欧语着眼于谓语动词和时间,汉语着眼于名物和空间,因此名词的研究在汉语研究中具有特别重要的意义。格关系和槽关系共同组成语义知识,可作为中文信息处理和语言学研究的重要知识源而共享。
清华大学、中国人民大学和北京语言文化大学三个单位的计算机界和语言学界工作者联合承担国家社科“九五”重大项目《信息处理用现代汉语词汇研究》的子课题“现代汉语述语动词机器词典的扩充和槽关系研究”,其中一个主要研究目标是研究以现代汉语名词为中心的槽关系,建立一个槽关系系统。另一个目标是扩充述语动词机器词典的描述义项。
二、初步进展
联合研究小组全体成员在1999年头9个月中努力工作,认真研究,克服各种困难,坚持正确的研究方向和新型的研究路线、研究方法:语料库方法+联想,即把基于大规模语料的计算词典学编辑方法与基于语言工作者的语感和经验的传统词典学编辑方法相结合,以使述语动词的论旨网格描述和以名词为中心的槽关系研究真正建立在丰富和客观的语言事实基础上。联合研究小组发挥每个人的积极性,群策群力,在拟定和修改并定稿的“《现代汉语名词槽关系系统》工作单填写规范(第一版)”的基础上,进行了填写工作单的试填和培训工作,多次召开小组全体成员的会议,讨论解决试填工作单中出现的问题,统一思想统一认识,然后开始全面填写工作单。至9月为止,1999 年度已完成如下几项工作:
1.已基本完成名词槽关系系统的管理系统的软件设计工作;
该管理系统的软件不仅考虑了大量词单的录入、修改、删除、查询、浏览、打印等功能,而且还为以后实现名词槽关系信息的统计和推断作了准备,以便将来能根据现已描述的名词槽关系推断出同一语义类名词的槽关系信息的规律(例如槽序、槽关系表达式)。
2.已完成1000个名词的词组实例抽取工作和人工分析、工作单填写;
3.已完成500个动词义项的句例抽取工作、 人工分析和工作单填写;
4.已完成现代汉语语义分类词典的将近4 万词的语义分类填放工作;
5.撰写了一篇有关论文“现代汉语名词槽关系系统初步研究”(陈群秀),出了一本专著《词汇语义和计算语言学》(林杏光)(中间有部分内容是与本项目有关的)。
三、现代汉语名词槽关系初步研究
联合研究小组对名词槽关系的描写以语义关系描述为主(槽类型、槽序)句法描述为辅(语类),设计了两层共70个槽类型,每个槽类型表示名词词组中某个定语与中心词的语义修饰关系。这70个槽类型大致分为属性、状态、关系三大块。
下面是部分槽类型的定义和例子(工作单填写规范中的部分内容):
(3)领属:系指领有、所属的关系;通常用人称代词、疑问代词、名词或名词词组来充当。
例如:我的一生,谁的山地车,中国民航,孩子们的节日,老师的职责,国家的主权,海水的深度
(4)来源:系指来源、出处:
例如:农村来的孩子,商务印书馆出的《现代汉语词典》,进口彩电,姥姥为我买的花裙子,来自首都科技战线的近百位科技工作者,每年都要接收抢救来自北京市区、郊区及周边的地区的数十例重度中毒患者,与李素梅配合的是来自山东的新秀、23岁的程晓燕
(5)去向:系指去向、目标:
例如:到日本去的中国留学生,走向罪恶深渊的他,出口产品
(6)数量属性:区别数量的多少、规模的大小、篇幅的长短等;通常由数量词、表示规模的形容词或词组来充当。
例如:一个人,两台计算机,五尺布,6斤米,七里路,长达8万字的学术论文,大量农村人口流入城市,大批上山下乡知青返城,大规模集成电路,三分之二的员工,75%的人员,超过三分之二的经理年龄在35岁以下,到1998年6月“箭”导弹已进行了几次不成功的实验
(7)顺序属性:区别序次;由表示序次的“第、 初”等与数词与或数量词组合或单独由表示序次的词例如“首先、最后”来充当。
例如:第七天,第三位,本世纪最后也是最大的一次亚洲体育盛会,首先进入体育场地的是中国运动员,开始了本届亚运全第一枚金牌的争夺战,迎着朝阳的第一线光辉,第一道天险,中国共产党第十一届三中会体会议,中国第三次国内革命战争
下面是语类和槽类型表示槽关系的例子(“愿望”这个抽象名词的工作单中部分信息):
愿望语义分类:{感觉心境} 释义:希望将来能达到某种目的的想法。
词组实例1 :没有实现的中国人民以各种途径各种方式表达的承办两千年奥运会的美好的强烈愿望
定语1 没有实现(的)语类:{VP}
槽类型:[抽象物状态]
定语2 中国人民以各种途径各种方式表达(的)语类:{S} 槽类型:[来源]
定语3 承办两千年奥运会(的) 语类:{VP} 槽类型:[内容结构情节属性]
定语4 美好(的) 语类:{A}槽类型:[抽象物评价]
定语5 强烈语类:{A}槽类型:[抽象物评价]
槽类型顺序:[抽象物状态][来源][内容结构情节属性][抽象物评价][抽象物评价]
可能顺序:[抽象物状态]* [来源][内容结构情节属性][抽象物评价]*
词组实例2 :中国与南亚各国人民的共同的进一步发展经贸合作关系的这一迫切愿望
定语1 中国与南亚各国人民(的)语类:{NP}槽类型:[领属]
定语2 共同(的) 语类:{A}槽类型:[抽象物评价]
定语3 进一步发展经贸合作关系(的)
语类:{VP} 槽类型:[内容结构情节属性]
定语4 这一语类:{DL}槽类型:[指量属性]
定语5 迫切语类:{A}槽类型:[抽象物评价]
槽类型顺序:[领属][抽象物状态][内容结构情节属性][指量属性][抽象物评价]
可能顺序:[领属][抽象物状态]*[内容结构情节属性]*[指量属性][抽象物评价]*
词级例3:傅老昨天在会上转达的深受欢迎的……积极愿望定语1 傅老昨天在会上转达(的)语类:{S}槽类型:[来源]
.
.
.槽关系表达式联想:[来源][领属][[指量属性]ㄧ[数量属性]][内容结构情节属性]*[抽象物评价]
本项目既是理论研究又是工程性描写,技术难度大,工作量也大。联合研究小组有决心克服技术难度大、工作量大、经费少的困难,明年再奋斗一年,期望能为中文信息处理和语言学研究提供一个初步能用的具有常用动词论旨网格(词法、句法、语义信息)和部分名词的槽关系信息的机器词典,并期望能得到国家进一步的经费支持,以发展为一个包括常用动词、次常用动词的论旨网格、常用形容词的论旨网格、常用名词槽关系信息描述以及句子情态信息的能提供词义句义的现代汉语语义知识库。