基于词库和词法的分词不一致性研究_自然语言处理论文

基于词库与词法的分词不一致研究,本文主要内容关键词为:词法论文,分词论文,词库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

自上个世纪80年代以来,汉语自动分词技术经历了从分词规范到“规范+词表”,再到带标注语料库的长足发展。目前,带标注语料库常常用来作为各种分词系统训练和测试的材料,也同时作为测评各系统的标准,因而被称为“金本位”[1]。虽然带标注语料库的出现弥补了规范和词表的很多不足,可现阶段带标注语料库的标注质量还很不理想,严重影响着分词系统的结果和后续的工作。分词的一致性一直是衡量带标注语料库质量的一个重要标准,由于不同的人对词有不同的认识,很多经过人工校对的语料还存在着大量的分词不一致问题。

一、分词不一致

(一)分词一致性的定义

分词的一致性可以分为一致性1和一致性2。一致性1:在保持语义同一性的前提下,一个结构体在语料库中的分合是否始终一致(例如:“猪肉”是否始终保持一个整体,或者始终分开);一致性2:与某个结构体具有相同结构类型的其他一切结构体在语料库中的分合是否与该结构体始终一致[2]。我们将分词的一致性概括为:“在相同语境下,同一字串以及与该字串具有相同结构类型的所有字串在语料库中的切分应该始终一致。”反之,就是分词不一致。

(二)相同结构的分词不一致

我们通过考察1998年1月的《人民日报》标注语料就发现了1034个分词不一致词例,共出现分词不一致14254次。可见,即使经过多次的人工校对,分词不一致现象在语料中仍广泛存在。不仅如此,除了单个字段易与本身产生分词不一致,语料中还有可能出现如例句一样的情况

(1)我/r喜欢/v吃/v猪肉/n,/w爸爸/n爱/v吃/v牛/n肉/n。/w

(2)猪肉/n价格/n猛涨/v,/w而/c牛/n肉/n价格/n开始/v回落/v。/w

(3)兔/n肉/n很/d有/v营养/n。/w

(4)我/r没/d吃过/v猫肉/n。/w

简单的四句话里面有“猪肉”“牛肉”“兔肉”和“猫肉”,每个字段在语料中前后都是一致的,利用传统的相同字段在语料前后切分一致性检测是无法发现其中的分词不一致现象的。因为“猪肉”“牛肉”在语料中始终保持了一致性,而“兔肉”和“猫肉”只出现了一次。但是,从整个结构类型的高度来看,这同属一个结构(动物名+“肉”)的几个字段切分形式却不同,严重影响了语料的质量。同一结构的不同字段由于语言使用频率、语言习惯等的原因,稳定性上是有差异的,但是我们认为即使这些词存在着诸多差异,也不能因此而否定了其内部结构和语义指向上存在的一致性。分词不一致的统一不仅是每个字段的统一,更要处理好相同结构类型的不同字段的切分统一问题。

二、分词不一致产生的根源——心理词库的差异

一个大型分词语料库的建设是一项语言工程,分词的校对工作需要多个校对者同时进行。因此分词的不一致不仅体现在不同校对者对相同字段的不同处理,同一校对者在不同时间对相同字段的不同认识,还体现在人们对于相同结构的不同字段理解不同,而后者往往更容易被人忽略。有学者将人工造成的分词不一致归结为校对者的校对错误,我们认为校对的误差是可以通过二校等方式改正和避免的,而由于人对词的不同理解造成的分词不一致不是校对错误,并且用目前的手段也无法避免。算法缺陷、资源限制、规范的不合理、校对人员的差异共同造成了语料中大量存在分词不一致现象。其中,规范的不合理影响了人对分词单位的判断,人对词的概念的模糊使得“规范”的某些规定模棱两可,缺乏可操作性。究其根源还是人的心理词库的差异。

(一)词库与词法

语言使用者的词汇能力包括词库和词法两个部分:词库(lexicon)是语言中具有特异性(idiosyncrasy)的词汇单位的总体,存储在语言使用者的头脑中,所以又称心理词库。词库中的项目都是语言中意义不可预测(unpredictable)的成分,具有不规则性,表现出形式与意义之间的任意性的或非常规的联系,所以需要以清单方式一个一个地存储,需要时就可以直接从这个清单中提取。词法(molphology)是关于一个语言中可以接受或可能出现的复杂的词的内部结构的知识,或者说是生成语言中可能的词的规则,是一套规则系统[3]。

根据这样的定义,如“巧克力”“三心二意”这样充分词汇化的词是需要我们记忆的,因而存储在我们的心理词库当中;如“玻璃杯”“文化界”这样的词我们可以提取存储在心理词库中的“玻璃”“杯”“文化”“界”,用一定的规则将这些词合成为新的词汇。这些规则就是词法,而构成的新的词我们称为词法词,存储在人的心理词库中的词我们称为词库词。

在这里我们要明确进入词库的主体成分是词,还包括大于词的习语和小于词的词缀。因此存储于词库中的成分不一定都是词,相反不在词库中存储的成分并不等于就不是词,只是不需要以清单的方式存储。为了表述方便,我们采用词库词和词法词来代替存储于词库的和由词法构成的成分,这与传统的词的概念有很大差异。

不同人的心理词库是有差异的,有些词可能存在于某些人的心理词库中,而对于其他人来说可能就没有,或者可能是由词法在线生成。

(二)心理词库的差异产生了分词不一致

词库词是具有特异性的词汇,人们对词库词的使用是“整存整取”的,也就是说词库词作为一个整体的词汇化程度是很高的,它如果切开就不具备原来的意义;而词法词本身就是依靠词库词在构词规则的基础上在线生成的,没有凝固化,因而词汇化程度不高,切开来使用意义变化不大,所以就出现了我们所说的“分词单位”大小的问题。由于每个人的心理词库的大小和内容存在差异,所以不同的人对于同一个字段会采取不同的切分形式,而采用何种切分形式主要源于该字段是否存在于此人的心理词库中,是否是一个“词”。同时由于词库和词法本身的联系紧密,我们会将同一类型的不同词分属于词库和词法,属于词库的从合,是词法词的可能就会从分。因而我们的带标注语料经过人工校对后还会有很多分词不一致的现象,包括词汇个体在语料前后的分词不一致和由相同构词规则构成(相同结构)的词法词的分词不一致。

通过词库和词法理论我们找到了人为造成分词不一致(包括个体的分词不一致性和相同结构的分词不一致)的语言学根源,同时我们也可以利用这一理论寻找根本上解决分词不一致的方法。我们知道词库词是高度词汇化的,出现分词不一致的主要是归属不清楚的词,因此我们可以得出如下认识:(1)公认的词库词几乎存在于所有人的心理词库中,是不可能出现分词不一致的,如“人民”“教师”等。(2)非公认的词库词,如果不是由规则在线生成,不属于词法词,因为心理词库的差异而造成的分词不一致是个体的不一致,如一些成语、习用语等。(3)词法词因为词汇化程度不高,易出现分词不一致。由于词法词是由规则在线生成的,同一规则产生出的词易与该规则产生的其他词出现分词的不一致。同样,我们也可以提取这些生成词法词的构词规则来解决相同结构类型的分词不一致问题。

三、利用构词模式解决相同结构的分词不一致

词法词产生了大量相同结构的分词不一致,因此掌握词法词的构词模式是我们解决问题的主要途径。我们可以利用词法词的构词模式来建立规则,从而解决由这些规则产生的所有分词不一致字段。对于这些字段是应该采取切分形式还是合并成一个分词单位,我们只是提供这个结构的平均从合度(注:从合度是指一个切分不一致实例从合的词频与该实例出现的总词频之比。即:从合度=以合的形式出现的次数/分、合形式出现的总次数。假如“绿叶”这个词在语料库中一共出现了10次,其中有8次标注成“绿叶/n”,而标注成“绿/a叶/n”有2次,则“绿叶”这个分词不一致字串在该语料库中的从合度是80%。平均从合度=该类型所有从合的结构/该类型的所有结构。),让使用者根据不同的需要自己来决定。如果语料用于文本校对,可以选择合并成一个分词单位,如果用于检索,从查准率考虑可以选择分词单位从大,从查全率考虑,可以选择切开,这样分词单位小些。这样做,语料不仅可以保证整个结构类型的一致性,还能满足后期的不同需求。

(一)资源建设

1.规则库

尽可能多地从实际语料中提取能产性强的构词规则,以真实的语料为主,词典中收录的具有相同构词规则的词条大多已经词汇化,即更倾向于词库词。对于已经词汇化的词,我们将之放入固定词表。对于相同的构词规则,我们将之合并,建立一个规则库,存储所有能产规则,如“v+完”“v+好”“v+到”等。

2.组合型歧义库和固定词表

组合型歧义字段在语料当中的切分也是不一致的,建立组合型歧义库可以提高规则的准确率。利用规则虽然可以极大地收集相同规则产生的词语,但是也有可能会产生偏差和一部分解决不了的情况,建立固定词表的目的是要解决一部分规则不能覆盖到的或者已经严重词汇化的词语。将规则不能覆盖到的和已经词汇化的词语纳入固定词表,可以减少系统误差。

3.特殊单字词表

我们在学习语料的时候发现,有些单字词是不可能出现在一些构词规则中的,主要是一些常用的单字动词,如“是”“能”“没”等。比如,语料中很可能会出现“是/v有/v”“能/v进/v去/v”这样的字串,如果不把这些常用单字词去掉,会出现一些误差,将“是/v有/v”“能/v进/v”当成是分词不一致字段。因此要建立特殊单字词表,减少系统误差。

(二)个案研究

因为大规模的构词模式是不可能在短时间内收集穷尽的,我们选取了三个比较有代表性的个案进行实验和研究,目的是想证明该系统的有效性。

1.大+V(单音节动词)

在一些单音节动词前,可以加上副词性语素“大”,表示“程度深或规模大”。虽然“大”的使用是受限的,即不可以修饰所有的单音节动词,但是在真实的语料中,可以出现在“大”之后的单音节动词大多是符合规则的,因此可以归纳为“大+V单”。

2.动补结构

我们可以以其中的一个类型为一个规则库,也可将所有的类型统一成一个规则库(有可能产生规则描述过粗的问题)。本文采用后一种方法,建立一个所有动补结构的规则库。我们从《人民日报》语料中抽取了2500个不同的动补结构字段,并总结出165个动补结构的构词规则。

3.颜色词(单字)+物体名(单字)

定中结构的模式很多,涉及的语义也纷繁复杂,但是基本的解决办法和动补结构是一致的,而选取“颜色词+物体名”作为个案来研究主要是因为它没有明确的词根,要计算机分辨什么是“颜色词”,什么是“物体名”还是有一定难度的。方法是在规则库里添加颜色词,对物体名只做词性限制,必须是“n”“an”或“ng”。

我们设计程序分别对这几种构词模式进行相同结构分词不一致的识别,获得如表1的结果(见下页)。

(三)错误分析

1.分词错误,由于语料中的分词错误,导致识别的误差,下面几个例句的划线部分就是分词的错误。

(5)由于/c晚会/n越来越/d多/a,/w以至/c无/v新/a招数/n可/v出/v,/w便/d在/p艺术/n外/f大/d下功夫/v,/w求/v大/a求/v奇/Ag。/w

(6)曹/nr太太/n给/p他/r两/m丸/q“/w三/m【黄/a宝/n】蜡/n”/c,/w他/r也/d没/d吃/v。/w

2.词性标注,有些动名词可能会标成n、v或vn,为了保证一个较高的准确率,我们不可能将标成n的动名词收录进来。

表1 相同结构分词不一致识别结果汇总

注②:这里的召回率指系统正确抽取的结构和文本中应有结构之比;精确率是系统正确抽取的结构与系统抽取结构总数之比,与传统意义上的精确率和召回率有所差异。

(7)据/p统计/v,/w近/a 5/m年/q来/f,/w由于/p混乱/a的/u“/w挖/v砂/n大战/n”/w引发/v的/u事故/n达/v19/m起/q。/w

3.规则无法排除,符合规则条件但不属于构词模式产生的词。下面的几个例句的划线字段符合规则但却不是“颜色词+物体名”和动补结构。我们将常用的规则无法排除的词存入了固定词表中,但是不可能穷尽,特别是出现在陌生语料中的一些字段。

(8)他/r脸上/s的/u泥/n,/w身上/s的/u汗/n,/w大概/d也/d够/v个/q“/w煤/n【黑子/n】”/c的/u谱儿/n了/y。/w

(9)他/r还/d能/v无/v因/p【白/a故/n】的/u把/p谁/r的/u××/n咬/v下来/v?/w

(10)中国/ns【愿意/v在/p】住房/n、/w教育/vn、/w交通/n和/c通讯/n等/u方面/n同/p南非/ns合作/v,/w中国/ns在/p南非/ns投资/v合作/v前景/n可观/a。/w

四、用户统一相同结构的分词不一致

我们的系统不仅能够识别出相同结构的分词不一致字段,并且能够按照用户的要求将它们统一处理。下面的几张图就是用不同方法处理后的结果(语料节选自《骆驼祥子》片段):

如图4.1,“【】”内显示的就是语料中所有“颜色词+物体名”结构,如“【黑/a裤/ng】”“【黄沙/n】”等等,但是这些结构的切分是不一致的。如果需要将这些结构统一切开,用户可以选择“处理”项中的从分处理,这样所有结构都会统一成切分的状态,结果如图4.2中“( )”显示。反之,如图4.3显示的是处理成一个分词单位的情况。

图4.1 相同结构类型的识别(“【】”相同结构字段)

图4.2 切分处理(“()”内为切分后的结果)

图4.3 合并处理(“()”内为合并后的结果)

五、不足与后续工作

本研究的意义在于将本体的词库和词法的概念引入,不仅合理地阐释了分词不一致产生的根源,并从词法的半自由语素和构词模式中提取计算机可以识别的构词规则,为统一相同结构类型的分词不一致字段提供了一个可行的技术路线。但是在如何构建规则和处理所有类型的分词不一致问题上还有很多值得研究之处:一是本文只是针对三个个案进行了研究,其目的是为了证明利用词库和词法知识构造构词规则可以从相同结构类型的角度统一分词不一致。分词不一致还有很多构词规则需要在今后的工作中提取,以及每个规则的覆盖程度还要我们继续研究,尽量提高规则的覆盖面。二是由于测试的语料比较小,我们的组合型歧义库、固定词表、特殊单字词表的建设规模还很有限。下一步的工作就是在大规模的语料里进行考察,寻找规则外的特殊情况,健全各种词库,增强系统的普适性。三是进一步优化系统,使系统可以同时处理所有类型的分词不一致。

标签:;  ;  ;  

基于词库和词法的分词不一致性研究_自然语言处理论文
下载Doc文档

猜你喜欢