超大规模语料库精加工技术研究,本文主要内容关键词为:语料库论文,技术研究论文,加工论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.引言
在自然语言处理领域,高质量有标语料的作用越来越重要。它不仅作为语言模型的训练语料,也充当评价各类语言模型和实用工具的测试数据,同时,这些语料也是理论语言学工作者从中挖掘语言学规律的重要资源。然而,手工校对语料的代价非常昂贵,普通研究单位难以承受。一方面语料库对于语言信息处理和语言研究具有如此重要的作用,并且人们对语料库规模和质量的要求日益提高;另一方面语料库加工的高投入又使人望而却步。如何利用现有的语言资源,借助当今计算机领域,特别是机器学习领域的相关技术,利用尽可能少的手工标注和校对,生产出与手工校对语料质量相当的语料,无疑是计算语言学以及语料库语言学领域极有价值的重要研究课题。
当前,语料库加工表现出质量要求高、规模海量化的特点。随着统计语言模型的繁荣,人们对作为模型训练和测试数据的语料库的质量要求也不断提高。语料中任何一点点微小的质量问题,都会对语言模型的训练和测试精度产生很大影响(Sun,et al.2005)。自然语言处理的经验告诉我们,经过大规模语料训练的模型,性能要远远高于同质量小规模语料训练的模型。因为随着语料库的增大,各种语言成分的分布更加稳定,数据稀疏问题也得到适度缓解;包含在语料库中标注错误的绝对数量虽然也会增多,但是错误类型的分布会随之多样化,因而对模型训练的影响会逐渐变小。互联网的飞速发展为文本语料的收集提供了极大的便利,这也促进了超大规模语料库的建设。
正因为高质量、大规模的语料库在自然语言处理中有极其重要的作用,国家重点基础研究发展计划“973”课题“文本内容理解的数据基础”把“超大规模语料库加工”作为其中的一项子任务,旨在探索超大规模语料加工新技术,以现有的手工标注语料作为样例语料,将《现代汉语语法信息词典》(俞士汶等2003)作为重要语言资源,借助当今机器学习的方法,在自动加工的基础上辅以尽可能少的必要的手工校对,最终达到与手工校对语料质量相当的标注水平。这里冠以“超大规模”,是与现有的《人民日报》1998年半年语料的规模相比较而言的。超大规模语料库要比《人民日报》1998年半年语料高1-2个数量级。作为首期目标,我们选定对2001-2004四年的《人民日报》进行处理,今后还将不断扩大语料加工的规模。
2.国内外研究现状
与计算语言学和语料库语言学的主流研究课题相比,语料校对的研究相对薄弱,相关内容的文献较少,并且主要集中在对样例语料的纠错处理上。它们把整个校对的过程分为错误检测和自动修改两部分(Dickinson 2005)。Abney(1999)等人利用boosting的方法研究语料中的错误检测,方法是给每个训练实例计算出一个权重,那些难以分类的实例得到的权重很大。由于标注者标错的例子一般是难以分类的,据此把那些权重大的例子检测出来作为错误例子的候选。
一些研究者把错误检测当作异常检测(anomaly detection)的问题(Eskin 2000)。他们假设语料是由两种分布构成的混合模型,一种是主要分布(majority distribution),另一种是异常分布(anomalous distribution)。主要分布是某种结构分布,而异常分布往往是随机分布。错误元素是由随机分布生成的。对于语料中的每一个元素,分别计算出它在混合模型中主要分布和异常分布这两种情况下的似然值,如果后者的似然值足够大,便被检测为错误。
Nakagawa(2002)利用支持向量机进行错误检测,他所持的观点是,那些违反了语料一致性的例外元素极有可能是错误的元素。
Dickinson和Meurers(2003)则使用变体n元组(variation n-gram)来检测语料中的词性错误。他定义:一个单词如果在语料中的出现超过一次,并标注以不同的词性标记,则该词被称作变体。语料中的变体是由两种原因造成的:一种是歧义,即一个词本来就有多个词性,并且这些词性均出现在语料中;另一种是错误,即把本该标注成A词性的,错标为B词性。他们把检测错误的焦点放在词语的变体上,通过在语料中搜索变体n元组来完成上述任务。变体n元组是指,语料中由连续n个词语构成的n元组中,至少包含一个词语为变体。最直观的想法就是,一个变体所在的两个上下文越相似,则该变体就越可能是错误标注,并且n越大,变体包含错误标注的可能性就越大。
相对于错误检测,关于错误的修改研究得不多。Dickinson(2006)通过利用所谓复杂歧义标记(complex ambiguity tag)来细化兼类词语的标注,例如,英文ago含有歧义类IN/RB,利用普通的标注以及利用复杂歧义标记的标注分别为:
ago/RB
ago/
通过复杂歧义标记的标注,不仅表明当前该词性是RB,而且告诉我们当前词语是一个由IN和RB构成的兼类词,目前被标注成RB。这样,将来重新训练时,不仅可以学到RB与上下文相关的词性转移概率,而且学到由IN和RB构成的兼类词目前标注为RB时,与上下文相关的词性转移概率。然后重新训练标注器,并对检测出来的错误标注词语进行校正,提高了标注的精度。
我国开展语料校对研究相对较晚,主要集中在处理切分不一致的问题上。杜永萍和郑家恒(2001)、苗玺和郑家恒(2006)等在对语料库中切分不一致现象的考察和分类的基础上,通过总结规则来提高语料质量。Sun等人(2005)利用搜索语料中的切分变体来排查语料中的潜在错误,然后经过手工校对,标出是切分不一致还是切分错误。文中只进行了组合型切分歧义或不一致的处理,交集型的问题尚未涉及。
本文旨在通过对现有粗标语料的标注中存在的问题进行分析,总结出需要校对的主要内容,对语料校对的方法进行探讨,并通过实验验证这些方法的有效性。
3.粗标语料的考察
语料的精加工,总是在某个粗标语料的基础上进行的。所谓粗标语料,指的是利用现有词法分析软件,对原始语料进行标注后,未经后续校对处理的语料。为了对超大规模语料进行精加工,需要对现有软件标注的语料质量进行分析,以便发现问题,加以修正。最好的方法是将现有的样例语料复原为原始语料并重新标注,通过比对来发现标注软件的问题。
以前,语料标注软件的开发往往是通过建立新的语言模型或新的系统。经过近30年的探索,目前我国中文词语切分和词性标注的技术已基本成熟。在这种情况下,再想通过改进语言模型来提高系统性能往往收效不大,经常是新模型在某些方面有所提高,而在另外一些方面却有所下降。本研究希望通过对现有词语切分与词性标注系统输出的结果进行分析,找出其中存在的问题并加以解决,进一步提高标注水平,使其达到高质量、实用化的目标。随着中文自然语言处理开放平台①的付诸使用,我们可以充分消化吸收国内外高水平标注系统的精华,以期在高起点上进行研究,避免低水平重复劳动。这也是建立中文自然语言处理平台的初衷(刘群等2002)。
为此,我们选用中科院计算所免费发布的词语标注软件ICTCLAS,以北京大学、《人民日报》社和富士通公司合作研发的《人民日报》1998年上半年词语切分和词性标注语料②为样例语料,利用ICTCLAS系统对1998年上半年的原始语料进行重新标注,并利用标注结果与样例语料进行对比分析,找出该系统存在的问题,统计分析其主要错误的实例和频度,提出解决这些问题的方案,进一步提高标注水平。同时也附带发现了样例语料本身的标注错误或不一致,一共订正了5万多处,提高了样例语料本身的质量③。
北京大学计算语言研究所、《人民日报》社和富士通公司合作研发的《人民日报》1998年上半年带词性标注的语料库,约有728万词语。由于该语料经过语言工作者的严格校对,尽管本项研究订正了5万多处错误或不一致,但就约728万词语的规模而言,其总体质量仍堪称上乘(具体标注体系见俞士汶等2002)。该语料的发布,对于我国语料库语言学、计算语言学的普及和发展起到了极大的推动作用。
中科院计算技术研究所张华平、刘群研制的ICTCLAS中文词语分析一体化软件是我国目前最先进的词语切分与词性标注软件之一。在2003年SIGHAN分词测评中,该系统参加了几乎所有的测试,均创佳绩,多项测试成绩排名第一(刘群等2004)。该系统为开源软件,已经将完备的文档和源代码发布到中文自然语言处理开放平台上,可免费使用。
为了实现样例语料与计算所标注结果的比对分析,采取如下步骤:
1.从北京大学标注的样例语料中抽取原始文本,去除所带的切分及词性标记。
2.利用计算所免费版ICTCLAS中文词语分析一体化软件对原始文本进行重新标注。其中操作选项为二级标注;输出格式选项为北大标注集。
3.设计程序,对样例语料与计算所标注结果进行比对,找出二者的“最小异同串”,并以文件方式输出,以备分析。
所谓“最小异同串”是指上述两个标注语料比对时,在切分和词性标注上存在差异的、可以分割开来的最小文字串。例如:
但/c 前进/v 的/u 道路/n 不/d 会/v 也/d 不/d 可能/v 一帆风顺/i,/w
但/c 前进/v 的/u 道路/n 不/d 会/d 也/d 不/d 可能/v 一/m帆/n 风/n 顺/v,/w
两个句子中,“会/v”与“会/d”,“一帆风顺/i”与“一/m 帆/n 风/n 顺/v”各为一个最小异同串。前例为词性异同,后例为切分异同(当然,也同时包含词性异同)。
我们将比对结果列于表1:
表1 比对结果表
与词性相关与切分相关交集型
组合型两个组合型多个
词型 24010 730964873 55907
12316
词次 529822
1840056787157306
19912
与nr相关 与ns相关与nt相关 与nz相关
词型 11633 6112 350 3608
词次 22228 85302300 6652
其中,“与词性相关”是指与样例语料比较,切分结果一致,但词性标注不同的情况;“与切分相关”是指在最小异同串中有切分不一致的情况。这里,与切分相关又分为:“交集型”,指在最小异同串中存在交集型切分差异;“组合型两个”,指在最小异同串中,只存在将两个词语合成一个词语或者一个词语分成两个词语的情况;“组合型多个”,指在最小异同串中,除了“组合型两个”之外的所有组合型切分异同,即一个词语分成三个或三个以上的词语,或者三个或三个以上的词语合成一个词语。
此外,我们还统计了与专有名词相关的异同情况:“与nr相关”,指在最小异同串中至少有一处与nr相关,即至少有一处标记为nr;“与ns相关”,指在最小异同串中至少有一处与ns相关,即至少有一处标记为ns;“与nt相关”,指在最小异同串中至少有一处与nt相关,即至少有一处标记为nt;“与nz相关”,指在最小异同串中至少有一处与nz相关,即至少有一处标记为nz。
这里是将“与切分相关”中的“与nr相关、与ns相关、与nt相关、与nz相关”以及“交集型、组合型两个、组合型多个”分别统计,所以各类之间存在重叠。
通过对切分与词性标注软件性能的分析,我们对ICTCLAS系统存在的问题有了定量的认识,发现了一些对所有类别都存在的具有共性的问题以及一些只在某类或某几类存在的情况。可以在下面几个方面加以改进,从而提高语料的标注水平:
第一,训练语料质量的进一步提高
ICTCLAS中文词语一体化系统基于对训练语料的统计学习来确定系统参数,而其学习效果的好坏直接取决于训练语料质量的优劣。虽然《人民日报》标注质量在汉语语料中居先进水平,但其中仍然存在许多不一致的情况。例如1998年1月份《人民日报》样例语料中有:
“就是/V” 出现21次
“就是/d” 出现102次
“就/d是/v” 出现505次
“就是/c” 出现11次。
这直接反映在粗标语料中存在如下的最小异同串(前为北大标注,后为ICTCLAS标注):
就/d是/v——就是/v(230次)
就是/d ——就/d 是/v (42次)
就是/c ——就/d 是/v (5次)
就是/v ——就/d是/v(4次)
我们知道,“就/d是/v”与“就是/v”虽然切分形式不同,但具有相同的句法功能,应当标注一致。所以,产生这些情况的部分原因是由训练语料质量问题而引起的。我们的目标是利用样例语料训练消歧模型,因此有必要对样例语料进行进一步的校对,提高其质量。
第二,建立新的标注体系
在语料的分析过程中我们发现,大量与切分相关的异同是由于切分单位掌握的尺度不同而引起的。例如:
不/d能/v——不能/v|这次/r——这/r 次/q
这些情况,分别对应于不同的标注体系,都具有合理性,都是可以接受的。而且对于不同的应用领域,往往也需要有不同的标注体系。假如对于语言学、词汇学等本体研究,词的定义应该严格一些;而对于机器翻译、信息检索等应用研究,词的定义放松一些也无大碍。
可以建立一个词表,用于表示既可以分开成词,也可以合并成一个切分单位的字串。上面的例子,可以写成:“不/能”、“这/次”,表示该词语既可以单独成词,也可以分开成词,这样就可以满足不同用户对切分颗粒度的不同需求。
此外还有一些情况,如“歌舞剧院”是切分成“歌舞剧/院”还是“歌舞/剧院”,目前仍有争论。假如能增加一级,写成“歌舞(剧)院、共青(团)员、外交(部)长”,其中括号内的语素表示既可以左归并,也可以右归并,同时也可以合并成一个切分单位来处理。这样就能更好地遵循词组本位思想,将词一级的争论搁置起来,使中文自然语言处理在广泛认同的基础上进行。目前,我们正在开展多词界词语的收集工作,可望对切分规范进行有益的补充。
第三,建立细颗粒度的知识库和更为专用的消歧处理模块
基于经验主义的语言学方法本质上是以统计学为基础的,利用统一的语言学模型来刻画纷繁复杂的语言现象。语言学原理告诉我们,任何语言现象都有规律可循,任何规律都有例外存在,而这些例外现象往往又揭示出其他的更为深刻的规律。这就提示我们,可以利用统计学模型去刻画普遍的规则,对于那些无法用统计学模型统一刻画的语言现象,需要寻求在特定范围内更适合的语言规律。可以借助语言工作者的语言学知识,去弥补那些无法用统计模型刻画的语言学规律。这些知识反过来又可以应用到统计语言模型中。统计语言模型一般包括两个部分,一个是规则部分,一个是随机部分。可以说,规则越准确,模型就越精确,对随机现象的预测也就越准确(李航2003)。
基于以上思路,我们在语料校对的过程中,对不同类别的标注问题,分别建立各自的消歧模块,这样可以根据不同问题的特点,更有针对性地加以解决。同时,还要根据标注语料内容的特点,建立更为全面细致的知识体系。例如,在姓名识别的过程中,我们往往依靠某种统计或规则的单一方法去处理,实际上,如果我们建立起国内外历届政府官员姓名库,建立起历史名人姓名库,建立起大规模人名用字统计知识库,这些资源将对姓名的识别非常有用,特别是对新闻语料中姓名的准确识别起到关键作用。同样的方法,也可以用在其他专名的识别中。目前,我们已经建立起中国人名库、外国人名库、外国地名库等资源,并对人名识别、地名识别、新词识别、切分歧义、兼类词消解分别进行处理。
限于篇幅,本文只介绍利用文本标注形态的差异对粗标语料进行处理,以及我们提出的一个根据歧义字串的上下文进行消歧的通用歧义消解方法。
4.语料精加工的方法
通过对以往语料库的校对,总结出以下几种行之有效的语料校对方法。首先将这些方法应用到《人民日报》1998年上半年样例语料的精加工中,排查出大量的标注错误,改进了样例语料的质量。与此同时,抽取出大量的语料校对规则,这些规则可以直接应用于后续的超大规模粗标语料的精加工。
4.1 词表校对法
作为承载语言学知识特别是词汇学知识的载体,现有的语言学词典无疑最为丰富。《现代汉语语法信息词典》作为中文信息处理专用词典,依据语法功能优势分布建立了一个面向信息处理的词类体系,完成了8万词语的归类,在此基础上,进而采用关系数据库文件格式按类描述每个词语详细的语法属性(俞士汶2007;俞士汶等2003)。目前的切分和词性标注软件几乎都按照该体系实现。所以,该词典可以作为样例词汇库用于语料校对。
我们首先对样例语料进行校对。具体的方法是,从现有样例语料中抽取词表,利用《现代汉语语法信息词典》与之比对,以确定语料中存在的问题。对于语料中出现的、未列于词表中或者与其词性不同的词语,根据语料进行排查,进而修改语料或者改进词典。例如,我们在样例语料中抽取词表,发现词语“现”有以下9种形式:
现/vn;现/b;现/d;现/t;现/Tg;现/Ng;现/v;现/Vg;现/nr。
《现代汉语语法信息词典》中有如下4个词条:
现/d;现/Ng;现/Tg;现/v。
此时,需要运用语言学知识对余下的5个词条进行排查:
现/t;现/vn;现/b;现/Vg;现/nr。
以确定是标注错误,还是《现代汉语语法信息词典》没有收录。若是标注错误,则要在语料库中加以修改;若是《现代汉语语法信息词典》没有收录,并且在语料中经常出现,则建议《现代汉语语法信息词典》增加条目。经过校对处理后,最终确定样例语料中词条有:
现/d;现/Ng;现/Tg;现/v;现/nr。
利用该方法,就可以有效地定位并排查出语料中可能存在的问题或错误。对超大规模语料的精加工,只需将从超大规模语料中抽取的词表与从样例语料抽取的词表进行比对,凡未在样例语料中出现的词性,一律定为错误并加以修改。这样就保证了超大规模语料库中不再出现“不合法”的词性标记。
4.2 基于简单词性组合特性的方法
利用一些简单的词性组合规律,统计相应的词语序列,考察该词语序列是否还有其他词性组合形式,如果有,则极有可能是错误。例如,“nr+nr”组合与“m+q+n”组合序列。“nr+nr”组合往往是一个中文姓名,虽然中文姓名也有成词或有意义的,如“白/a雪/n”、“高明/a”、“汪洋/n”等,但数量极少。大部分的姓名在真实文本中具有特异性,即不再构成词语序列。如果一个姓名序列在语料中同时又以另外一种序列形式出现,则有可能是错误。我们对样例语料进行统计,得到一些例子及对应出现的频度如表2(见下页):可以从中很容易校对出“白/hr 景山/ns”、“曹/nr 玉林/ns”、“车/n晓蕙/nr”、“白/nr 云/Vg”等错误。将该方法应用于超大规模语料的校对,也取得很好的效果。
4.3 基于多元组比对的方法
一个词语串,在语料中可能会有多种标注形式。利用多元组的比对,就可以很容易找到语料中的错误,保持语料的一致性。例如,我们对样例语料中相同词语串的不同标注形式进行比对,得到一些例子及对应出现的频度如下:
第一线/n 160第一/m线/q15
第一/m线/n4
以上是一元组和二元组的不同;
更有甚者/l19更/d 有/v 甚/Dg 者/r1
更有甚者/j 1更/d 有/v 甚者/n 1
更有甚者/c 1更/d 有/v 者/r
5
以上是一元组、三元组及四元组的不同;
百鸟朝凤/l 1百/m 鸟/n 朝/p 凤/Ng
1
百/m 鸟/n 朝/V 凤/Ng 2
以上是一元组和四元组的不同;
何乐而不为/l8何/r 乐/Ng 而/c 不/d 为/v2
何/r 乐/a 而/c 不/d 为/v 4
以上是一元组和五元组的不同。
表2 例子频度表
对其中一个词性标记为1(惯用语)或者i(成语)并且长度不小于4的汉字序列,我们首先将其他多元组全部改为l或者i的形式,如果这个词语没有其他的词性,修改完成;如果还有其他词性,则只需要在这几个词性间进行人工干预即可。
对应前面的几个例子,“何乐而不为”序列全部修改为“何乐而不为/l”;“百鸟朝凤”序列全部修改为“百鸟朝风/l”。对于“更有甚者”序列,首先,计算机自动把“更/d 有/v 甚/Dg 者/r、“更/d 有/v 甚者/n”和“更/d 有/v 甚者/r”全部修改为“更有甚者/l”,然后再由语言工作者从“更有甚者/l”、“更有甚者/j”和“更有甚者/c”中选择一个,一旦确定,就把语料中其余的标注全部修改过来。
长度4字以上的词语往往具有稳定性,一般不会出现歧义。而长度小于4的情况反而比较复杂。例如“第一线”这个序列,考察发现“第一/m 线/q”和“第一/m线/n”在语料中与“第一线/n”具有相同的意义,可以确定统一改为“第一线/n”。
我们也对一个词语序列在相同多元组内部的不同形式进行分析,从中找出错误并加以修改,例如:
对/p 基里延科/nr 的/u 总理/n 提名/v 2 德/n、/w 智/Ng、/w 体/Ng 8
对/a 基里延科/nr 的/u 总理/n 提名/vn 1 德/j、/w智/j、/w 体/ j 2
从中可以对存在差异的地方进行修改,同时也可以建立相应的修改规则,供后续精加工使用。这里,多元组的词语数越大,意味着所包含的上下文越多,校对处理的效果越佳。
4.4 基于RFR_SUM模型的方法
RFR_SUM模型是我们提出的旨在消除词语级各类歧义的模型,这些歧义依据上下文语境差异可以相互区分。该方法可用来消除词语切分中存在的组合型歧义、交集型歧义以及兼类词的歧义等。我们将该模型应用于样例语料中,不仅可以从这些语料中自动找出存疑的句子供手工校对,同时也训练出相应的消歧模型参数,再直接用于超大规模语料的自动校对。
RFR_SUM模型是基于上下文词语搭配的消歧模型。我们利用相对词频比(relative frequency ratio of words in context,RFR)作为词语搭配强度的度量,以各类训练语料中上下文词语的RFR_SUM(也作SUM of RFR,即相对词频比之和,SUM指求和)的大小作为消歧的依据。对于语料中的切分歧义以及兼类词语,在语料中可能存在标注错误。我们利用RFR_SUM模型,从语料中自动找出存疑句子供手工校对,这样就可以大大减少语料校对的时间。下面以组合型切分歧义消解为例,介绍利用该模型进行消歧的过程。
步骤1.对样例语料进行词频统计,形成全局词频表。对于词语word,其全局词频表示为GloFrq(word)。
步骤2.从样例语料中选定含某个组合型歧义最小异同字串的句子构成训练样本集,按照语料中的标注形式,构成“从分样本集(CF)”和“从合样本集(CH)”。
步骤3.对从分样本集(CF)和从合样本集(CH)分别统计歧义字段前语境和后语境(也叫左右窗口)中出现的词语的频度,形成4个局部窗口词频表:从分左窗口词频表、从分右窗口词频表、从合左窗口词频表和从合右窗口词频表。对于上下文中的词语word,其局部词频表示为(word),这里,X=CF,CH,Y=left,right。
步骤4.对四个局部窗口词频表中的每个词,求其相对词频比RFR,形成局部窗口相对词频比表。由此构成4个相对词频比表:从分左窗口相对词频比表、从分右窗口相对词频比表、从合左窗口相对词频比表和从合右窗口相对词频比表。对于上下文窗口中的词语word,其RFR值分别表示成:(word),(word),(word)and (word)。这里,
有了上述4个RFR表后,歧义消解工作非常简单:把上下文中的词语在从分与从合情况下的RFR值分别各自相加,进行简单决策就可消歧。例如句子:
(1)原文:他曾担任外交学会荣誉会长。
结果:他/曾/担任/外交/学会/荣誉/会长/。/
(2)原文:引导学生学会用艺术的眼光欣赏作品。
结果:引导/学生/学/会/用/艺术/的/眼光/欣赏/作品/。/
例(1-2)切分结果中的“学会/”与“学/会/”是最小异同串,对于这个组合型切分歧义,机器根据什么判定这样切分就是正确的呢?在最小异同串左右设定窗口均为2个词语,统计其局部词频、全局词频、RFR值以及句子的RFR_SUM值。见表3和表4:
表3 例1中RFR_SUM的求值
表4 例2中RFR_SUM的求值
从表3-4中可以看出,在例(1)中,“学会/”的RFR_SUM值远大于“学/会/”的,在例(2)中,“学/会/”的RFR_SUM值也远大于“学会/”的,显然,RFR_SUM值可以用于消除歧义。Qu等人(2007)介绍,RFR_SUM模型虽然在开放测试中的精度比目前常用的朴素贝叶斯(naive Bayes)模型和最大熵(maximum entropy)模型都要高,但在封闭测试中的精度比朴素贝叶斯模型和最大熵模型都要低。这里可以解释为,该模型训练过程中的过拟合现象比其余两个模型要轻,一些隐藏在训练数据中的错分类数据,对RFR_SUM模型的影响相对较小。当我们利用这些语料训练出来的模型,对它们重新进行分类时,则有可能把那些隐藏在训练语料中的错误句子分离出来。例如,我们对《人民日报》1998年上半年样例语料中的“比/v”和“比/p”进行上述过程。其中,“比/v”在语料中出现333次,“比/p”出现2839次。我们通过RFR_SUM模型训练后,重新对这两类训练语料进行分类,则从“比/v”中分到另类的有45句,从“比/p”中分到另类的有10句。经人工校对,从“比/v”中分到另类的45句中,有33句原来是分错的,“比/p”中分到另类的10句中,有2个原来是分错的。这样,我们只需要校对55句,就可以找出35句错误。考虑到校对的语料是质量相当高的样例语料,因此,取得这样的效果是令人满意的。如果说手工校对是大海捞针的话,那么利用该方法就可以比喻为瓮中捉鳖。并且该过程可以重复进行,不断修改语料,提高语料库的质量。
利用RFR_SUM模型,针对样例语料中的400多个常见歧义字段进行了校对,并同时使用多元组比对的方法和简单词性组合的方法,共修改了5万余处标注错误或者切分不一致,提高了语料的质量。利用经过校对的样例语料,再对这400多个歧义字段重新训练出RFR_SUM模型的参数,并将这些分类器应用到超大规模语料库的精加工中,取得了良好的消歧效果。相关情况将另文介绍。
5.结语
语料加工的特点之一就是多遍性,因为这项工作不像一般的自然语言处理任务那样需要很强的时效性,因而可以在相对较长的时间内,在合理的人力和资金的投入下,利用各种办法、采取不同手段,对语料进行多遍的处理,循序渐进、逐步求精,以便在语料规模不断增加的情况下也能达到语料标注的高精度。
语料的校对方法是和语料标注的内容、标注体系以及加工的深度密切相关的。我们总结的方法,特别是RFR_SUM模型的效果,已经在中文词语切分、词性标注和词义标注等词语级语料的校对中得到验证。将上述方法扩展到句法树库、词语依存关系标注等句子级语料的加工校对工作中,将是今后的研究方向。
注释:
①网址:http://www.nlp.org.cn。(点击日:2009年2月4日)
②该语料可以在《人民日报》社购买,其中1月份的语料可以免费在http://icl.pku.edu.cn下载。(点击日:2009年2月4日)
③由于北大计算语言研究所也在不断改进其语料库的质量,因此不能据此断定改进后的样例语料的质量已经超过该所的当前版本。