从信息处理角度看汉语同音词_单音节论文

从信息处理角度看汉语同音词,本文主要内容关键词为:同音词论文,汉语论文,角度看论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 引言

每一种自然语言都有同音词。从根本上说,同音词反映了语音的有限性和词语的无限性之间的矛盾。同音词在汉语中既有修辞作用的积极一面,也有影响口语交际效果的消极一面。积极方面包括谐音双关的应用等,如“年年有鱼(余)”“食(十)全食(十)美”。消极方面则表现为同音词所产生的混淆和歧义等,如“心酸”与“辛酸”、“姓张,是弓长张,不是立早章”等。在中文信息处理领域,同音词的大量存在也影响了语音识别和以拼音作为汉字输入方法的效率。将中文录入计算机是编辑和打印中文文本、进行网上交流的第一步,是中文信息处理的关键问题。当前主流的输入法包括拼音输入法和字形编码两种方案。拼音输入法由于更符合人们的思维习惯,而且无需学习,所以占据了输入法的主流地位。然而汉语中大量的同音词却影响了拼音输入法的效率,同音词的辨识成为提高拼音输入法效率的关键问题之一。

自20世纪80年代以来,对于汉语词汇的专题研究日渐增多,对于同音词问题,也有一些理论上的讨论和静态统计结果。尹文刚对《新华词典》收录的汉语同音字进行了统计,提出“同音率”和“同音度”两个概念作为度量同音字特性的量化指标[1]。刘延新、许皓光编著的《汉语双音节同音词词典》收录了两千多条双音节同音词,给出了每个词条的释义和例证[2]。最近,代建桃(2008)在分析《现代汉语词典》第5版的基础上,从词性、词形、词义等角度对汉语同音词做了细致的分类,并对同音词的形成和同音词对交际的影响进行了探讨[3]。

然而上述文献主要是从语言学角度对汉语同音词问题所作的分析,从信息处理的视角对汉语同音词进行分析的文章并不多见。冯志伟、张普等[4,5]所著的中文信息处理的专著中曾提到汉语的词频统计、音节总数等数据,然而鲜有词形、词次和拼音综合统计的介绍。对真实文本中汉语同音词的动态使用状况进行统计,必须要借助经过词语切分和读音标注的语料库,这是相关文献较少的原因。本文将从信息处理的角度出发,分析汉语词典和大规模语料库中同音词的分布,以期服务于同音词的辨识,提高拼音输入法的效率。

二 术语定义

为了描述汉语同音词的分布情况,定义以下相关术语:

1.同音词。具有相同读音的一组词形被称为同音词。一个同音词可能有不只一个义项,这些义项之间也可能没有直接关系,本文只把它视作一个词形①。对于词典中收录的汉字,本文不区分它究竟是语素字、语素还是词,统称为字或单字。所以文中提及的单音节同音词实指同音字。按照读音是否带调,同音词(字)又分为无调同音词(字)和带调同音词(字)。

2.词形和词次。词形指词的书写形式,对单字来说也可以称为字形。每个词(字)形在文本中出现一次称为一个词(字)次。

3.拼音、音节与音节形式。单字的读音称为音节,音节是语音的基本单位,无调音节称为音节形式。单音节读音和多音节组成的复合读音统称为拼音。因此,在汉语中每个词(字)都有三个属性可以进入统计:词(字)形、词(字)次和拼音。本文的统计分析未涉及词义或字义。

4.拼音载词量。拼音载词量是指词库中词形总数与拼音总数之比。相关文献对于单字所作的该项统计称为“音节载字量”[6],而未曾涉及多音节词的有关统计。为此本文把它们统称为“拼音载词量”。拼音载词量可以反映同音词辨识的困难程度。

5.同音率和同音度。具有同音词的拼音在拼音总数中的比率叫做同音率;一个拼音所对应的同音词形的个数叫做同音度[1]。同音率与拼音载词量都可以用来描写汉语同音词的特性,它们的分母相同,但同音率计算公式的分子是同音词拼音的个数,而拼音载词量计算公式的分子是词库中词形的总数(包括非同音词)。

6.音节数。音节数指一个词的读音中所包含的音节个数,等同于词长②。儿化音不算音节,所以带儿音的词的音节数不增加。

7.静态统计和动态统计。根据资源的不同,本文使用了静态统计和动态统计两个概念。静态统计是指对词表中词形及其拼音的统计。动态统计是指对词形及其拼音在语料库中出现次数的统计。

三 三种资源

本文进行汉语同音词统计时所用的三种资源分别是:1)《现代汉语词典》第4版[7],下文简称《现汉》;2)微软办公软件Office使用的IME4词典③,用IME表示;3)国家语委现代汉语平衡语料库[8],用NCC表示。

(一)资源的规模

三种资料的规模如表1所示。

(二)资源的特点

作为我国第一部发行量最大的现代汉语词典,《现汉》的权威性和科学性至今无出其右。本文使用的是根据《现汉》(第4版)人工录入计算机的电子版本。根据统计结果,它包含了58606个词形和48366个拼音。

IME词典是微软公司Office办公软件所使用的汉语词典,收录了《现汉》中不收或未单独成条目的繁体字、异体字和一些不常用的词(字)等,其中每个字/词的简体后都标有对应的繁体,本文只统计了其中的简体字词。据统计,IME包含的单字为18102个,多于《现汉》收录的8465个单字。在多音节词中,除了双音节词,IME收录的词形数都比《现汉》多一倍以上,拼音数量也相应增多。IME的词形总数达到了93556个,拼音总数为59121个。可见IME词典作为办公软件使用的电子词典,收录的字词更加广泛。

NCC是由教育部语言文字应用研究所主持建立的一个现代汉语平衡语料库,语料由人文与社会科学、自然科学及综合等三个大类约40个小类组成,选材有足够的时间跨度,语料抽样合理能够比较科学地反映现代汉语的全貌。本文使用的语料库文本共包含120000000个字符,所有语句均完成了词语切分和词性标注。统计结果显示,它总共包含203395个词形,150841个拼音,17956409词次⑥。需要指出的是,NCC中的词形原本不带拼音,为了能够统计词形及其拼音,本文首先用程序给语料库中的词形标注无调拼音。标注拼音时,首先在《现汉》和IME词典中查询该词的拼音;如果是登录词,就直接返回无调拼音;如果是未登录词,就把该词切分成更短的字或词进行查询,以尽量减少多音字被标错读音的机会。虽然不可避免地会有少量多音字被标错读音,但不至于影响全局的统计结果。

四 同音词的分布

表2为《现汉》的同音词统计结果。每一行表示一个给定音节数的词形、拼音和同音词的数目和百分比,最后一行为合计(下同)。

表2 《现汉》同音词统计结果

表3为IME词典的同音词统计结果。

表3 IME同音词统计结果

表4显示了NCC语料库的静态和动态统计结果。由于为NCC语料库标注的拼音都是无调拼音,所以统计结果中没有带调拼音的相关数据。

表4 NCC语料库同音词统计结果

汉语中音节数目是个相对固定、又随着时代发展而略有变化的数字。徐从权在详细分析《现汉》5个版本的音节表的基础上得出,汉语普通话有409±个音节形式、1205±个音节[9]。卢偓则分析了三种字典/词典中存在统计分歧的79个音节和形成分歧的原因[10]。本文统计的《现汉》和IME中收录的音节形式数量基本相同,分别为416和412。将《现汉》和IME中的音节形式进行比较,它们共同收录的音节形式为410个;《现汉》中出现而IME中未出现的音节形式有:cei,噷hm,剋kei,姆m,嗯n,嗯ng;IME中出现而《现汉》中未出现的音节形式有:诶ei,覅fiao。

《现汉》中共有715个带儿化音的词形,其中单字62个,双音节词504个,其余149个。IME词典收录的带儿化音的词形与《现汉》基本相同,共723个,其中单字62个,双音节词525个,其余136个。对于儿化音,如“歌儿,gelr5”,本文做如下处理:儿化词的音节数和无调拼音与非儿化词相同,只是拼音和词形不同。如“歌儿”的音节数为1,其音节形式为“ge”,拼音为“gelr5”,“歌儿”和“歌”算作不同的词形。因此本文统计得出的音节总数略高于相关文献在《现汉》上的统计结果。

五 基于词表的同音词静态分析

(一)同音词(字)的特点

1.同音字。在三种资源中,无调同音字占单字字形总数的比率分别达到了99.9%(《现汉》)、100%(IME)和99.6%(NCC)。带调同音字的比率也达到了97.6%(《现汉》)和99.3%(IME)。可见,单音节同音字的比率极高,是拼音输入法面临的一大难题。

2.双音节同音词。在双音节词中,无调同音词在双音节词形中的比率分别达到50.3%(《现汉》)、53.9%(IME)和69.8%(NCC)。《现汉》与IME的比率基本持平,而NCC同音词比率比《现汉》高出约16个百分点。双音节带调同音词的比率和双音节无调同音词相比,大幅下降为16.1%(《现汉》)和15.5%(IME)。

3.三音节和三音节以上的同音词。与单字和双音节词相比,三音节及三音节以上的词形中同音词比率显著减少。词典中带调同音词比率小于2%,无调同音词比率小于3%;语料中无调同音词比率小于6.6%。可见,为解决汉语拼音输入法所面临的同音词问题,需着重摸清同音字和双音节同音词的分布状况。

4.对比分析。总体上讲,《现汉》中无调同音词的比率约为49%,带调同音词比率降低一半,约为25%;IME中无调同音词的比率与《现汉》非常接近,只是带调同音词比率增加了2.5个百分点。有趣的是,IME词典收录的词形数比《现汉》多出近一倍,而两者的同音词比率却基本相同。详细对比两部词典不同音节数的词形数量,可以看到:虽然IME比《现汉》多收录的近一万个单字几乎都属于同音字,但是多出的两万多个多音节词中同音词的比率并不高,因此最终的同音词比率很接近。

(二)同音率和同音度

尹文刚在《新华字典》的基础上进行了汉语同音字统计,提出了“同音率”和“同音度”这两个概念作为衡量同音字特性的量化指标。为了同尹文的数据对比,本文也采用这两个指标来展示《现汉》和IME词典的同音词特性。尹文只分析了单音节拼音的同音率和同音度分布规律,本文则同时展示音节数不同时带调和无调拼音的同音率和同音度分布规律。

从表5可以看出,带调和无调拼音的同音率都随着音节数的增加而递减。《现汉》中,音节同音率为78.4%(1104/1408);双音节带调拼音的同音率为8.19%(3011/36742);三音节及三音节以上带调拼音的同音率都小于1%。IME词典与《现汉》的结果基本相同。尹文在《新华字典》上统计出音节同音率为80.5%(1052/1307),与本文在不同词典上的统计结果接近。无调拼音的同音率一定高于带调拼音,这是因为相对于带调拼音,无调拼音总量减少,而要表示的词形不变,导致同音率增加。《现汉》中,无调拼音的同音率分别为95.0%(单音节)、27.7%(双音节)和1.32%(三音节)。

尹文根据音节同音度分布,得出了有同音词的音节个数随同音度增加而递减的规律,进而引申得出语言发展中的“清晰原则”。图1显示《现汉》中音节数随同音度变化的分布,横坐标表示音节的同音度x,纵坐标表示同音度为x的音节个数。音节的个数总体上按照同音度的增加而递减,但在9、11、17和19等位置出现高峰,图中同音度的最大值为82,最小值为2,算术平均值为8.61。本文对《现汉》和IME词典的统计得出,相同同音度的音节个数总体上随着同音度的增加减小,而且在多音节带调拼音和无调拼音上也可以观察到相同的规律。

图1 《现汉》中音节数随同音度变化的分布图

图2显示了《现汉》中音节形式的个数随同音度变化的分布。不区分音调时,有416个音节形式,同音度最大值为148,最小值为2,算术平均值为23.3。从图中可以看出音节形式的个数随同音度的变化并没有明显的规律,其间出现多个波峰和波谷,但多数音节形式落在同音度1~46的范围内,同音度大于46的音节形式仅有36个(8.7%)。

图2 《现汉》音节形式的个数随同音度变化的分布图

双音节及双音节以上拼音的同音度要比单音节拼音小得多,最大值同音度也只有22,并且分布都符合随着同音度增加拼音个数递减的规律。《现汉》中双音节带调拼音的同音度,最大值为8,算术平均值为2.16;双音节无调拼音的同音度,最大值为22,算术平均值为2.64;三音节及三音节以上拼音,不管是否带调,其同音度都小于等于4。总的来说,随着音节数的增加,可供使用的拼音增多,构成同音词的机会大大降低,有利于提高语言的清晰性。

(三)拼音载词量

根据《汉语拼音方案》,汉语普通话有22个声母(包括零声母),35个韵母,阴平、阳平、上声、去声、轻声共五个音调。从理论上说可以有770个音节形式,3080个音节(不算轻声)。而根据对《现汉》的统计,实际却只有416个音节形式,1408个音节。根据以上数据,计算得出的理论和实际拼音载词量如表6所示。

表6第2列为理论上带调拼音和无调拼音数,第3列为《现汉》中收录的实际带调拼音和无调拼音数。第4列为带调拼音的理论和实际载词量。此处仅列举了音节数小于等于3的拼音,因为音节数大于3的拼音载词量都约等于1。理论上说,除了单音节拼音负载约3个字外,多音节拼音的数量众多,载词量接近于0;而在实际使用中,单音节拼音的载词量达到6个,双音节拼音的载词量也接近1.5个。

表7列出了根据三种资源统计出的无调拼音载词量。由于拼音输入法一般以无调拼音作为输入,因此无调拼音的载词量也有其意义。表7中,IME中音节形式载字量是《现汉》和NCC的2倍以上,这是因为IME中收录的单字很多,而音节形式的数量与《现汉》和NCC基本相同。对于多音节拼音来说,无调拼音载词量在三种资源中基本相同。从表7中可知,每个音节形式的载字量都在15个以上,必然造成单字的无调同音字比率偏高,每个双音节拼音平均对应1.6个词形,每个三音节及三音节以上的拼音平均只对应大约1个词形。对比拼音载词量与平均同音度,前者肯定小于后者,因为平均同音度等价于有同音词的拼音载词量,它肯定大于所有拼音的载词量。如《现汉》中音节载词量为6.02,而同音度的算术平均值为8.61。

(四)音调对于区分同音词的作用

上文表2和表3罗列了《现汉》和IME两部词典中带调同音词形和无调同音词形的个数,从数据中可以看出,对于双音节词来说,标调后同音词在词形总数中的比率分别从50.3%下降到16.1%(《现汉》),从53.9%下降到15.5%(IME),极大地缓解了同音词辨识的困难。然而对于单字来说,标调对于区分同音字的作用就非常有限,标调后同音字的比率仅比标调前分别降低了2.32%(《现汉》)和0.64%(IME)。这是因为标调后每个音节仍然会对应许多个同音字。对于音节数大于2的多音节词来说,由于同音词较少,标调所能区分的同音词小于2%。同时由于同音词数量急剧减少,通过标调来区分同音词已显得没有太多的必要性了。总的来说,带调同音词比率25.3%比无调同音词比率49.0%下降近一半,但就拼音输入法而言,输入带调拼音仅对区分双音节同音词有明显的帮助。如果考虑输入法的易学易用要求,笔者认为拼音输入法还是以不带调拼音作为输入形式为宜。

六 基于语料库的同音词动态分析

讨论同音词的文献通常都是基于词典的,而鲜有基于语料库的分析。本节首先分析基于语料库的同音词统计结果,接着讨论同音字和双音节同音词在语料库中的分布特点。

(一)动态统计结果与静态统计结果的比较

总体上来说,语料中元调同音词的总体比率低于词典中的比率。NCC语料中,无调同音词比率为37.3%,而在两部词典中比率约为49%,降低了12%。这是因为语料中包含众多的未登录词,它们多为无调同音词比率不高的多音节词。其次,语料中无调同音词的词次百分比大于词形百分比,前者所占比率为81.2%,而后者为37.3%。比率增加的原因在于,语料中单音节词和双音节词词次百分率达到93.9%,其中多数为无调同音词(99.6%的单音节词和69.8%的双音节词),所以语料中无调同音词的词次百分比远高于词形百分比。

在词典登录词中,以双音节词最多,单字次之,其后随着音节数的增加,词形数量递减。登录词的音节数一般小于10,《现汉》中唯一一个音节数大于10的词形为“只许州官放火,不许百姓点灯”。在NCC语料中,仍然是双音节词最多,随着音节数增加词形数递减;单字却比词典中少,毕竟有些词素字是不能独立在文本中出现的。并且NCC语料库中有很多音节数较大的词,最大的达到了35个音节。这与NCC把地名、机构名和外国人名作为一个切分单位有关。

表8列出了《现汉》与NCC中词形与词次的比率。每一行中,NCC词表的比率始终小于词典的比率,音节数小于或等于5的词形比率比《现汉》小8.62%。这主要是由于词典中收录的音节数大于5的词语非常少,仅有几百个,而NCC词表中音节数大于5的词语却达到了18000余条,这些较长的词语99%以上都是地名、机构名,还有少量整句切分出来的文言诗词。第4列是语料库中词次所占比率,单音节和双音节词占总词次的94.0%,音节数小于或等于5的词次占总词次的99.8%。事实上,在不同语料库中词次的统计结果是相近的。如在Backoff 2003和Backoff 2005共8个训练语料库⑩的统计数据表明:单音节和双音节词占总词次的90.8%以上;3音节和3音节以下词占总词次的95.8%以上;5音节和5音节以下词占总词次的99.1%以上[11]。

(二)文本中单音节和双音节同音词的分布特点

根据静态分析的结论,分析同音词问题主要是分析单音节同音词(字)和双音节同音词,本节主要分析高频同音字和高频双音节同音词在文本中的特点。

1.单音节同音词(字)。在三种资料的静态统计结果中,无调同音字比率都接近100%,其主要的原因是汉语中单字多而音节形式少,《现汉》中平均每个音节形式的载字量约为20个。如果《现汉》中收录的8465个单字都在文本中被频繁使用的话,就会给拼音输入法带来极大的困扰。周有光指出:“在七千个通用汉字中,有四千多个(2/3)是代表‘词素’的‘词素字’,它们只能跟别的汉字结合成词,不能独立成词。有两千多个(1/3)是代表‘语词’的‘词字’,它们能独立成词。利用‘以词定字’方法,三分之二的汉字可以避免同音干扰。”[13]根据周先生所说,在语料中作为单音节词出现的单字应该为2000多个,然而根据对NCC的统计,单音节词的词形数达到了6409个,略小于GB2312收录的6763个常用汉字。那么是不是文本的切分结果出现了差错呢?

图3描绘了NCC语料中单音节词累计词次比率变化曲线,横坐标x表示高频单音节词的个数n,纵坐标表示前n个高频单音节词的词次占单音节词总词次的比率。从图中可以看出,单音节词的累计词次比率初期剧烈增加,然后缓慢增长。前550(8.58%)个高频的单音节词的累计词次比率为90%;2286(约为总数的1/3)个最频繁的单音节词累计词次比率为99%,剩余4123个单音节词的累计词次比率仅为1%。若把单字在文本中频繁出现作为独立成词的标志的话,那就验证了2000多个独立成词的“词字”频繁出现(11),余下的4000多个单字仅偶尔出现,如出现在文言文和中国人的姓名中。

在2286个高频的单音节词中,无调同音词为2275个,占99.5%,与总体比率基本相同。根据该单音节词在《现汉》中是否为带调同音字,得出这2286个高频单音节词中,带调同音词为2202个,占96.3%,可见在高频单音节词中,带调同音词的比率也很高。

图3 单音节词累计词次比率

图4 双音节词累计词次比率

2.双音节同音词。图4显示了双音节词累计词次比率的变化,与图3相比,12919个高频双音节词(14.1%)的累计词次比率才到达90%;47831个高频双音节词(52%)的累计词次比率达到99%。值得注意的是,58.8%的双音节词出现次数小于等于10次,它们的累计词次比率小于1.74%。取双音节累计词次比率达到90%的12919个高频双音节词作为分析对象,这些高频词中,无调同音词为9145个,占70.8%,比双音节中总体无调同音词比率略高。

三音节和三音节以上词形的累计词次比率曲线与双音节词的曲线相似,只是曲线越来越平滑,接近线性增长。这种前部陡峭、后端平缓的分布图表明,虽然汉语词汇中词形很多,NCC语料中切分出的词语更是超过20万条,但是频繁出现的词形却不多。我们知道,同音词不但会影响语言的清晰度,同时也影响拼音输入法和语音识别等中文信息处理的效果。而高频词中同音词的比率较大,那么同音词带来的歧义性就会更加显著。语境和音调可以减少口语中同音词产生的误解,但对于拼音输入法来说,音调和语境都是缺失或不易被程序“理解”的,无调同音词的大量存在会严重影响输入法的一选正确率。然而根据少数高频词被频繁使用的特点,如果能够采取有效的策略,比如“高频先见、用过优先”等,优先解决高频同音词的消岐,就可以大幅度提高拼音输入法的一选正确率。

七 结语

本文在两部词典和一个大规模平衡语料库的基础上,对现代汉语的同音词现象进行了调查。基于词典的统计,描述了汉语同音词按不同音节数分布的数量和比率、汉语拼音的载词量,以及汉语拼音的同音率和同音度等。根据NCC大规模平衡语料库的统计,揭示了汉语同音词在真实文本中的分布状况,对前人基于词典的同音词统计做出了有意义的补充。这一调查有助于深入了解现代汉语的同音词问题,并将服务于同音词的计算机自动辨识,提高汉语拼音输入法的效率。

注释:

①也就是说,在语言信息处理的初级阶段中,对于词的同一性不加区别。所以算术里的“分数”和考试成绩的“分数”在词典中属于不同的两个义项;由于同音同形,本文把它们视为一个词形。

②词长通常以一个词所包含的字数来度量,而汉语中每个字对应于一个音节。

③IME4词典为微软内部资料,未曾对外公布。

④此数字指NCC中无调拼音数。

⑤《现汉》中包含的条目总数为82881,同音同形但不同义项的词条分做不同的条目,而本文统计时只统计音形,所以条目数大于这里的词形数。IME词典作为Office办公软件中使用的词典,收录了较全的单字和多字词。NCC中词形数超过20万条,最长音节数达到35,与语料切分规则有关。

⑥统计结果中不包括标点符号和诸如“1”“CCTV”等纯数字(串)和字母(串),但是包括“甲A”“德国CC公司”等,每个字母算作一个音节,前者音节数为2,后者的音节数为6。

⑦词形相同而音调不同的词形,在统计同音词的词形时只计算一次,如“啊ā、啊á、啊ǎ、啊à、啊α”只算一个词形。

⑧此处的词形和拼音,严格说,是字形和音节。

⑨等于3080的2次方,其余以此类推。

⑩语料库的提供者包括微软亚洲研究院、北京大学、美国宾州大学、香港城市大学、台湾中央研究院,其中既有简体字语料,又有繁体字语料,语料库的规模从25万到580万(词次)不等。

(11)当然,这里得到的“词字”的集合可能和周有光先生所说的语言学上的“词字”集合并不完全相同,本文仅从词频的角度讨论单字的使用规律。

标签:;  ;  ;  ;  ;  ;  

从信息处理角度看汉语同音词_单音节论文
下载Doc文档

猜你喜欢