汉字族与汉语未登录词的自动提取_单音节论文

字族化与汉语未登录词的自动提取,本文主要内容关键词为:汉语论文,化与论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

上世纪80年代以来,随着新事物的产生和引进,新词不断涌现,而且一度急遽增长,伴随“信息爆炸”的就是“词汇爆炸”现象。新词为何能如此迅速产生?人们又如何能在短时间内接受这么多的新词?通过观察,我们发现,这与字族化现象密切相关:新词往往不是单个出现,而是围绕一个相同的字(核心字)成群出现,形成一个字族,字族的成员之间存在平行关系。(注:关于“平行关系”的定义,详见第三部分。)如:

X家:教育家、探险家、冒险家、外交家、航海家、语言学家、历史学家、考古学家、钢琴家……

x热:旅游热、化妆热、考研热、出国热、摄影热、西服热、托福热、汉语热……

防X:防盗、防冻、防腐、防洪、防火、防感冒、防瘟疫、防非典、防色狼、防洪灾、防肺结核……

打X:打拐、打私、打托、打丑、打黑、打假、打非……

“字族”与欧阳骏鹏提出的“词群”、李宇明提出的“词语簇”、刘叔新提出的“同语素词语族”(简称“同素族”)类似,但不尽相同:“词群”的成员限于词,作者的举例都是双音节的;[1]43-44“词语簇”不仅包括含有相同字的词,还包括含有相同词的词组,如“X模式”、“绿色X”;[2]146-147“同素族”不限于词,还包括固定语,成员之间不一定具有平行关系,如“死心塌地”、“落地生根”、“落地风扇”、“平地一声雷”也属于同一个“同素族”。[3]386-387我们这里的字族暂时不严格区分词与词组,将其成员称为字组;字族不包括“X模式”这一类;字组之间必须具有平行关系,所以“死心塌地”、“落地生根”一类也排除在外。

字族化是现代汉语词汇的重要生成途径之一,对汉语的编码机制产生了很大影响,字族的研究有助于加深我们对汉语编码机制的认识,也有助于对外汉语教学及中文信息处理。

一、字族的特点

当前的字族呈现出如下几个特点:

(1)核心字位置比较固定,一般只做前字或后字,位置不固定时,做后字组成的字组往往比做前字多。如“X吧”、“X卡”远远比“吧X”、“卡X”规模大:

(2)整体看来,双音节在X位置的出现更自由,单音节受限制,多音节有增加的趋势。规模大的字族X一般是双音节,生成潜能更大,如“高X”、“X化”、“X盲”:

表1 做后字、前字组成的字组数量比较

字族 字组数举例

X吧/吧X192/21酒吧、网吧、水吧、果吧、影吧/吧费、吧女、吧蝇、吧台

X卡/卡X119/5 磁卡、饭卡、金卡、门卡、贺年卡/卡吧、卡夹、卡民、卡友

高含量、高热量、高质量、高容量、高流量、高竞争、高投入、高产出、高保真、高赔付……

革命化、简单化、复杂化、合法化、非法化、公开化、秘密化、机密化、公有化、高档化……

外语盲、英语盲、法语盲、德语盲、英文歌曲盲、流行歌曲盲、医学仪器设计制造盲……

受二音节模式限制,出现频率较高的字组往往会简缩:

音乐盲(音盲、乐盲)、经济盲(经盲)、网络盲(网盲)、舞蹈盲(舞盲)、电影盲(影盲)

高速度(高速)、高纯度(高纯)、高额度(高额)、高能量(高能)

双音节和多音节X的增多大概是因为其表义的明确性,单音节的X容易引起歧义。如“机盲”既可以指“计算机盲”,又可以指“机械盲”。

(3)从组合关系看,X与核心字都是语义相关,不是相似,多是限定关系和支配关系,前者如“X嫂”、“X盲”,后者如“多X”、“发X”、“防X”。

(4)从聚合关系看,X在语义上有一定共性,形成一定的语义类,有的语义类比较封闭,是有限的;有的语义类比较开放,是无限的。如“发X”中的“X”都是表五官感觉和心理感觉的,这一类X相对封闭,数量有限,比较好控制;“X盲”中的“X”都表示某方面知识,相对来说比较开放,不好控制。

发红、发青、发硬、发涩、发冷、发亮、发臭、发愁……

文盲、科盲、法盲、电盲、体育、机盲、球盲、税盲、路盲、乐盲、舞盲……

语义特征还涉及语义层级问题,我们发现,在允许双音节和多音节出现的字族里,如果上位词可以出现在 X位置,往往其下位词也可以,如“旅游热—海南旅游热、青岛旅游热”、“防辐射-防核辐射、防太阳辐射”。“防辐射、防太阳辐射、防核辐射”之间是否具有平行性不好说,它们之间可以看成扩展关系,在平行规则的描述中说明。

(5)核心字意思相反的字族呈现出一定的对称性,分布范围相近,如“多X-单X”、“高X-低X”、“微 X-巨X”、“X嫂-X哥”。据李洪彦统计,“高X”和“低X”有惊人的对称性,“高X”有126例,“低X”有127例,而“X”一致的有125例。[4]“X哥”、“X嫂”的对称性差一些:

空嫂-空哥、的嫂-的哥、商嫂-商哥、纺嫂-纺哥、呼嫂-呼哥、护嫂-护哥

地嫂-*地哥(注:带*的是没有出现的形式,下同。)、报嫂-*报哥、房嫂-*房哥、乘嫂-*乘哥、巴嫂-*巴哥、环嫂-*环哥

接送嫂-*接送哥、抗洪嫂-*抗洪哥

一方面,能出现在“X哥”中的字都能出现在“X嫂”中,反之则不然;另一方面,即使X相同,“X嫂”的出现频率也比“X哥”高。

(6)核心字意思相近的字族处于竞争、互补状态。例如“X界-X坛”,二者在音节上处于互补关系:“X界”中的“X”一般是双音节或多音节,单音节受限制,“X坛”中的“X”则一般是单音节,双音节受限制,如“跳远界”、“跳高界”可以说,“跳远坛”、“跳高坛”则不可以说。这使得“界”和“坛”在分布上基本互补,少数对立;在表义上存在竞争。

表2 “X界”与“X坛”的分布关系

互补分布 对立分布

X界电影界 跳水界 体育界 科学界、科技界、科学技术界足球界 球界 歌界 警界

X坛影坛 跳坛 体坛 科坛足球坛 球坛 歌坛 警坛

二者都有互相侵占领地的趋势,即“界”有逐渐出现在单音节X后面的趋势,“坛”也有逐渐出现在双音节或多音节X后面的趋势,“影界”、“高尔夫球坛”等开始在网络文本中出现。只是出现频率的悬殊体现了各自音节模式的优势:如果X是双音节或多音节,“X界”的出现频率更高;如果X是单音节,“X坛”的出现频率更高。

表3 “X界”与“X坛”中部分字组出现频率的对比

对比字组

出现频率对比③

足球界/足球坛

99,700/938

球界/球坛

11,000/65,000

歌界/歌坛

1,130/1,190,000

注释:

③频率对比来自百度搜索(http://www.baidu.com),数字显示的是出现这个字组的网页数,不是实际的出现频率,数字不准确,但对比是可靠的。

在网络文本中,二者几乎都有对应的形式,这样二者的区别主要体现在语用色彩方面。施春宏对二者的功能分化做了比较详细的比较。[5]

二、字族化的影响

字族化对汉语的编码机制造成了很大影响:

(一)使核心字增加了新义或获得了意义(语素化)。“盲”本来是“眼瞎”的意思,“文盲”是建国后出现的,本来的意思是“不识字的成年人”,其中的“盲”是比喻用法。而字族“X盲”的形成使得“盲”有了“不具备某方面、某领域知识的人”的意思;“嫂”本来指“哥哥的妻子”,“X嫂”字族使得“嫂”有了“从事某行业的已婚失业女工”的意思,并开始泛指“从事某行业的女工”。“酒吧”本来是bar的音译,“吧”本身没有意思,随着字族化,“吧”获得了意义。《当代汉语新词词典》列了三个义项:

吧①“酒吧”的简称;②指供人们业余练习某种技艺、享受某种情趣或兴趣爱好相同者聚会等的文化娱乐休闲场所;③指供应某种商品的专卖店。[6]

(二)核心字的词缀化。字族的形成及规模的不断增大使得核心字的意思不断虚化、泛化,成为“类词缀”。一般偏正结构的后字会成为类后缀,例如“盲”、“热”,动宾结构的前字会成为类前缀,如“防”。现代汉语中的词缀化现象与字族化密切相关。

(三)词汇语义的表面化。“现阶段相当数量的新词有通过词语表面义揭示整个词语的倾向”[7]66,其中很大一个原因就是字族化。每个字族都有一个固定的语义模式,对新词的解读,就是给X赋值,只要把X的值代入语义模式,新词的词义就显现出来了。例如“X盲”这个字族的语义模式就是“不具备X知识的人”,那么当X等于“科”时,意思就是“不具备科学知识的人”:

由于X往往是为了迁就音节长度而简缩来的,所以在代人时要还原,如“科”还原为“科学”。另如,“防X”的词义模式就是“防止X”或“防备X”。只要找到了字族的词义模式,找到简缩的还原机制,就可以对新词进行自动定义。词汇语义的表面化是人们能在短时间内理解、接受这些新词的原因。

(四)使我们对汉语编码机制的变化和传承有更深的认识。在以单音节模式为主的时代,新词.的产生是通过造字来实现的;而在以双音节模式为主的时代,新词的产生是通过组字来实现的。但有一点是一脉相承的:不管是造字还是组字,都是利用原有的部件(偏旁或字),而且往往会围绕一个固定的核心部件,形成一个字或字组的群体;不管是字的群体还是字组的群体,其聚集的核心都是语义。也就是说造字和组字之间存在一定的同构关系。由此也可以看出,音节模式和语义是语言编码中的关键因素。

表4 古代汉语现代汉语编码模式比较

古代汉语 现代汉语

词的单音节模式词的双音节模式

现成的偏旁现成的字

造字:偏旁的组合,往往围绕某个偏旁组字:字的组合,往往围绕某个字

柏、松、杨、桃柏树、松树、杨树、桃树

(五)促使我们对汉语中词这一级单位进行反思。词与词组的区分一直是汉语中的一个难题(注:宋作艳的《述宾式二字组的分类研究》通过考察大量述宾式二字组对多种界定词的语言学方法作了介绍和评价(温儒敏:《中文学科论文写作训练》,北京:北京大学出版社,2003年)。),字族化使这一问题更加突显,字族化产生的大量字组究竟是词还是词组,该如何处理?传统的语言学方法不能对这个问题进行很好的处理。陈保亚转换思路,从规则与不规则的角度考虑这个问题。把字组分成规则字组和不规则字组,前者用规则来控制,不需要记忆,如“老李、老张、老刘……”这样的字组用“老+单音节表姓氏的X”这样一条规则就可以控制;后者收入单位库,需要记忆,如“老板、老手”。这样的处理对对外汉语教学和中文信息处理比传统的方法更有效。[8]350-366[9]10-11从中文信息处理角度,主要是解决未登录词问题,下面我们将着重讨论这个问题。

三、新词的预测与自动提取

从上文的分析我们可以看出,虽然新词不断涌现,汉字却并没有增加,只是字的组合增加了——旧字新组合,这种组合又是有规律的,通过类推形成具有一定语义模式的字族。共同的语义模式让人们可以“看旧字识新词”,类推模式让人们可以“用旧字造新词”。[10]13正是这种新生类推能力,使得新词增长速度很快,字族化是新词的重要生成途径之一。新词问题在中文信息处理中就是未登录词问题,大量新词的不断产生使得未登录词成为中文信息处理中的一个难题,本文基于对字族化的研究,在平行规则提取的基础上,尝试对新词(未登录词)的预测与自动提取做初步的研究。

(一)平行规则的提取

陈保亚提出了平行性需要满足的三个条件:

1.被替换的部分具有平行特征;

2.在被替换部分保持平行特征的前提下,组合关系平行;

3.整个组合在分布上平行。[9]10

需要强调的是,这里的平行特征涉及语法、语音、语义三个层面:往往要求被替换成分在词类、音节数和语义特征上存在一致性。语义特征上的平行更严格,例如,“防癌”、“防盗”、“防潮”中的第二个字分别是N、 V、A,却并不影响它们之间的平行性,因为它们有一个共同的语义特征“表示对人类的利益有损害”。对于没有受过语言学训练的人来讲,语义模式反而更直观,在判断是否平行时,汉语母语者可能主要是整体感知,更注重“防止某种不好的事情发生”这样的整体语义模式。平行规则的提取不一定只考虑平行特征,还可以从语义模式、分布上考虑。请看下表:

表5 “发X”与“零X”字族比较

字组语音 语法 语义语义模式 规则

发X单音节形容词;支配关系X表示颜色

呈现出某种颜色 周遍

零X双音节动词;?

?一点儿也不X或者没有一点儿X?周遍

发X:X表示颜色、单音节

发红、发白、发黑、发绿、发青、发紫……

零X:X是能进入“不X”结构的双音节动词

零信任、零排斥、零了解、零知晓、零忍耐、零拒绝、零怀疑、零期望、零关注……

“发X”中X的语义类容易概括,用一个概念(“颜色”)就可以,规则比较容易提取,而且其周遍性比较容易穷尽验证,但这样的规则控制的字组比较少;我们能比较容易判断出“零X”中的字组是平行的,因为它们有共同的语义模式“一点儿也不X或者没有一点儿X”(一点儿也不信任,一点儿也不排斥),其组合关系和 X的语义类却比较难描述,平行规则很难提取出来。很难定义“信任”、“排斥”、“了解”、“知晓”这个聚合的语义类,事实上,人们在乎行类推的过程中,心里事先并没有一个明确的语义类的集合,用这个集合里的成员来填“零__”这个位置,而是不自觉地进行了形式的转换:

一点儿也不X→零X

一点儿也不信任→零信任

一点儿也不排斥→零排斥

一点儿也不了解→零了解

我们可以转换一下思路,不试图去描述关系和语义类,而是从语义模式入手,将规则描述为“X是能进入‘一点儿也不X’结构的双音节动词”,一个双音节动词能否进入“一点儿也不X”结构是比较容易判断的,这样问题就简化了。这种共同的分布恰恰反映了“信任”、“排斥”等在语义上的共性,“一点儿也不X”是这种语义共性的鉴定格式。但这样的转换规则是通过不完全归纳得出的,只具有平行性,不能确定是否具有周遍性,其生成性受限制。因为“一点儿也不__”和“零__”两种分布位置存在一定的等价性,但不完全等价,“零X”都可以解释为“不X”(语义模式),但反过来不可以,并不是所有能进入“不X”的双音节动词都可以进入“零X”:

一点儿也不讨厌→*零讨厌

一点儿也不喜欢→*零喜欢

无论是“发X”还是“零X”其平行规则中语义类的提取都与其语义模式相关:

发X→呈现出某种颜色:X表示一种颜色

零X→一点儿也不X:X能出现在“一点儿也不-”位置

不同的只是前者用一个上位概念“颜色”概括了语义类。我们进一步发现,如果语义模式是“某种……”这样的形式,……就是X的上位概念,可以概括X的语义类;否则,语义类只能用语义模式中体现的分布位置来描写,如:

防X→防止某种不好的事情发生:X指某种不好的事情。如:防病、防盗、防火

科盲→不具备某方面知识的人:X指某方面知识。如:科盲、机盲、英语盲

X化→变得越来越X:X能进入“变得越来越-”位置。如:革命化、简单化、公开化

语义模式中的上位概念和分布位置是平行规则中语义类描写的两种重要方式。

字族中的字组之间具有平行性,但平行规则不一定具有周遍性。新词的预测和提取是基于平行规则而不只是周遍规则。字组之间的平行性是比较容易判断的,一般只需要判断这些字组是否能纳入同一个语义模式就可以,如上面提到的“防X”;周遍则比较难判断,一方面,周遍是基于语义类的,而语义类的概括和描写比较难,语义类有大有小,太小了控制的字组太少,太大了不好描述,而且往往控制不住,存在例外。另一方面,字族中有很多空格,所以穷尽验证周遍比较困难。乔姆斯基(Chomsky)指出一个句子没出现不等于不合语法,可能受到语义的限制(? Colorless green ideas sleep furiously.),但有些句子肯定不合语法 (* I saw a fragile)。[11]9-11字组同样存在这个问题,不出现的不一定不是合法的形式,如我们平时很少说“第两亿”,但我们知道这是可以说的,还是认为“第X(数词)”是周遍的。问题是没出现的是否一定是合法形式呢?也不好断定。与语法规则不同,平行规则受语义的约束更大,受社会现实的影响也更大,有一定的时效性,在某个时间内类推能力比较强,过了这个时期可能就不再起作用,一些很好的隐性形式可能就永远不会出现了,有时候一些形式出现了,不久又消失了;规则的竞争也会影响一种形式的出现与否,如“X界”和“X坛”的竞争;此外,与句子不同,词汇层面的形式约定俗成性更强,只是合法还不够,能说或者能在语料中出现很重要。另外,简缩也会影响周遍性的鉴定,如“打X”中的X指某种违法犯罪活动,X多是单音节,涉及简缩,其选字规则不清楚,影响具体词的语义解读,如“打流”,从字面很难知道“流”代表的是哪种违法犯罪活动(注:实际上指流窜做案。);也影响规则的生成性,不知道该选哪个字来代表。

我们根据已经出现的字组提取规则,首先是基于平行的,然后才考虑是否周遍,在不能确定是否周遍的时候,提取出来的规则只能是平行规则。平行周遍规则可以生成全部合法的形式,平行不周遍规则可能会生成不合法形式,即便是符合周遍的字组,如果第一次在语料中出现,对于中文信息处理来说也是未登录词,未登录词并不关心那些不出现的形式,只关心那些刚出现的新形式,鉴于上述原因,我们对于新词的预测和提取是基于平行规则的,而不只是基于周遍规则,当然,基于周遍规则的预测准确率更高。

(二)新词的预测和自动提取

从理论上讲,符合字族语义、音节模式的字组都可以出现,但实际上有些很好的形式在实际语料中找不到,也就是说字族中存在许多空格。如:

X(乐器)+家:钢琴家、小提琴家、长号家、圆号家、*中号家、*短号家

“中号家”、“短号家”跟前面的字组平行,看起来是个很好的形式,却在实际语料中搜索不到,这并不表示它不合法,只是说它还处于隐性状态,但只要现实需要,就会显现,也就是说在“X家”这个字族中存在空格,这些空格或者说隐性形式一旦出现就成为新词。新词的预测与字族空格密切相关。字族是一个动态的开放系统,它在隐性的层面上,是对称的、整齐的,而在显性层面上,又是不对称、不整齐的,有许多空格。字族化的过程就是根据某条平行规则类推来填补字族空格、造新词的过程。字族中的空格和平行规则使得我们可以预测新词的产生。新词预测和自动提取的操作步骤如下:

1.创建一个备用的单位库,对单位的音节数、词性、语义类、简称、分布特征进行标注。

2.根据已经显现的字组来确定字族的平行规则。

3.根据平行规则要求从单位库中提取单位填补字族空格,得到一个预测词表。

4.把预测词表中的词拿到文本中匹配,匹配成功,新词提取就成功;否则,提取失败。

之所以标注单位的这些属性是因为有些语义类比较常用,可以出现在多个字族模式中,“表示国家和地区名”的单位可以出现在“X化”、“X式”等字族模式中;之所以标注简称信息是因为很多新词的产生涉及简缩;分布特征包括“一点儿也不__”这样的分布位置,具体标注哪些分布位置就要看哪些分布位置是平行规则需要的。这种预测指出了新词显现的一种可能性,但是能否显现,要涉及语言外部(如社会文化条件)和语言内部(语言自身的调节、规则竞争)诸因素。第3步是计算机根据规则要求自动提取单位来填补,预测词表是自动产生的,在单位库未建立起来的时候,还只能是人工操作。

下面看几个预测的具体例子。

周洪波在1996年根据“女裁判”简缩为“女裁”,就预测“主裁判、足球裁判、游泳裁判、篮球裁判、排球裁判、乒乓球裁判”也可以简缩为“主裁、足裁、泳裁、篮裁、排裁、乒裁”。[12]75其实再根据对比类推,我们也可以类推出“男裁、副裁、边裁”,“主裁、副裁、边裁、足裁”2002年已经能搜索到了,“篮裁”当时还未搜索到,现在也能搜到了:

女裁-主裁、副裁、边裁、足裁、篮裁、泳裁、排裁、乒裁、男裁

王希杰在1996年认为,虽然“车程”出现了,在潜性语言中也有“机程”和“船程”这两个潜词,但是从语言系统内部看,在语言中已经有了“航程”一词,指的是飞机和轮船,它必然会阻止“机程”和“船程”的出现,这就叫做系统内的压力;从社会的角度看,人们也已经习惯了用“航程”,对于“机程”和“船程”的需要就不那么大了。[13]121而事实上,现在文本中已经有了“船程”,虽然“机程”没有出现,却出现了相应的词“飞程”:

车程-飞程(*机程)、船程

可见类推机制的力量是很强大的,不惜造成冗余。

“X星”指是某一领域的明星,如“影星、歌星、舞星”,其中起作用的是类比机制和简缩缩机制,据此可以类推预测“科技领域的明星”叫“科星”;从语义小类上说,各个体育项目中优秀的运动员也可以叫“X星”,如“泳星、球星”,据此预测跑步明星叫“跑星”、跳高明星叫“跳星”:

影星、歌星、舞星、泳星、球星-科星、跑星、*跳星

“跳星”到现在还没有出现,从这种显现和隐现关系可以看出,游泳、足球和跑步是人们比较关心的体育项目,而跳高则不太受关注。“跳星”能否出现在很大程度上决定于跳高运动的地位能否上升。1998年,欧阳骏鹏认为“X星”是偏正结构,其中的“X”是名词性的,“跑”是动词性,所以“跑星”是不会出现的。[1]44而我们知道,动语素也是可以做修饰成分的,“跑星”也可以是偏正结构,事实上,2001年我们在文本中也已经搜索到了“跑星”。

2001年笔者根据当时开始流行的“开吃、开拍”(开+单音节动作动词X)预测了下列词语:

开始吃饭-开吃

开始拍摄-开拍

开始喝酒-开喝

开始考试-开考

开始骂-开骂

开始打-开打

开始讲-开讲

然后拿这些词到百度网(www.baidu.com)搜索,都搜索到了,新词的自动发现和提取就成功了。当然也有失败的:

开始吸烟-*开吸

开始走-*开走

开始比赛-*开比

失败的原因可能是这种预测本身就是错误的,这个词根本不会显现,也可能是还没有到显现的时候。结果在2005年的百度网上,这些词都搜索到了,只是“开走”是“开始竞走”的意思。还发现X很多是从比赛项目名称来的,如“开跳”、“开跑”。

上面的预测有些是很成功的,成功的例子自然令人兴奋,它使我们看到新词的预测是可能的。当然,也有一些预测是失败的,但这并不能说明预测是不可能的,其中都有具体原因的,说明有些细节我们还没有考虑到,从这些失败的例子中,我们可以不断地总结经验教训,从而完善我们的预测机制。预测失败的很大一个原因在于简缩规则不清楚,如前面的“机程”之所以预测失败,是因为“飞机”简缩成了“飞”,而不是“机”。类似的简缩在字族中很常见。

新词的预测和自动提取可以用于未登录词的处理,在分词时加入预测词表,一个字串不仅要在常规词表中匹配,还要在预测词表中匹配,如“开吃”在常规词表中可能匹配不到,但在预测词表中就可以匹配到,提取出来。

自动提取基于预测词表,而预测又是基于平行规则的,因而自动提取的成功率在很大程度上取决于预测的准确率,平行规则的好坏。自动提取既是自动识别新词、提取未登录词的过程,也是检验预测和平行规则的过程。平行规则的提取以及简缩规则的研究是其中的关键和难点。

从平行规则的归纳到预测词表的建立,再到未登录词的自动提取,本文只是在理论上提供了一种可能的方案和思路,并进行了举例性地检验。这种方案是否具有比较强的可操作性和实用性,能否将之用于大规模语料的处理,还需要进一步检验。

标签:;  ;  ;  

汉字族与汉语未登录词的自动提取_单音节论文
下载Doc文档

猜你喜欢