基于语素数据库的汉语语素与构词研究(注:本论文由国家自然科学基金资助))_形容词论文

基于语素数据库的汉语语素与构词研究(注:本论文由国家自然科学基金资助))_形容词论文

基于语素数据库的汉语语素及构词研究(注:本文为国家自然科学基金资助项目。),本文主要内容关键词为:语素论文,汉语论文,国家自然科学基金论文,本文论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 汉语语素数据库

汉语语素数据库是清华大学在自然科学基金支持下建立的一个大规模数据库(参考文献1)。它对覆盖6763 个汉字的汉语语素及其所构二字词、三字词及四字词(参考文献4)进行了穷举描述。 在汉语语素数据库中共有汉语语素项17470个,语素10442个,二字词78230个, 三字词6700个,四字词14200个。整个数据库共有116600条记录。 二字词一般有两个语素构成,所以二字词数据库中存在着一些冗余信息。例如“定”这个语素项可以组词为“定单”,而“单”这个语素项也可以组词为“定单”,二者分别形成2条记录。为了研究方便, 我们可以把两条记录合并为一,三字词及四字词也有类似的情况。经过合并处理之后,二字词有45960条记录,三字词有3930条记录,四字词有4820 条记录。

在汉语语素数据库中,一个语素的一个义项(即语素项)构成一个独立的记录。

定义1:语素是音义结合的最小语言单位。 凡读音和意义完全相同而字形不同的,原则上作为一个语素。读音和意义中有一个不相同的,原则上作为两个语素。

定义2:语素项是指一个语素的一个义项(本义、 引申义或比喻义)(参考文献1)。

在汉语语素数据库中对汉语语素的特性主要进行了如下描写:

释义:是指该语素在该义项下(语素项)的意义(参考文献4)。

类别:是指语素的类别(素类),主要参照意义对汉语语素进行的分类。

成词:是指该语素项在短语或句子中能独立成词。

不成词:是指该语素项在短语或句子中不能独立成词,而只能作为构词成分。

半成词:是指该语素项有时在短语或句子中能独立成词,有时则不能。即一般该语素项不能独立成词,但在这样或那样的条件下可以独立成词。

不定位:是指该语素项在其所构词中的位置不固定,可前、可后、可中。前位(后位或中位),是指该语素项在其所构词中的位置是前位(后位或中位)。

语素所构词的描述,主要有词形、读音、词类、构词方式、类序、多义及字义组合等。

构词方式:是指语素以主谓、偏正、联合、述宾,述补等结构形式组成为词。

类序:是指由语素项所构词中各语素项素类的序列。如“打球”,其类序为vn。

多义:是指某词是否有多义。这里的多义是指词形、词类、构词方式和字义组合均相同的情况下仍存在一个以上的义项。

字义组合:用来描写词义与组词各语素项意义间的关系。如果词义是由组词各语素项意义组合而成的(如“恳求”),则此栏填“2”;如果不是(如“买东西”的“东西”),则填“0”; 如果介乎二者之间(如“火腿”、“大学”),则填“1”。

二 汉语语素的分布

经初步统计,覆盖6763个常用汉字的语素项共有17470个。 语素项归并为语素有10442个。其中单字语素有9712个,占总数的93.0%; 二字及二字以上的语素为730个,占总数的7.0%。由此可见单字语素占汉语语素的绝大多数。这部分语素是汉语构词中的活跃因素,二字及二字以上语素一般很少再组新词。在单字语素中还有1959个0义项语素, 这些0义项语素一般和其它语素构成的词是属于固定用法或典故, 即不归入任何一个义项而单独列出的词(参考文献4)。 难以确定这些语素在组词中的作用,难以断定它的构词方式。这类0 义项语素组成的词是汉语文化的历史产物。例如:0义项语素“瓦0”构词为“瓦全”、“弄瓦”等;0义项语素“外0”构词为“员外”等。

这些0义项语素对于我们研究汉语的构词规律, 难以起到什么作用。去掉这些语素后汉语的单字语素还有7753个。我们认为,研究这7753个语素对于揭示汉语的构词规律有直接的意义,因而我们称这些语素为基本语素。基本语素的素类分布如下表所示:

素项 名词性动词性 形容词性 副词性 介词性

数量 3612

2433 982

152 26

百分比46.7

31.4 12.7 2.0 3

素项 代词性连词性叹词性 助词性 象声词性

数量61

27 38 28

67

百分比 .8

.3 .5 .4

.9

素项 数词性量词性其它共计

数量45

157 125 7753

百分比 .6

2.0 1.6 100.

由以上可见,名词性语素最多,占46.7%,其次是动词性语素,占31.4%,形容词语素占12.7%,三类合计占总数的89.8%。在复合二字词中名词最多,占51%,其次是动词,占36.4%,形容词占7.6%, 三类合计占95%(参考文献3)。 基本语素的素类分布和复合二字词词类的分布大致相似,其原因留待下文来解释。

对7753个语素是否可以单独成词情况及成词时的位置情况统计如下:

位置任意 前位

后位 待界定 总计

成词

2407(31.1)

150(1.9)

67(0.9)

254(3.3) 2878(37.1)

不成词 1735(22.4)

841(10.8) 582(7.5)

137(1.8) 3295(42.5)

半成词

203(2.6)

171(2.2)

37(0.5)21(0.3)432(5.6)

待界定14(0.2)

4(*) 3(*)1127(14.5) 1148(14.8)

总 计 4359(56.2)

1166(15.0) 689(8.9) 1539(19.9)

(注:“待界定”是指工作人员在填写和校对工作单时对语素的某一特性难以确认,留待讨论决定。目前该项暂空缺;在括号内的数字表示百分比,如(31.0)表示(31.0%);(* )表示小于百分之零点一。)

从上表可看出,在汉语中能单独成词且在成词时位置任意的占大多数,共2407个,占总数的31.0%,其次是不能单独成词且在成词时位置任意的共1735个,占总数的22.4%。总之,汉语语素在成词时位置任意的占大多数。如前所述, 语素在成词时位置大多数是任意的。 但仍有1166个语素在成词时处于前位,占总数的15.0%,有689 个语素在成词时处于后位,占总数的8.9%。这些语素分布如下:

名词性动词性形容词介词性其它

处于前位384(5.0) 452(5.5) 229(2.3) 13(0.2) 115(1.5)

处于后位442(5.7) 129(1.7)

62(0.8)

1(*) 55(0.7)

通过对语素的上述统计分析,我们可以初步得到这样的结论,汉语语素素类的分布和汉语二字词词类的分布基本类似。名词性语素、动词性语素、形容词性语素占绝大多数。大多数汉语语素在成词时位置是任意的。

三 汉语中二字复合词的结构

在汉语语素数据库中,由语素构成的二字词共计有43097个, 其中名词有22016个,占51.1%,动词有15666个,占36.4%;形容词有3276个,占7.6%;三类词合起来占总二字词的95%, 也就是说占了绝大部分。研究这三类词的构词规律有着决定性的意义。

3.1复合词的构词方式统计

复合词的结构基本上和词组、短语、句子的结构一样,也存在着主谓、偏正、联合、述宾,述补等结构。对名词,动词,形容词构词方式的统计结果如表一所示,从中可以看出以三个明显特征:

(1)名词的构词方式以体素联合和定中偏正为主, 其中定中偏正占80.6%,体素联合占9.3%。二者共约占名词二字词总量的90%。

(2)动词以述宾、谓素联合和状中偏正三种构词方式为主, 它们各占39.7%、27.0%、23.3%。共占动词二字词总量的90%。

(3)形容词以谓素联合为主,占形容词二字词总量的62.5%。

表一

构词方式 名词 动词形容词

体素联合 2058

510

谓素联合

299 4252 2046

定中偏正 17752 0

164

状中偏正

242 3647

460

述 补 11 92725

量 补 34

0 0

述 宾 290 7134

165

主 谓 74 24393

述 介 0234

前 缀 38

5 0

后 缀 776 115

126

重 叠 54

13

126

简 称 29

130

数词缩语80 0

固定词组

230

38

41

未注标记

121 172

16

合 计

22016 15666 3276

3.2复合词的构词类序统计

在现代汉语中,“词根+词根”的复合式合成词在整个词汇系统中占有很大的比重。汉语没有形态变化,名、动、形容词性语素交错排列,组成各种类型。可以构成“名+动”,“动+名”,“名+形”,“形+名”,“动+形”,“形+动”,“名+名”,“动+动”,“形+形”共9种素性排列类型。表二给出了二字词的构词类序统计。 从表二可以看出:

表二

类 序

名 词动 词形容词

名+动 255 63120

名+形

90

20

160

名+名12583832

动+名 2559 5338

112

动+形

23 58470

动+动 218 701060

形+名 4630

43

129

形+动

93 1127

127

形+形 151

34 2205

其它类序总合 1414 871

361

总 计

2201615666 3276

(1)名词中绝大多数都是由名词性的语素参与构成, 而且这些名词性的语素多数位于后面。例如“名+名”占57.2%,“形+名”占21%和“动+名”占11.6%。

(2 )复合动词绝大多数都是由表示动作行为的动词性语素参与构成的,而且多数动词都是由动词性语素按“动+动”(占44.7%),“动+名”(占34.1%)和“形+动”(占7.2%)构成。 词中的第一个语素是动词性的占多数。

(3)形容词的素性排列类型很集中,大多数是“形+形”(占67.3%)。

以上可以解释为什么语素的素类分布和复合二字词的词类分布有大致相同的规律。

3.3名词的构词规律

二字复合名词的主要构词方式为定中偏正和体素联合,合计约占二字复合名词的90%。在二字复合名词中,数量最多的是以“名+名”为类序的定中偏正结构,有10280个,占总数46.7%。 其次是“形+名”为类序的定中偏正结构,占总数的20.6%,再其次是“动+名”为类序的定中偏正结构和“名+名”为类序的体素联合结构。二字复合名词主要的构词特点是由两个名词性语素构成一个名词的情况为大多数,即类序“名+名”12583个,占57.2%。 再一个特点是两个语素构成一个名词而后一个语素是名词性语素的情况是绝大多数,占89.8%。在少数情况下,动词性语素和形容词性语素相互组合也可形成名词,如“捕快”、“动乱”、“跳高”(动+形)、“白描”、“大选”、“奇遇”(形+动)、“冲突”、“差使”、“打扰”(动+动)等。

3.4动词的构词规律

二字复合动词的主要构词方式为谓素联合、述宾和状中偏正,占总数的90.1%。主要的类序为:“动+动”(7010,占44.7%),“动+名”(5338,占34.1%),“形+动”(1127,占7.2%),合计占86.0%。 二字复合动词主要的构词特点为两个语素构成一个动词时两个语素中至少有一个动词性语素的情况占大多数。在其中,动词处于前一位置的又属多数,即“动+动”的谓素联合结构和“动+名”的述宾结构。在少数情况下名词性语素和名词性语素相互组合也可形成动词,如“针砭”、“砥砺”等,这种由两个名词性语素组成一个动词的情形是很少见的,约为总数的万分之五。还有名词性语素和形容词性语素组成一个动词的情况,如“远足”、“安心”(形+名)、“客满”、“病危”(名+形)、“珍重”、“错怪”(形+形)等。这种情况反映了语素性在组词时的演变。

3.5 形容词的构词规律

二字复合形容词主要的构词方式为谓素联合(2046,占62.5%),其主要的类序:“形+形”(2205,占67.3%)。其他类序如:“名+动”、“名+形”、“名+名”、“动+名”、“动+形”、“动+动”、“形+名”、“形+动”均可组成形容词,但数量较少。尤其是“名+名”情况最少。

四 语素在构成二字复合词时意义的转化

为了研究语素在构词时意义发生变化的情况,在汉语语素数据库中,对于每一个二字词,我们用“字义组合”数据段来描写这一特性。“2”表示二字词的意义是两个语素意义的组合,“0”表示词的意义已经发生了转化,不再是两个语素意义的组合,“1”是介于“2”与“0 ”之间的一种情况,即词的意义和两个语素的意义有关系但又不完全是两个语素意义的组合。为了找到二字复合词构词时意义发生变化的规律,对其字义组合特性进行了统计,结果如下表所示:

字义组合

0

1

2 未注标记

名词 220(1.0%) 2294(10.4%) 19328(87.8%)174(0.8%)

动词

31(0.2%)964(6.2%) 14596(93.2%) 75(0.5%)

形容词 22(0.7%)

369(11.3%)

2850(87.0%) 35(1.1%)

从表中明显可以看出:

(1)不管是名词、动词还是形容词,字义组合是“2”的都占绝大部分。也就是说语素在构词时,一般总是保持原来的意义不变,这也是语素的一个特点。

(2)从统计上可以看到, 只有很少一部分的语素在构词时意义发生了变化。

二字复合名词的意义与构成它的语素义完全不同的有220个词, 其中190个是表示事物的名称。其中有中药名如:柴胡、丹参、当归、 地黄、麦冬;动物名如:猫熊、蕲蛇、章鱼;植物名如:牛膝、三七、大蓟;物名如:麻将、扑满、条几;官职名如:尚书、太宰、秘书;地名如:澳门、内江、蓬莱;译名如:便士、基督、拷贝、拉美;还有一些固定用法,如:回禄(火灾)、陵迟(酷刑)、东床(女婿)。二字动词的意义与构成它的语素义完全不同的有31个词,它们大多是一些固定用法,是源远流长的中华民族文化的产物,如:姑息、落草、买帐、涂炭、挖苦、张罗等。二字形容词的意义与构成它的语素义完全不同的有22个词,也是一些固定用法,是社会约定俗成的产物。如:狼籍、糟糕、道地等。语素在构词时意义绝大多数保持不变,少数变化情况也是有规律可循。这使语素可以在未登录词处理的研究方面起很大的作用。

自然语言的词汇随着人们的实践和社会的需要不断地变化发展,旧词的转义,新词的产生,使得不论机器可读词典的规模如何扩大,也终究不能覆盖输入文本中出现的全部单词。汉语中语素基本上是一个封闭集,具有长时间的稳定性。对汉语语素的大规模描写,完全有可能建立一种有效处理汉语未登录词的独特方法,而且这项工作对汉语词法学和语素学的研究,对汉语的计算语言学研究不无裨益。

标签:;  

基于语素数据库的汉语语素与构词研究(注:本论文由国家自然科学基金资助))_形容词论文
下载Doc文档

猜你喜欢