双音节复合词内部语素的词性标注与统计分析_形容词论文

双音节复合词内部语素的词类标注和统计分析,本文主要内容关键词为:语素论文,复合词论文,词类论文,统计分析论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      复合词在汉语词汇体系中居于主导地位,其内部结构历来是学界关注的焦点。前人对复合词的分类、统计和分析不少,但往往依据自省,词类的判断缺乏一致性。为了更加深入地研究汉语复合词,本文以《现代汉语词典》(第5版)为标准,以其收录的所有单词性双音节复合词为对象,对复合词内部语素的词类进行全面的标注,并从复合词的内部语素组合、词类分布、中心词三个方面统计分析复合词的构词规律。

      一、汉语复合词结构的已有研究

      前人主要从内部语法结构和中心词两个方面对汉语复合词的结构进行研究。

      1.1 复合词的内部结构

      1.1.1 复合词内部结构的分类

      学者们根据复合词内部语素的语法关系进行了不同的分类:

      黎锦熙(1962)制定了一个“复音词类构成表”,把汉语复合词分为“合体”、“并行”、“相属”三个大类。合体的复合词又细分为双声(如“参差”)、叠韵(如“依稀”)、其他(如“葡萄”)和特有名词(如“诸葛”)四小类:并行的复合词再分为同义(如“身躯”)、对待(如“左右”)和重叠(如“常常”)三小类;相属的复合词分为名名(如“狗熊”)、动名(如“行人”)、形名(如“淑女”)、动动(如“催眠”)、动副(如“晒干”)、形副(如“不良”)、副副(如“否则”)、带词尾或词头(如“石头、阿母”)等八小类。

      赵元任(1948)将复合词分为六类:主谓(如“地震”)、并列(如“贵重”)、主从(如“香料”)、动词宾语(如“放学”)、动词补足语(如“打到”)和单词性复合词(如“吃饱”)。

      Chao(1968)认为,大多数的复合词与句法结构一致,并把复合词的结构分为主谓(如“天亮”)、并列(如“灯火”)、主从(如“热心”)、动宾(如“动身”)、动补(如“养活”)五大类。

      陆志韦(1957)将复合词分为九种结构类型:多音的根词(如“玻璃”)、并立(如“弟兄”)、重叠(如“哥哥”)、向心修饰(如“淑女”)、后补(如“红透”)、动宾(如“写字”)、主谓(如“心焦”)、前置成分(如“第三”)和后置成分(如“桌子”)。

      周祖谟(1959)将复合词分为六种:偏正式(如“雪白”)、联合式(如“土地”)、支配式(如“动员”)、补充式(如“说明”)、表述式(如“地震”)、重叠式(如“渐渐”)。

      丁声树等(1961)根据构词方式把复音词分为六种:并列式(如“人民”)、偏正式(如“淑女”)、动宾式(如“动员”)、动补式(如“证明”)、主谓式(如“霜降”)、附加式(如“包子”)。

      《现代汉语词典》(第5版)(下称《现汉》)把合成词定义为:“两个或两个以上的词素构成的词。合成词可以分为两类:由两个或两个以上词根合成的词叫复合词;由词根加词缀构成的叫派生词。”(其中“词素”即“语素”)依此定义,黎锦熙(1962)分类中的“合体”复合词和陆志韦(1957)的“多音的根词”实为双音节单语素词,而非复合词。“附加式”、“前置或后置成分”、“带词头或词尾”的复合词实际上是派生词。而且,“重叠式”可以并入“并列式”。因此,目前学界普遍把复合词分为五类,即偏正式、联合(或并列)式、述宾(或动宾)式、述补(或补充、动补)式和主谓式(或陈述)。

      1.1.2 复合词内部语法结构的统计和分析

      依据上述分类方法,一些学者利用不同语料对现代汉语复合词内部的语法结构进行了统计和分析(戴昭铭1988、张登岐1997、沈怀兴1998、沈怀兴1998、卞成林2000、周荐2005等)。详见下表l所示:

      

      从表1可以看出,尽管各类复合词所占数量的排序基本一致,但是其所占的比例却相差较大。我们认为,造成这一结果的原因可能是复合词的内部结构不易明晰,而各位学者对复合词内部结构的判断都是依据自省的方法,也就缺乏一致性。比如,“目睹、人造、民主”等词,有的学者认为是主谓式,而另一些学者则认为是偏正式。

      1.1.3 复合词内部语素组合的统计和分析

      周荐(1995)分析了《现代汉语词典》(第2版)中的32346个双音节复合词的语素组合:定-中偏正式复合词可分为n+x、a+x、v+x三小类;状-中偏正式复合词除“逆序”类外,可分为n+x、a+x、adv+x、v+v四小类;支配式复合词主要有v+x、a+x、n+x三小类;补充式复合词有v+结果、v+趋向、v+状态三类:陈述式的复合词有x+v、x+a两类;并列式复合词有n+n、v+v、a+a、adv+adv、方位+方位、数量+数量六类;重叠式有四类:n+n、v+v、a+a、adv+adv。周文只是粗略地对复合词的语素组合进行分类,也没有统计各类组合所占的比例。另外,周文的分析不够全面,如所有词类都可以构成并列式复合词,而不是只有六类;“数量+数量”一类应该分为“数+数”和“量+量”两类;重叠式复合词还有“量+量”组合。

      苑春法、黄昌宁(1998)以10442个语素的属性描述为基础构建了汉语语素数据库,统计发现,在7753个基本语素中,名词性语素最多,占46.7%;其次是动词性语素,占31.4%;形容词语素占12.7%,三类合计占总数的89.8%。在该数据库中由语素构成的二字词共计43097个,其中名词占51.1%,动词占36.4%,形容词占7.6%,三类合计占95%。基本语素的素类分布和复合二字词词类的分布大致相似。这三类二字复合词的构词规律各不相同。名词复合词的构词方式以偏正和联合为主,各占80.6%和9.3%,共约占90%;名词绝大多数都是由名词性语素参与构成的,而且这些名词性语素多数位于后面,其中“名+名”占57.2%,“形+名”占21%,“动+名”占11.6%。动词复合词的构词方式以述宾、联合和状中为主,各占39.7%、27.0%和23.3%,共占90%,动词复合词绝大多数都是由动词性语素参与构成的,第一个语素是动词性的占多数,其中“动+动”占44.7%,“动+名”占34.1%,“形+动”占7.2%,合计96%。形容词复合词的主要构词方式为谓素联合(占62.5%),其主要的类序是“形+形”(占67.3%),其他类序如名+动、名+形、名+名、动+名、动+形、动+动、形+名、形+动,均可组成形容词,但数量较少。绝大多数语素在构词时意义保持不变,只有很少一部分语素在构词时意义发生了变化。但是,以上分析只限于名词、动词、形容词的前三种语素组合的比例,没有分析其他词类的语素组合以及各种语素组合的词类分布。

      Huang(1997)对《国语日报词典》中的23986个双音节复合词进行了统计分析。这些复合词只有三种词类,名词12738个,动词8350个,形容词2898个;主要有九种词类组合:NN组合7021个,NV组合824个,NA组合377个,VV组合4071个,VN组合4881个,VA组合560个,AN组合3177个,AA组合1684个,AV组合996个,未知组合315个。NN组合中,名词为6910个,动词21个,形容词90个;NV组合中,名词306个,动词446个,形容词72个;VV组合中,名词276个,动词3730个,形容词103个;VN组合中,名词1581个,动词2940个,形容词198个;AN组合中,名词2961个,形容词198个,动词不确定;AA组合中,名词163个,形容词1609个,动词不确定。这些数据存在两点疑问。其一,这些组合是否全部属于名、形、动三大词类。而据我们的研究,这些组合中有许多副词或其他词类,如“乘时”(VN)、“独立”(AN)、“眼见”(NV)、“生来”(VV)等均可作为副词。其二,有些组合的总数与前面的单项总和一致,另一些则不一致。我们猜测其中有一些是兼类词,但是“名名”、“名动”组合也有兼类词(如“笔记”、“笔录”、“板书”等),这些组合的总数却是单项的总和。而且,有些组合没有明确的数目。因此,其数据的准确性不得而知。

      此外,有些学者就某一语素组合的复合词进行了统计研究。比如,吴为善(2007)、石慧敏(2013)分别统计分析了双音节述宾结构和动结式复合词的语素组合度高低及其层级分布。杨吉春(2008)讨论了反义复合词内部语素间的语法和语义结构关系。韩容洙(1998)对双音节“V+N”结构的语义进行了分类研究。

      1.2 复合词的中心词

      除了从复合词内部的语法结构和语素组合探讨其构词规律之外,学者们还从复合词中心词的角度分析其内部构造。

      Bloomfield(1933)依据复合词与其内部成分的关系把复合词分为向心(endocentric)和离心(exocentric)构式两大类。所谓向心构式,就是指整个结构同内部某个成分的类别(form-class)相同,此内部成分就是中心词(head);如果结构同任何内部成分的类别不相同,该结构就是离心结构,也就没有中心词。根据这一理论,许多学者对汉语复合词的中心性(headedness)进行了讨论。

      赵元任(1968)认为并列结构与从属结构复合词的区别在于,并列结构中每个构词成分都是中心,而从属结构中只有第二个成分是中心。

      戴昭铭(1988)统计发现,《现代汉语词典》(第2版)收录的20065个合成词中,构词语素与合成词同属词类的有16708个,占总数的83.27%;构词语素与合成词不属同一词类的有3357个,占总数的16.73%。可见,大多数合成词为向心结构。

      Huang(1997)统计了复合词中左、右语素与复合词词类相同的比例。(XN)n的比例为0.759,(XV)v的比例为0.822,(XA)a的比例为0.685,即复合词与右语素词类相同的比例平均为0.755;(NX)n的比例为0.898,(VX)v的比例为0.741,(AX)a的比例为0.317,即复合词与左语素词类相同的比例平均为0.652。依据统计结果,Huang认为同一语素组合的复合词,如VN、NV、NN等,可能是名词、动词甚至是形容词,因此汉语复合词的左、右语素都不能决定整个复合词的语法范畴,汉语复合词也就无中心词。

      Williams(1981)提出了复合词的“中心词右向原则”(the Right-hand Head Rule):复合词的中心就是其最右边的成分,无论是什么语言。Starosta(1998)持同样观点,并称汉语复合词是右中心的,不是右中心的词大多不是复合词。Packard(2001)通过对比汉语双音节复合词和其构词语素的语法范畴,提出了汉语复合词的“Headedness Principle”:名词的右语素是名词,动词的左语素是动词。

      Ceccagno & Scalise(2006)则把汉语复合词分为从属式复合词(subordinate compounds)、偏正式复合词(attributive compounds)和并列式复合词(coordinate compounds),认为汉语并列式复合词要么有两个中心词(如“爱恋、美丽”),要么无中心词(如“东西、开支”);偏正式复合词全部为右中心(right—headed)(如“天价”、“黑车”);动宾结构的从属式复合词(如“开刀、求全”)符合Packard的“Headedness Principle”,即复合名词为右中心,复合动词为左中心;其他从属式复合词均为右中心(如“心疼、胆小”)。

      Ceccagno & Basciano(2007)对《现代汉语词典》(第4版)中收录的1077个新词进行了统计分析。排除多音节词368个和非复合词37个,共得双音节复合词672个。统计结果为:最能产的是偏正式复合词294个(43.9%),其次是从属式241个(35.7%),最后是并列式137个(20.4%)。总的来说,80.8%的复合词属于向心构式(右中心47.8%、左中心17.8%、双中心15.2%),19.2%是离心构式。右中心复合词中,名词占85.7%,动词占14%而且全部是偏正式;左中心复合词全部是从属复合动词;双中心复合词中,70.6%是动词,21.6%是名词,其余7.8%是形容词;离心构式的复合词中,29.4%是从属复合词,50.4%是偏正复合词,20.2%是并列复合词。

      总之,无论是从复合词的内部结构还是从其中心词的角度,国内外学者对汉语复合词的结构做了深入的探讨,取得了很多有意义的成果,但是对复合词内部语素的词类划分和语法结构的判断均依据自省的方法,缺乏一致性,有些研究还缺乏充足的语料,因此研究的结果也不够全面或不够准确。

      《现代汉语词典》(第5版)对词条做了全面的词类标注,为分析复合词内部语素的词类提供了统一的标准。不过,自《现代汉语词典》出版以来,尚未发现有人对复合词内部语素的词类进行过全面的标注和统计。本文以《现代汉语词典》收录的所有单词性双音节复合词为对象,以《现代汉语词典》为标准对其内部语素的词类进行全面的标注,并据数据统计探讨复合词内部语素的组合规律。

      二、双音节复合词内部语素的词类标注方法

      《现汉》所收的65000余个条目中双音节合成词有42165个,约占65%。其中单词性条目(如“看见”:动词)33824条,多词性条目(如“学习”:动词、名词)8341条。我们首先对单词性条目进行标注和统计,具体步骤如下:

      (1)为避免重复统计,去掉相同词条,如“宿敌”同“夙敌”,只计“夙敌”;“搀兑”见147页“掺兑”,只计“掺兑”。

      (2)去掉拟声词,如“嗷嗷”、“吧嗒”等。

      (3)去掉音译词,如“安培”、“盎司”等。

      (4)联绵词、姓氏、其他专有名词等双音节单语素词,不予统计,如“斑斓”、“窈窕”、“端木”、“诸葛”、“贝勒”、“铵根”、“白术”、“丘八”等。

      (5)《现汉》对成词语素标有词类。可以依据《现汉》直接确定单词性成词语素的词类,如“甩”字有三义,皆为动词。

      (6)多词性成词语素的词类则需依据《现汉》的释义和例词加以判定。下面以“笼罩”为例,说明此类复合词的标注。

      “笼”字有两种读音,《现汉》分列两个词条:

      “笼”(1óng):

      1)

笼子:竹~。

      2)旧时囚禁犯人的刑具:囚~。

      3)

蒸笼:小~包子。

      4)

把手放在袖筒里:~着手。

      “笼”(lǒng):

      1)

笼罩:暮色~住了大地。

      2)笼子(lóng·zi):箱~。

      “罩”字,既是动词又是名词:

      “罩”(zhào):

      

      “笼罩”的释义为:

      “笼罩”:

像笼子似的罩在上面:晨雾~在湖面上。

      结合《现汉》的释义和例词,可以确定“笼罩”一词为“名+动”偏正结构。

      (7)《现汉》未标注词类的单字条目大致有两类:一类是既不单用、又无意义的非语素字,如“玻、蝴、啡、踟”等;另一类是文言文中的名词、动词、形容词或在现代汉语中还未成词的语素(参看《现汉》凡例)。第一类构成的双音节单语素词,已被排除。《现汉》对第二类语素则继承了前几版的做法。虽未标明词类,但通过释义和例词来暗示其词类(徐枢、谭景春2006)。如“观”字有三义,皆未标注词类:

      “观”(guān):

      1)看:~看;

      2)景象或样子:奇~;

      3)对事物的认识和看法:悲~。

      根据释义可以看出1)为动词语素,2)、3)为名词语素。

      (8)如果依据未成词语素的释义和例词仍无法确定其词类,则参照其同义语素或同义语素组合的词类。如“哀”有三义:

      “哀”(āi):

      1)悲伤;悲痛:悲~|~鸣。

      2)悼念:~悼|默~。

      3)怜悯:~怜|~矜|~其不幸。

      依据释义和例词可以判断2)、3)为动词语素,而1)则难以断定。其同义语素“痛”的释义和例词为:

      “痛”(tòng):

      1)

疾病创伤等引起的难受的感觉:头~。

      2)悲伤:悲~|哀~。

      3)

尽情地;深切地;彻底地:~击|~骂。

      “哀痛”、“悲痛”、“悲哀”《现汉》皆标注为形容词,因此均属“形形”组合,而“哀悼”、“哀怜”《现汉》标注为动词,均属“动动”组合。

      (9)除名词、动词、形容词外,《现汉》对文言文中的其余词类进行了标注,但有漏标的现象。我们依据此类单字条目的原始义进行标注,如“寻”字被标为“量词”,而“常”字只提供其衍生义,而未提供其原始义:

      “常”(cháng):

      1)一般;普通;平常:~人。

      2)不变的;固定的:~数。

      3)

时常;常常:~来~往。

      4)指伦常:三纲五~。

      5)(名)姓。

      依据“常”的原始义(古代八尺为“寻”,倍寻为“常”),我们把“寻常”标为“量量”组合。

      (10)如果依据上述方法仍无法确定其词类组合,则通过查阅古代文献来求证。如“学”字既是成词语素又是非成词语素:

      “学”(xué):

      1)

学习:~技术|勤工俭~。

      2)

模仿:他~杜鹃叫。

      3)学问:治~|才疏~浅

      4)指学科:数~|物理~

      5)学校:小~|大~|上~。

      6)

姓。

      尽管依据释义可以看出3)、4)、5)为名词语素,但是“学校”一词的语素组合还是难以断定。《辞源》(2009)提供了以下解释:

      《孟子·滕文公上》:“设为庠、序、学、校以教之。……夏日校,殷日序,周曰庠,学则三代共之。”“学校”之称本此。

      由此判断,“学校”是“名名”组合,而不是“动名”组合。

      三、语素词类标注统计结果分析

      经过标注的单词性双音节合成词共计32097条,排除添加前、后缀的派生词749条(如“老弟”、“矮子”),得到复合词31348条。以下具体分析。

      3.1 复合词的语素组合

      双音节复合词共有82种语素词类组合,根据出现率依次为名名、动名、动动、形名、形形、名动、形动、副动、动形、名形、数名、副形、代动、副副、名量、介名、代名、动量、数动、形量、动副、动介、量量、动助、连连、数量、量名、代形、动数、连动、数数、介动、形助、名数、数形、动代、副助、介形、副连、代副、代代、助动、形介、副量、副名、量动、数副、形数、副代、连名、介介、助助、形代、形连、副数、代量、连代、名副、名助、动连、代连、代数、叹叹、名连、名介、介副、介代、助名、形副、副介、代助、连形、连量、连助、叹动、拟名、名代、介量、介连、介数、数介、数助等。其中最常见的10种组合所占比例见表2所示:

      

      结果显示,10种词类均参与构词,但双音节复合词绝大部分是由名、动、形三大词类相互组合而成。

      董秀芳(2011)认为双音词有三个主要来源:一是从短语变来,这是双音词最主要的来源;二是从句法结构固化而来;三是由本不在同一句法层次上而只是在线性顺序上相邻接成分变来。我们的统计结果支持这一论断。

      根据我们的统计,10种词类均可重复组合,如“名名”、“动动”、“形形”、“副副”等,共16770条,占53.5%,多于周荐(1995)6种和沈怀兴(1998)9种。其中重叠词124条(0.4%),共有5小类:“名名”(如“人人”)、“动动”(如“闪闪”)、“形形”(如“惶惶”)、“副副”(如“仅仅”)和“量量”(如“本本”)。这些语素组合基本上是从短语词汇化而来。“动名”、“形名”、“名动”等语素组合约占40%,大多是从句法固化形成的。不在同一句法层次上的语素组合,如“名副”(如“日渐、势必”)、“副名”(如“不日、就地”)、“动介”(如“至于、在乎”)、“名连”(如“实则、位于”)等,数量极少。正如赵元任(1968)所说,复合词的结构大多与句法结构一致。

      3.2 复合词的词类分布

      双音节复合词共有11种词类。具体分布见表3:

      

      从表3可见,名、动、形三大词类共占97.88%,加上副词共占99.32%,其余词类只占0.68%。三大词类的比例与苑春法、黄昌宁(1998)的数据基本一致,说明语素的词类分布和复合词词类的分布大致相似。考察这四类复合词的内部词类组合规律具有代表性的意义。据统计,双音节复合名词共有39种语素组合,复合动词有36种语素组合,复合形容词有29种语素组合,复合副词有47种语素组合。下表4-7分别列出了四大词类中最常见语素组合的数量和比例。

      

      由表4可见,在复合名词常见的语素组合中,前三种语素组合的比例与苑春法、黄昌宁(1998)的结果基本一致。

      除此之外,我们还发现复合名词基本上由名词性语素参与构成,而且名词性语素在复合名词中大多居右。

      

      前三种语素组合的比例同样接近于苑春法、黄昌宁(1998)的数据。复合动词基本上也是由动性语素参与构成,但动词性语素大多居左。

      

      “形形”组合的比例(55.8%)略低于苑春法、黄昌宁(1998)的67.3%,但同样是复合形容词最主要的构词方式。复合形容词大部分由形容性语素参与构成,而且形容性语素居右居左的数量相差不大。

      

      复合副词是语素组合最为复杂的一类。与上述其他三类不同,副词性语素参与构词的比例比较低,其最主要的构词方式不是“副副”组合,而是“动名”组合。

      我们还考察了最常见的复合词内部语素组合的词类分布,从统计数据可以发现,“名名”组合基本上是名词;“动名”组合大多是动词或名词;“形形”组合基本上是形容词;“动动”组合主要是动词;“形名”组合基本上是名词或形容词。可见,复合词与其某一构成语素的语法范畴基本上一致。统计结果不支持“汉语复合词无中心词”的说法(Huang 1997)。尽管有少数例外,但是复合词的构词语素基本上能够决定整个复合词的语法范畴,也就是说,绝大部分的复合词都有中心词。详见下表8所示:

      

      3.3 复合词的中心词

      汉语复合词的中心性程度有多大?是右中心还是左中心?尽管从语义上,Bloomfield(1933)对“中心词”的定义存在很多争议,但是为了便于与前人的研究结果进行比较,我们采用与复合词的语法属性相一致的构词语素即其中心的观点。通过统计复合词中左、右语素与复合词词类相同的比例,考察复合词左、右中心性的程度。结果见表9所示:

      

      上表9显示,如果右语素是名词,75.7%的复合词也是名词;如果右语素是动词,88.5%的复合词是动词,形容词和副词右语素的中心性程度也比较类似。可见,大部分的右语素与复合词的词类相一致,各词类的中心性程度差别不大。相反,各词类左语素的中心性程度有所不同,即如果左语素是名词,90.5%的复合词是名词;动词的比例为77.1%,而形容词和副词分别只有29.1%和17%。上述现象表明,右语素的中心性程度(0.797)高于左语素的中心性(0.534)。这与Huang(1997)的统计结果基本一致。

      为了考察复合词向心和离心结构的比例,我们比较了复合词与其内部语素的名、动、形、副等主要词类的数量。详见下页表10所示:

      

      从表10可以看出,名、动两类复合词基本上属于向心构式,大部分的形容词也属于向心构式,而副词则大多数属于离心构式。近95%名词的右语素(即中心词)是名词,基本符合Williams(1981)提出的“中心词右向原则”和Packard(2001)的“Headedness Principle”;83%动词的左语素是动词,只有63%动词的右语素是动词,不符合“中心词右向原则”,对“Headedness Principle”来说,也有很多的例外;68%形容词的右语素是形容词,20%副词的右语素是副词,都不符合“中心词右向原则”。可见,Williams(1981)的“中心词右向原则”可能适用于英语复合词,但不适用于除名词以外的汉语复合词。

      本文以《现代汉语词典》(第5版)为语料来源和标准,对汉语单词性双音节复合词进行了词类标注,在数据统计的基础上分析了复合词内部语素组合的一般规律。研究发现,复合词内部语素组合共有82种;所有词类都参与构词,但绝大部分复合词都是由名、动、形三大词类相互组合而成;除副词复合词外,复合词与其某一语素的语法范畴基本一致;名、动两类复合词基本属于向心构式,大部分的形容词复合词也属于向心构式,而副词复合词的内部语素组合最为复杂,大多属于离心构式。

      正如黎锦熙(1955)所说,考察复合词的结构可以从两个角度进行,一是语素的词类组合,二是语素的语法关系,两者应当是统一的,能补正彼此的缺点。在分析复合词内部语素词类组合的基础上,我们将进一步探讨各种语素组合的语法关系和语义关系。多词性双音节复合词内部语素的词类标注和统计分析也将另文探讨。

      本文为汉语复合词结构的分析提供了大量新数据,并与前人的研究进行比较,指出了前人的一些不足。利用这些数据,可以进一步研究双音节复合词的跨类表现特征、并列复合词的素序规律、复合词的中心性等问题。

标签:;  ;  ;  

双音节复合词内部语素的词性标注与统计分析_形容词论文
下载Doc文档

猜你喜欢