基于树库的现代汉语短语分布考察,本文主要内容关键词为:现代汉语论文,短语论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
短语是现代汉语重要的一级语言单位。汉语学界对短语的研究相当深入,但以往的研究通常是依语言学家的语感。詹卫东(2000:17-19)曾对现代汉语的短语结构规则进行了全面和系统的研究,其研究虽然使用了少量的语料,但主要依据是语言学家的直觉。汉语短语研究定量的研究分析仍然不足。目前,很多中文信息处理系统需要量化的研究成果。例如,现代汉语自动句法分析。一种分析方法是自底向上的:一般是先由词到句法结构,也就是首先组合成短语,再由短语和短语组合成更高一级的句法结构。比如分析句子“香港基层组织积极推广基本法。”
图1 句法分析示例
在自动句法分析中,机器通过访问机器词典可以得到某个词语的语法功能。现代汉语的词语不过数万,我们可以把绝大多数词语收入机器词典。如图1所示的例子,机器词典中可以存放“基层”和“组织”两个词,并存放有“基层”可以做定语、“组织”可以做定语中心语的信息,机器据此把“基层组织”归约为定中短语,那么“基层组织”这个短语实例的语法功能又是什么呢?不同于词汇,短语实例是一个开放的集合,短语数量是无限的,我们不可能把所有短语实例都收入机器词典。问题就出现了:在自动分析中,机器如何确定一个短语实例的语法功能呢?设想有如下方法:1)短语实例的语法功能等同于短语类型的语法功能;2)短语实例的语法功能等同于短语核心词的语法功能;3)综合上面两种方法或其他的计算方法。我们希望能够解决的问题是:短语实例的语法功能和哪些因素关系最密切,能否用简单的方法确定一个短语实例的语法功能。
2 我们的考察方法
2.1 统计方法
语料库语言学给出了新的方法,通过对大规模语料的统计,以统计数据来分析语言事实。本文通过对大规模语料库的统计来研究短语的语法功能。
2.2 语料资源
本文的研究使用清华大学建设的汉语树库(以下简称清华树库或树库)。有关清华树库的详细介绍,可以参看周强(2004)。清华树库规模比较大,有100万词,而且对每个句子做了比较细致的句法标注。本文根据研究需要自行编写了计算机程序进行统计和分析。
2.3 本文所考察的短语类型和语法功能
树库中共有16种句法结构,本文选择其中的6种:主谓结构(ZW)、述宾结构(PO)、述补结构(SB)、定中结构(DZ)、状中结构(ZZ)、介宾结构(JB)。选择这6种结构的原因有两个:
1)在汉语短语的结构分类问题上,究竟划分出多少类,语法学家们的观点并不一致,但本文上面选择的6种是多数学者赞同的。
2)这6种结构出现频率相当高。本文统计到树库中所有层次大于等于2的结构实例的总次数为480818例。(注:层次仅为1的结构实例在语料库中通常是文章章节标题,对研究词的语法功能是有价值的,但与本文这里考察结构的语法功能并没有关系,所以没有计入总数。以下统计与此相同。)文考察的6种结构实例总计396632例,占总数的82.49%。参照陈小荷(2002)在划分词类时定义语法功能的方法,本文把语法功能定义为出现在结构中的哪个位置。如出现在主谓结构中第一个位置,就是可以做主语,具有充当主语的语法功能。这样本文共得出11种语法功能:主语、谓语、述语1、述宾语、定语、定语中心语、状语、状语中心语、述语2、补语、介宾语。没有包含介宾结构的第一成分,这是因为根据本文的统计,这一成分绝大多数是由单个词直接充当的,由短语充当的仅有9例。
清华树库共设计了11种句法功能标记:名词短语、时间短语、处所短语、动词短语、形容词短语、区别词短语、副词短语、介词短语、数词准短语、数量短语、单句句型。在统计结构的语法功能时,本文忽略功能标记,把不同功能标记但结构标记相同的结构认为是同一结构,如np-DZ、mp-DZ都归为DZ结构。下文将对短语结构类和短语功能类进行统计与分析。
3 结果分析
3.1 短语结构类的语法功能分布
本文在前面确定了11种语法功能,各种结构可能具有除此之外其他的各种语法功能,本文首先统计了某一结构充当11种语法功能的总次数,然后统计该结构的总出现次数。这样本文就可以得到结构作为所考察的语法功能的出现次数占结构总出现次数的比例。
表1 11种语法功能的出现比例
表1中主谓结构11种语法功能的出现比例偏低,这是因为主谓结构的成句能力强。数据表明本文所选择的11种语法功能是6种结构的主要语法功能。
把某一结构充当某一语法功能的次数除以该结构充当11种语法功能的总次数就得到了表2。如果使用频率来估计概率,可以认为某一结构充当某一语法功能的概率在数值上等于这个数量比例值,下同。分析表2可以得到以下结论:
表2 6种结构充当11种语法功能的比例
1)每一种结构都有多种语法功能,其中PO、SB、ZZ具有全部11种语法功能,ZW、DZ、JB也具有9种语法功能。
2)不同结构的语法功能分布不同。介宾结构的语法功能最集中,大多数(91.14%)做状语。定中结构的语法功能分布比较分散,虽然做定语、定语中心语、述宾语、主语占到了出现次数的89.85%,但是做这四种语法功能的频率相差比较小,尤其是前三种语法功能的频率非常接近,不利于机器在自动分析中确定一个定中结构的短语实例的语法功能。
3)语法学家把定中结构归入名词性短语(或称体词性短语),理由是经常充当主语和宾语,作用相当于名词,本文的统计数据验证了这一点。DZ结构做主语和宾语的比例达到了40.56%。另有49.26%充当了定语或定语中心语,这实质反映了定中结构的递归嵌套,表明约有一半的定中结构是由两层的定中结构组成的。
4)状中结构做谓语的能力最强。通常认为主谓结构经常做谓语,本文的统计显示主谓结构直接做谓语的比例只有10.29%,而约有三分之一强的主谓结构直接做状语中心语。主谓结构可能会以状语中心语的身份间接做谓语。
在自动句法分析中可以借助于结构类充当每种语法功能的概率来确定短语实例的语法功能,但是每种结构都具有多种语法功能,有些结构如定中结构充当4种语法功能的概率相差不大,需要寻求其他方法来解决。
3.2 短语功能类的语法功能分布
使用与考察短语结构类的语法功能公布类似的计算方法,得到表3。下面分析统计数据,兼与詹卫东(2000:17)所确定的汉语短语功能分类及典型功能描述表做一个对比。
表3 短语功能类充当11种语法功能的比例
1)关于vp短语,本文的统计结果表明其所充当的语法功能依次为状语中心语、谓语、述语1、定语。这四种功能的比例总计为66.42%。统计结果表明做述语1、述语2的比例偏低,只有8.55%、0.48%,另在树库中调查得知述语1、述语2通常是由词语直接充当的,短语很少充当述语1、述语2(比例不足10%)。
2)关于ap短语,统计表明其所充当的语法功能依次为谓语、定语、状语中心语、状语、补语、述宾语、定语中心语。这七种功能的比例为74.79%。通常认为ap短语的典型功能之一是做述语2,但是统计表明做述语的比例低,仅有0.3%。值得关注的是ap短语做宾语、定语中心语却分别有3.44%、1.41%。
3)关于pp短语,统计结果表明其做定语、状语中心语的比例高达5.65%、1.22%。
4)关于sp短语,詹卫东列出的典型功能是述宾语,统计表明其充当述宾语的比例为18.50%,但是充当介宾语的比例高达24.05%。
5)关于np短语、mp短语、mbar短语(数词短语)、dp短语,统计结果与詹卫东的拟定结果基本一致。
统计数字表明,短语功能类在反映短语的语法功能上比结构类有更强的统计规律。能否因此认定使用功能类比使用结构类确定短语实例的语法功能效果更好?其实不然,使用这种方法,句法分析器首先需要把短语实例标记为一个功能类,这一过程几乎等同于判定它的语法功能。虽然语法功能类表现了较强的统计规律,却难以应用。
3.3 使用短语核心词确定短语实例的语法功能
上文统计数据表明,多数短语类的语法功能比较分散,仅仅依靠短语类的语法功能来确定一个短语实例的语法功能效果并不好。上文提到,对于向心结构的短语,还可以考虑短语核心词的语法功能。实际效果会如何呢?下文以定中结构为例通过统计来考察核心词在确定短语实例语法功能中的作用。
抽取树库中的np-DZ短语实例34708条,然后选择出现次数大于1的(绝大多数短语只出现了一次),并且仅充当本文考察的11种语法功能,有4421条。短语实例可能不止一种语法功能,本文把第i条短语实例的出现次数最多的那种语法功能记为Fd(i),Fd(i)的出现概率,记为PFd(i)。第i条短语实例的核心词在树库中出现次数最多的那种语法功能记为Fz(i),Fz(i)的出现概率记为PFz(i)。如果Fz(i)=Fd(i),就认为使用短语实例核心词估计短语实例的语法功能正确了一次,记R(i)=1,反之,R(i)=0。这样就得到了核心词准确率的计算公式:
核心词准确率
例如,第13条短语实例“物质基础”,总出现次数为14,出现次数最多的语法功能为定语中心语,共12次,记Fd(13)=定语中心语,出现概率PFd(13)=12/14=0.8571。核心词“基础”在树库中出现360次,出现次数最多的语法功能是定语中心语,340次。记Fz(13)=定语中心语。Fz(13)=Fd(13),所以R(13)=1。PFd(13)R(13)=0.8571。数据表明,如果用最大概率法估计短语实例的语法功能,对树库语料做封闭测试,使用核心词“基础”估计所有短语实例“物质基础”的语法功能,其准确率为0.8571。
另外,我们综合结构类和核心词的语法功能分布信息来估计短语实例的语法功能,计算概率和准确率。核心词的各语法功能的出现概率与np-DZ结构类的对应语法功能的出现概率逐个求和,概率和最大的那个语法功能,记为Fh(i)。短语实例的Fh(i)的出现概率记为PFh(i),R(i)的定义与核心词准确率公式中的R(i)相同。
概率和准确率
例如“基础”做定语中心语概率为0.8571,np-DZ类做定语中心语的概率为0.3035,定语中心语概率和为0.8571+0.3035=1.1606;“基础”做述宾语概率为0.1316,np-DZ类做述宾语的概率为0.2921,述宾语概率和为0.1316+0.2921=0.4237;以此类推,计算出所有语法功能的概率和。对“基础”而言,概率和最大的是定语中心语概率和1.1606。记Fh(13)=定语中心语,PFh(i)=0.8571。本例中,使用核心词方法和概率和方法得到的结果一样。
计算得到,核心词准确率为35.69%,概率和准确率为35.82%。以短语结构来估计短语实例的语法功能,按照最大概率法,所有的np-DZ短语实例的语法功能都应该标为定语中心语,准确率为34.32%。结果表明综合考虑核心词和结构的语法功能效果最好,单纯以核心词估计次之。仅依靠短语结构的语法功能来估计效果最差,但是三者差距并不大。
4 余论
本文的研究表明,按现有的现代汉语短语的分类体系,无论是结构类标记还是功能类标记都只能在一定程度上反映短语的语法功能,各语法功能概率值差距小给自动消歧带来困难。仅仅依靠短语的类标记来进行自动句法分析效果不会令人满意。对短语实例的语法功能研究表明,考虑的语言知识越丰富,准确率也越高。提高自动句法分析水平,不仅要研究算法,更要研究自动句法分析究竟需要哪些知识,各类知识的作用有多大。语言资源建设可谓是任重道远。
本文的研究尚有以下不足:只调查了6种结构,另有一些结构,如兼语结构、连谓结构没有涉及;每一个结构没有针对其内部组成的不同而细分类。如定中结构可以区分是否带连接词“的”;核心词的语法功能分布、结构的语法功能分布、结构实例的语法功能分布三者之间的关系仍然需要全面细致的研究。