基于依存树库的现代汉语“ X+于”结构的计量研究
姜茜茜,钱佳瑜
(浙江大学外国语言文化与国际交流学院, 浙江杭州310058)
[摘 要] 现代汉语中“X+于”结构使用广泛,在句子中经历了语法化过程。而其中的“于”字经历了词汇化,逐渐由介词转变为类词缀,继而转变为词缀。本文通过采集《人民日报》新闻并基于依存语法构建依存树库,对现代汉语中的“X+于”结构句法功能以及“X+于”结构中的“于”的词汇属性进行了计量研究。研究发现,“X+于”结构在句中作动词占比最高,且“X+于”结构中“于”字可以是介词也可以是不起介引作用的类词缀或构词词缀,并从韵律特征和配价增值的角度进行了虚化可能原因分析。
[关键词] 现代汉语;依存树库;词汇化;计量研究
在古汉语和现代汉语中,“于”字均占有一席之地。现代汉语中“于”字既可以作实词,又可以作虚词,在不同语境中词性变化丰富。“X+于”作为和“于”字使用相关的重要结构形式,具有研究价值。此前研究大多集中在介词“于”或“于”字句的探讨,尤其是对古汉语作品中“于”字的研究。关注“于”作为词缀和类词缀组成经典结构“X+于”的研究相对较少,鉴于“X+于”在现代汉语中得到普遍使用,本文抽取了2018年1月至10月的《人民日报》新闻语料中的十篇新闻,基于依存语法构建依存树库对现代汉语中的“X+于”结构句法功能以及“X+于”结构中的“于”的词汇属性进行了计量研究。
在目前制剂是可以自主定价的情况下,为了实现患者利益、医院利益的相统一,制剂的定价仍必须在成本的基础上进行,因此,建立制剂成本的预测体系,对制剂生产、定价随时提出预警,为制剂精细化管理及决策提供依据,是制剂财务管理的重要方向。
一、现代汉语中“于”与“ X+于”研究文献综述
现代汉语中,“于”的功能主要传承自古汉语中的介词功能,可以介绍处所、时间等对象。学界已在有关“于”字及其相关结构的研究上取得了丰富的成果。龚娜认为,“X+于”中的“于”可以是类词缀,也可以是词缀[1]。“于”字经历了语法化的过程,从实词逐渐变为虚词,再由虚词逐渐虚化为词缀。她发现为数众多的“X+于”之间的共时差异实际上是历时变化的投影[2]。在动词到介词的发展过程中,“于”字被认为“作为非终结动词在连动结构或兼语结构中由‘语义降级’转变成介词”[3]。金昌吉将动词虚化放入整个语言发展过程中,将其认为是一种语言的分工和调整。虚化整个过程是动态的,有中间状态的,“X”与“于”之后的成分在结构和语义上有一定联系[4]。本文试图基于新闻语料从依存语法的角度对现代汉语中的“X+于”结构进行分析,旨在回答以下问题:(1)现代汉语“X+于”结构的句法属性和功能如何?(2)现代汉语“X+于”结构中“于”字的词汇属性如何?(3)现代汉语“X+于”结构中“于”字虚化原因为何?
二、研究方法
本研究采用基于依存语法构建的依存树库对现代汉语中“X+于”结构进行计量研究。其语料来源于2018年1月至10月《人民日报》所报道的相关新闻。作为中国正式的官方媒体,《人民日报》的用语具有规范性、普遍性和正式性的特点,能够较好地代表和反应现代汉语的特点和用法。本研究收集的新闻语料涵盖了要闻、社论、经济和文化四个方面,近23万字,语料涉及的范围较为全面,内容较为多样。本研究首先使用AntConc软件对收集语料中的“X+于”结构进行了检索,在剔除“于是”、“终于”等不属于本研究范围的结构后,对所有包含“X+于”结构的句子进行了提取。之后,本研究利用Stanford Parser软件对所有包含“X+于”结构的句子进行依存关系的标注,从而建立一个依存树库。该树库的格式为电子表格,包含每个词的词性、依存关系并可以计算依存距离。刘海涛概括了依存语法中依存关系的主要属性:依存关系是二元的,即它是一种两个元素之间的关系;它是不对称的,即在关系的两个元素中,一般而言,一个元素会支配另一个元素,这是构成依存句法树层级体系的基础[5]。具体情况如下图:
图1 句子“他是一个学生”的依存结构分析图
三、数据分析
(一)基于依存树库的“X+于”句法功能的计量分析
本研究通过AntConc软件从收集的语料中共提取出445个“X+于”结构,其中“X+于”结构在句子中作动词的有311个,作介词的有121个,作副词的有13个(见图2)。由此可见,在现代汉语中,“X+于”结构作动词的比例最高。
图2 “ X+于”结构属性的频率分布
(2)动词配价增值
表1 词性为动词的“ X+于”句法功能的分类频率及例句
以上结果表明,词性为动词的“X+于”结构在句中作谓词和分句谓词的频率高于做定语、补语和状语出现的频率。
而121个词性为介词的“X+于”结构的句法功能比较单一,其中以“关于”为代表的“X+于”结构与其他成分组成介词短语从而充当名词定语这一句法功能的频率最高;其他“X+于”结构在句子中做状语的数量次之,具体情况如表2所示。
“X+于”作副词时,仅有“过于”、“将于”和“至于”三种形式,并且它们在句中的句法功能都是状语,修饰中心词,依存关系为ADVA。
(二)“X+于”结构中“于”的词汇属性研究
在“于”做词缀的“X+于”结构中,有许多“X”为一价形容词,即只能带一个论元的形容词,如:“忠”、“善”、“勇”、“低”等。这些形容词一般只能带一个论元。但是大部分的此类形容词不单独出现。当一个形容词充当谓语,必须通过添加补语来丰富信息表达。所以这些一价形容词和不起介引作用的“于”字结合后,可以带两个论元,添补的“于”字就改变了原来形容词的配价能力,使其能够多带一个补语,这一过程为配价增值。
表2 X+于”结构句法功能、分布频率及例句
互信息值(Mutual Information)概念较早见于Fano(1961)发表的有关信息论的论文“Transmission Information”,互信息被作为衡量两个信号关联程度的尺度。某一个词语串的贡献频率越高,说明该词语串结合越紧密,成词的可能性越大[7]。计算互信息值(MI)是衡量“X+于”结构中“于”与“X”结合紧密度的一个方法。
b.如此温暖的问候来自 祖国的边疆战士。
图3表明,“X+于”结构中,“于”字做介词用数目最少,只有33个,而“于”做词缀用的数目最多,还有96个为类词缀。由此可见,“X+于”结构中的“于”字是按介词、类词缀和词缀这一过程逐渐虚化的。
本研究通过AntConc软件对所收集的语料进行词频统计,又通过Excel进行计算,分别得到了“X(单音节)+于”结构和“X(双音节)+于”结构的互信息值。
结果表明“属于(7.12)”、“忠于(6.99)”、“勇于(6.17)”、“低于(5.83)”、“处于(5.37)”、“由于(5.31)”等的MI值较高,这说明,字串中两个字的结合比较紧密,“于”在这些结构中已经内化为词的内部成分或词缀。而“亚于(1.75)”、“快于(1.67)”、“等于(-0.56)”、“长于(-0.63)”、“设于(-0.85)”、“生于(-1.17)”等词的MI值较低,说明“于”和前面的“X”成分结合度不高,“于”的属性有待进一步考察。而“X(双音节)+于”结构的统计结果表明,“有利于(18.83)”、“工作于(18.47)”、“致力于(18.36)”、“适用于(17.73)”、“无助于(17.47)”、“分布于(17.26)”等字串的MI值较高,说明字串中三个字的结合度较高,成词的可能性较高。但是由于互信息值只是检测字串结合度的一个方法。并且本研究所涉及的语料数量和范围都有限,所以计算出的MI值只能作为判断“X+于”结构中“于”属性的一个方面,还需结合具体语义继续进行判断。在句中,有的“X+于”结构去掉“于”,其句子依旧成立且语义不变。通过计算“X+于”结构的互信息值并结合语义判断,本研究将所收集语料中“X+于”结构中的“于”字按介词、类词缀和词缀进行了分类统计,统计结构如图3所示。
图3 “ X+于”结构中“于”字属性及分布频率
P (X )表示汉字X 在整个文本中出现的频率,P (Y )表示汉字Y 在整个文本中出现的频率,而P (XY )表示汉字X 和汉字Y 在整个文本中同现的频率。
(三)“X+于”结构中“于”字虚化研究
基于前人的研究,本研究主要从韵律特征和依存语法中的配价理论等角度出发,对“X+于”结构中的“于”字虚化进行研究。
1.韵律特征
许多学者认为结构的重新分析和韵律因素是于变成词缀的原因。常琛认为“于”成为词缀最根本在于韵律,表现形式是结构重新分析。“X+于”是一类合成词,“X”一般为单音节动词,在这一过程中相当一部分单音节动词逐渐与“于”复合成词,符合汉语词汇复音化趋势[8]。本文采得的语料中“善于”和“趋于”等词都是复音节词的例子。最开始的结构“V+于宾语”,“于”和后面的宾语结合较紧密。在双音化过程中,“于”向前面动词靠拢,满足双音节规律,此时短语的结构为“V于+宾语”,“于”在这个阶段完成了语法化,作为词缀出现。例如此句中的“X+于”结构:
例1.在高度竞争的交通出行市场,任何“得罪”消费者的举动,都无异于 拉低自身的实力与口碑。
当“X于”中的X为双音节词,而其后所接受事成分受事性质不断增强时,“于”逐渐失去意义,“X+受事成分”这一结构为人所接受,例如:
例2.a.如此温暖的问候来自于 祖国的边疆战士。
两个字串的互信息值计算公式为:
北疆某大坝位于额尔齐斯河第二大支流哈巴河,工程所在地多年平均气温为4℃,极端最高气温36.4℃,极端最低气温-40℃。工程由拦河大坝、泄洪、引水建筑物及地面厂房等主要建筑物组成;大坝为砼面板堆石坝,拦河坝为1级建筑物,溢洪洞、深孔泄洪洞为2级建筑物,发电洞及电站厂房为3级建筑物。水库正常蓄水位752m,总库容2.32亿m3,调节库容1.43亿m3。
(1)形容词配价增值
2.配价增值
配价理论起源于依存语法。配价是词的一种根本属性,广义的配价是指词具有的一种和其他词结合形成更大的语言单位的能力,这种能力是一种潜在的能力,它在语句中受句法、语义和语用等因素的约束;狭义的配价指动词等词类要求补足语的能力。根据配价理论,本研究认为配价变化是产生现代汉语“X+于”结构中“于”字词汇化现象的一个原因。
慢性支气管炎是常见的呼吸系统病变,临床症状以咳嗽、咳痰为主,起病缓慢,病程长,病情反复性明显,晨起或夜间休息时症状加重,严重时可出现肺动脉高压甚至是肺源性心脏病,对患者身心健康与生活质量构成极大影响[1] 。为进一步探讨治疗慢性支气管炎的有效手段,我院对收治的部分患者予以阿奇霉素联合左氧氟沙星疗法,具体研究情况如下。
在这个例子中,b句中“于”字的消失并不影响阅读者对句子语义的理解,实现了“于”字的完全虚化。本研究认为汉语词汇的韵律特征是导致现代汉语“X+于”结构中“于”字语法化或者虚化现象的原因之一。
近期(8月13日-8月17日),中国化肥批发价格综合指数稳中小幅上行。8月20日中国化肥批发价格综合指数(CFCI)为2166.14点,环比上涨11.13点,涨幅为0.52%;同比上涨255.75点,涨幅为13.39%;比基期下跌212.73点,跌幅为8.94%。
本研究从所收集的语料中提取出的“X+于”结构,“X”有双音节,也有单音节。在这些结构中,“于”的属性和用法并不相同。“于”大体沿着介词→类词缀→词缀这一过程进行虚化。为详细探究“于”在“X+于”结构中的虚化过程,所以本研究采取定量与定性相结合的方法对“X+于”结构中的“于”字进行分类统计。
胡坤宏等[25]通过快速沉淀法制备出球状MoS2,并以其对聚甲醛进行改性,所得到的复合材料较市售二硫化钼改性的聚甲醛而言,耐擦伤性能及润滑减损性能有了较大程度的提高。然而,从树脂复合材料的透射电镜(如图3所示)中可以看到,球状MoS2在树脂基体中呈现出了一定的团聚状态,分散性能有待提高。
例3.5年来,各自由贸易试验区认真贯彻党中央决策部署,锐意进取,勇于 突破,工作取得重大进展。
例4.习近平总书记在重要讲话中,对青年提出了希望和要求:忠于 祖国、忠于 人民。
310个作动词用的“X+于”结构的句法功能相对复杂多样,本研究参考了周明、黄昌宁[6],罗耀华[7]提出的现代汉语依存关系体系,将“X+于”结构的句法功能按照依存关系大致分为五类,“X+于”结构的这五类句法功能在本研究中出现的频率和具体情况如表1所示。
解析:A项,根据托盘天平的精确度,无法称量到5.85g固体,可以使用分析天平或电子天平进行称量,错误。B项,没有950mL的容量瓶,要选择大于950mL的容量瓶,应选择1000mL容量瓶,正确。C项,容量瓶使用前应检查瓶口的塞子处是否漏水,错误。D项,实验过程中出现加蒸馏水时不慎超过了刻度线,实验失败,应重新配制,错误。
在“X+于”结构中,“X”也常常是动词词成分,如“工作”、“分布”、“生活”、“受益”等等。这些动词往往是一价动词,只能带一个论元。但与“于”字结合后,变为二价动词,可以带两个论元。
该中心的口腔医学专家认为,咬到舌头只是他患上舌癌的起因,但不巧的是病人有饮酒的习惯,即使是在舌头被咬破后,酒也没断过。而烟酒、辛辣刺激的食物会导致口腔黏膜发生变异。
再如ITT水印计划(现在叫Xylem水印计划),就是公司从2008年到2013年投入1050万美元,为发展中国家,主要是拉美国家及中国和印度提供学校安全饮用水、卫生设施以及青少年健康教育,在全球希望有300万人受益。Xylem水印计划目前在中国已经做了18所学校,涉及河北、江苏、云南、内蒙古,计划到2013年扩大到50所,在国内的投资将达到125万美元。
例5.温泉蛇均生活于 青藏高原海拔范围为3500-4400米的地区。
女儿在法国上中学和小学,每门课都很出色。对于成绩好的学生,学校的老师都希望上大学时选择理科。女儿却偏偏选了文科,并且还选了最冷门的图书专业。老师要我试着说服女儿攻读理科,并且还要推荐她进名牌高校。当我向她提及老师所说的,将来文科的出路恐怕不乐观之时,女儿却反问我,你不是常常告诉我们:“要以读书为乐,不要为了功利吗?”
例6.一线城市受益于 庞大的消费市场。
上述例子表明,“于”字在“X+于”结构逐渐虚化的过程中会对之前的实词产生影响,具体表现为词性的改变,从而促使该结构能够支配的补足语增多,利于表达的丰富性。
四、结语
本研究基于依存语法构建的依存树库对选自2018年1月至10月《人民日报》上的新闻中“X+于”结构进行定量和定性的分析。研究发现,在445个“X+于”结构中,作动词的比例最高,有311个,其次是介词,有121个,副词13个。作动词用的“X+于”结构的句法功能相对复杂,可以是谓词、从句谓词、“的”定语、补语和状语。通过计算“X+于”结构的互信息值和语义属性,本研究发现“X+于”结构中的“于”字作词缀的有316个,类词缀96个,而介词仅有33个。从而可以看出“于”字大体是沿着介词→类词缀→词缀这一过程进行虚化。本研究从韵律特征和配价增值的角度对“于”字虚化进行了探究。为满足双音节规律,“于”字逐渐向前面的词靠拢,这一过程的结果就是“于”字的语法化,“于”字的介词功能衰退,开始作为类词缀或词缀出现。其次,许多单音节的形容词或不及物动词通过和“于”字相结合完成了配价增值,从可以携带一个论元变为可以携带两个论元。
[参 考 文 献]
[1]龚娜.“X于”结构的句法分析[J].语文学刊(教育版),2011,(21):53-55.
[2]龚娜,罗昕如.“X于”结构的语法化[J].湖南科技大学学报(社会科学版),2011,(2):123-126.
[3]张旺熹.汉语介词衍生的语义机制[J].汉语学习,2004,(1): 1-11.
[4]金昌吉.谈动词向介词的虚化[J].汉语学习,1996,(2):13-18.
[5]刘海涛.依存语法的理论与实践[M].北京:科学出版社,2009.
[6]周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,(3): 35-52.
[7]罗耀华.介词并入“X+于”类结构的词汇化研究[J].长江学术,2016,(4): 107-118.
[8]龚娜.对现代汉语“X于”结构性质的再认识——以韵律特征分析为切入点[J].现代语文(语言研究版),2012,(2):67-69.
[中图分类号] H109.4
[文献标志码] A
[文章编号] 1008- 5823( 2019) 05- 0071- 04
[收稿日期] 2019- 02- 25
[作者简介] 姜茜茜(1996-),女,浙江大学外国语言文化与国际交流学院在读硕士研究生,主要从事依存语法、计量语言学、二语习得研究。
[责任编辑:白彩霞]
标签:现代汉语论文; 依存树库论文; 词汇化论文; 计量研究论文; 浙江大学外国语言文化与国际交流学院论文;