基于规则的汉语句子语义倾向计算,本文主要内容关键词为:汉语论文,语义论文,句子论文,倾向论文,规则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
文本语义倾向(semantic orientation)的计算近年来受到学界的广泛关注。相关的研究通常试图解决四个方面的问题:(1)区分一个语言表达式是主观的还是客观的,即主客观分类;(2)确定一个主观性语言表达式的语义倾向,即语义倾向判别;(3)测量一个主观性语言表达式的语义倾向强度,即倾向强度计算;(4)识别与语义倾向有关的倾向持有者(holder)和倾向对象(object),即关联元素识别。
语义倾向计算的现实基础是语言具有主观性。“主观性”是说话人在言语中表现出来的立场、观点、态度、情感等“自我”的印记,它借助一定的语言手段通过一定的语言形式得以实现。语言的主观性是与客观性相对而言的,言语交际中既有叙述、说明和描写人、物、事件等的客观性表达,又有传达说话人自我判断、感受、评价、意愿等因素的主观性表达。语言具有主观性的特质,使得人们可以开展与主观性有关的各种研究,也使语义倾向计算成为可能。
语义倾向计算的可行性依据是Osgood等(1957)提出的语义差异理论。Osgood等(1957)进行了词义量化的心理学实验,基于语义空间概念从向量的角度来表示人概念化词义的方式,发现评价是对词义产生影响的最简单可辨的因素,且易于测量;运用“一致”概念描述多个词语在意义上的相互作用,即共现的词语在倾向和强度上具有“联合”和“解离”的对立关系;指出“两极性”是语义差异的基本特征之一,词义在两极(正向极和负向极)之间完美对称这种数学上精密的构想在心理学上并不成立。语义差异理论为语义倾向计算提供了心理学上的可行性依据。
基于上述现实基础和可行性依据,本文采用基于规则的方法对汉语句子的语义倾向计算进行研究,以期在一定程度上解决从既有文本中获知言语交际主体的主观性信息这一问题。需要说明的是,本文讨论的内容不包含对语义倾向关联元素的识别。
2.相关工作
当前语义倾向计算通常在词语、句子和篇章三个语言层级上展开,运用的主流方法有两种:基于语义的分析方法和基于机器学习的分类方法。基于语义的方法本质上是一种基于规则的方法,它视词语为语义倾向的最小载体,较大语言单位主观性表达的语义倾向由较小单位的语义倾向组合而成,原则上可以通过带符号的算术运算逐级得到不同大小语言单位的语义倾向。基于机器学习的分类方法是一种基于统计的方法,它把语义倾向分析看作一类特殊的文本分类,技术的关键是采用合适的机器学习算法以及选择有效的文本特征。目前学界大多采用基于机器学习的方法,其特点是技术手段较为成熟,在受限领域内性能表现良好。
同基于机器学习的方法相比,基于规则方法的语义倾向计算有其自身的优势。第一,它符合人类思维和解析语义倾向的基本模式,能对人的这种认知方式进行模拟,尤其是模拟语境对语义倾向产生的影响。第二,诸如支持向量机(support vector machine,SVM)的机器学习模型对训练语料的依赖性较大,它们在所训练的领域表现良好,但如果同一个分类器用于其他领域,其性能将大大下降。领域的通用性差几乎是这类模型的一个通病。基于规则的方法则具有更强的领域通用性,不同领域在表达语义倾向上存在的差异一般不会对这种方法的分析结果带来太大的影响。第三,如前所述,语义倾向计算涉及多项子任务,类似SVM的分类方法在子任务的结合处理上效果往往不佳,而基于规则的方法则能将多个相关任务很好地结合在一起完成,如把语义倾向判别和倾向强度计算合并为一个复杂任务,设置其输出结果为一个带正负号的数值,其中正负号表明语义倾向类别,数值则指示倾向强度。第四,虽然机器学习方法善于处理分类任务,但对于分类的单位(即分类对象在语言层级体系中所属的类别)而言,是宜大不宜小的。在句子甚至更小的单位上进行分类,基于机器学习的方法仍然面临着很大的挑战,而自底向上、层层推进的规则方法则能很好地在小单位上胜任分类及相关分析工作。
基于规则方法的语义倾向研究已取得一定进展。早期人们利用连词的特性来推断被连接在一起的两个词语的语义倾向(Hatzivassiloglou and McKeown 1997);后来又选用典型的褒、贬种子词来分析目标词语的语义倾向(Turney 2002)以及基于词典和上下文规则的策略来计算句子和篇章的语义倾向(Ding,et al.2008;Taboada,et al.2011)。在汉语方面,邹嘉彦等(Tsou,et al.2005)、朱嫣岚等(2006)、李钝等(2008)、王素格等(2009)、党蕾、张蕾(2010)、赵妍妍等(2010)提出了各种分析和处理汉语主观性文本语义倾向的方法。然而,这些工作也存在一定的局限。一是规则的系统化、深入化程度仍嫌不足;二是对文本中既有的各种语言特征的利用还不够充分,在句子层面很少借助句法关系来解决复杂形式的语义倾向计算问题;三是对语言主观性表达的基础性研究相对薄弱,相关的基础资源较为匮乏,人工标注的情感词典极少。本文的研究在上述提及的几个方面有所加强。
3.语义倾向及其主要性质
一般而言,语义倾向指对人、物、事件所持有的赞成或反对、褒扬或贬抑、肯定或否定的态度、立场或观点。从更广义的角度看,也包括倾向主体自身积极或消极的心理状态,即喜怒哀乐等情感。通常把语义倾向分为正面、负面、中立三个类别,用1表示正面倾向,-1表示负面倾向,0表示中立倾向。这种对立体现了语义差异的两极性。
语义倾向具有程度差异。这种程度是一种主观量,是语言主观性在量范畴上的表现。常说的“高、中、低”是对程度差异一种粗糙的描述,这种三标度法的刻画能力仍可以不断增强至更为细致的五标度法(高、较高、中、较低、低)、七标度法(极高、高、较高、中、较低、低、极低)等,直至用数值来代替等级。
语义倾向具有可组合性。这里有两层意思,以句子“王后长得非常漂亮,但她很骄傲自负,嫉妒心极强”为例说明。其一,一个完整的语义倾向表达式有三类组成成分:核心成分、修饰成分和关联成分。核心成分主要是词和一部分结合紧密、使用稳定的短语,它们是负载语义倾向的最小单位,具有不可再分性,如句中的“漂亮、骄傲、自负”等;句法上修饰核心成分且对其倾向程度产生加强或减弱影响的成分称为修饰成分,主要是程度副词和否定词语,是影响语义倾向的重要因素,如“非常、好、很”等;用来关联多个核心成分或修饰成分的成分称为关联成分,它们大多是关联词语,如“(虽然)……但……”。核心成分、修饰成分和关联成分可以进行有限组合,并共同决定一个具有语义倾向的主观性句子的最终语义倾向值,如“(虽然)非常漂亮但很骄傲(和)(很)自负、(但)嫉妒心极强”共同决定了例句的整体语义倾向值。其二,不同大小语言单位的语义倾向可以进行逐级运算,较大语言单位的语义倾向值是其所有组成成分语义倾向值的加权和,如小句“但她很骄傲自负”的语义倾向值由“但她很骄傲”和“但她很自负”组合而成,其内部两个组成部分的权值取决于它们之间的语义关系。运算的顺序从单个的词或短语开始,依次提升至更大的短语、小句,直至句子。运算时以核心成分为中心,以包含单个核心成分的语义倾向表达式为基本单元,通过不断合并多个基本单元的方式得到句子的整体语义倾向值。
词语的语义倾向具有多义性,这是由词语的多义性造成的。如果一个词语(如“骄傲”)的多个义项具有不同的语义倾向,那么它的语义倾向具有不确定性,这时往往需要根据特定的语境,进行“歧义”消解。由此,处理词语的语义倾向“歧义”问题,成为语义倾向计算中的一项必要任务。
词语的语义倾向有静态和动态的区别。所谓静态指词语的词典义所表现出来的语义倾向,具有凝固性和共识性的特点;所谓动态则指词语在语境中所体现的语义倾向,它可能与其静态语义倾向一致,也可能不一致。语言中语用手段的使用使得语义倾向计算变得异常复杂,如一个不含任何语义倾向词语的句子也可以表达某种倾向,一个含有正面语义倾向词语且不含否定词语的句子可以表达负面倾向。如何有效解决词的动态语义倾向的计算问题,是目前面临的一个挑战。
4.基于规则的句子语义倾向计算
4.1 基本思路
基于上述认识,我们形成如下主要观点:(1)语义倾向具有可测量性;(2)词是表达语义倾向的最小单位;(3)语义倾向具有可组合性,语言单位的语义倾向值是其组成成分语义倾向值的加权和,不同大小语言单位的语义倾向值可以逐级求得;(4)语境对语义倾向的表达具有较大影响。
据此,确定基于规则的汉语句子语义倾向计算的基本思路为:首先对输入的句子进行分词、词性标注和依存句法分析等基本处理;然后利用句法分析结果,结合语义倾向词典及其附加词典等词典资源,依次根据分类规则、识别规则、合并规则和计算规则(调用消歧规则),逐步完成主客观分类、语义倾向判别和语义倾向计算等任务;最后求得句子的语义倾向值。处理流程如下页图1所示。
4.2 资源准备
基于规则的句子语义倾向的计算,依赖于一部预先编制好的语义倾向词典和若干附加词典。语义倾向词典收录词典中具有语义倾向的词和部分结合紧密、使用稳定的短语。出于计算的需要,每个词条项目除了词性等基本信息外,采用人工方式标注了语义倾向值。语义倾向词典的作用,主要是进行主客观分类,并为核心成分提供具有语感证据和明确区分度的语义倾向值,其结构信息规划如表1所示:
附加词典包括修饰词典、关联词典和消歧词典。其中,修饰词典用来处理修饰成分,关联词典用以处理关联成分,均由人工编制和标注;消歧词典则用于语义倾向“歧义”的消解,先从搭配语料库中自动抽取搭配和共现词语实例,再经人工筛选完成。附加词典的结构信息规划如表2-4所示:
目前已经完成的词典资源的基本情况见表5,消歧词典仍在不断扩充。限于篇幅,所有词典的设计、加工和验证拟另文讨论。词典资源的准备为后续工作奠定了基础,本文的实验结果反过来也证实了这些词典的可行性和可用性。
4.3 规则制定及说明
分类规则对倾向性句子和非倾向性句子进行分类。现有的分类规则主要利用语言形式特征如词语(是否倾向词语)、词性、标点符号等来完成分类任务,其中最重要的特征是词语。
识别规则对各种语义倾向成分进行识别。识别规则又可进一步分为三个小类,即语义倾向核心成分的识别、修饰成分的识别以及关联成分的识别。由于各种成分已经编入相应的词典,规则中的主要动作即是对词典的查询和对查询结果的标注。
计算规则对句子的整体语义倾向程度进行计算,以合并后的语义倾向单位为基本的计算单位。根据合并结果,对于每一个基本计算单位,存在两种可能的计算类型:单位内部的语义倾向程度计算(如表6中的例1、例4)和单位之间的语义倾向程度计算(如表6中的例2、例3)。单位内部的计算主要依赖于句法分析的结果,不同类型的句法结构需要制定不同的规则,以符合语义倾向表达的实际情况;单位之间的计算则主要利用语言形式上的特征,如关联词语、标点符号等,来判定多个单位之间的句法语义关系,从而制定相应的规则。
先说单位内部的计算规则,主要涉及如何处理修饰成分和核心成分的结合问题。这里重点讨论两类修饰成分:程度副词和否定词语。
程度副词是现代汉语副词的一个小类,一般修饰形容词和心理动词,在句中充当状语,使用频率较高。基于倾向性标注语料库的统计数据表明,每10个核心成分中约有1个受到程度副词的修饰(杨江2011:94)。程度副词又分为相对程度副词和绝对程度副词(王力1985:131),但在语义倾向分析中,宜以量级的差别来考察其与所修饰的核心成分的关系。由此,将程度副词分为语义倾向加强型和减弱型两类,按照量级的差别赋予相应的百分比值,表示其对所修饰成分的影响力(见表2、表5)。计算规则为,由程度副词修饰核心成分所构成的语义倾向单位,其语义倾向程度值为核心成分的语义倾向值与程度副词对其的影响值之和,用公式表示为:
否定词语在语义倾向计算中不容忽视。据统计,超过7%的核心成分被否定词语所修饰(杨江2011:94)。否定词语对核心成分的影响,是它常常颠倒所修饰核心成分的倾向性,使正面倾向变为负面,或使负面倾向变为正面,如“没有成功、不赞成、绝非恶意”等。然而对否定词语的处理并非如此简单,就目前我们的认识,至少应考虑两个方面的问题:
一是否定词语的光杆与非光杆形式的区别。修饰成分中仅有一个否定词语的情况称为光杆形式,含有多个否定词语或者是否定词语与程度副词连用的情况称为非光杆形式,如“很不高兴、不很高兴、不是很高兴”。“很不、不是很”属于左向结构,即后面的副词先修饰中心语,然后再一起受前面副词的修饰(张谊生2000:212)。“不很”是形容词否定级次的一种表现,所表达的言外之意与语表形式相比有一个质的变化,具有一定的整体性(谢晓明、王宇波2006:134),因此“不很高兴”所要表达的意义不是“高兴”的程度不高,而是“有点难过”的意思,是说话人的一种委婉说法。
二是否定词语所修饰的核心成分的主观小量和主观大量的区别。拿“不合格”和“不优秀”来说,其中“合格”是主观小量,“优秀”是主观大量。否定主观小量,同时也就否定了主观大量,因此“不合格”是负面倾向;否定主观大量,不能排除余下的主观中量和小量,不能做“非此即彼”的二值语义转换,否则,“不优秀”将会等同于“恶劣”。
单位外部的计算规则主要依赖关联成分识别单位之间的关系。将关联成分之间的关系划分为四类:平行、选择、转折和虚拟。平行关系包含并列、顺承、解说、递进、因果关系,具有这种关系的语义倾向单位前后没有偏正之分,可以进行等权相加。例如:
选择和转折关系沿用原有的说法、与原有的意义相同。选择关系按未定选择和已定选择分别处理:具有未定选择关系的语义倾向单位,如果倾向性一致,则整体倾向程度为部分倾向程度的平均值,如果倾向性不一致,则整体倾向程度为0(即中立倾向);具有已定选择关系的,只计算表“取”义单位的语义倾向,而忽略表“舍”义的单位。例如:
转折关系按“前转”和“后转”作加权处理:前转的为居前的语义倾向单位赋较高权值(如0.8),居后的赋较低权值(如0.2);后转的则反之。例如:
虚拟关系包含一般所说的条件、假设、目的关系,表达的往往不是现实意义上的语义倾向,需要特别处理。限于篇幅,规则的详细内容不一一列举。
消歧规则对在语义倾向上具有多义性的核心成分(如“骄傲”)进行“歧义”消解。基本的思路是采用基于消歧词典搭配/共现实例的方法;同时为了克服所有的搭配和共现词语不可能被全部记录和抽取出来的困难,利用语义知识词典(“同义词词林扩展版”)动态地扩大常规搭配/共现词语的规模,算法上则采用一般的词义相似度计算公式,此处不赘述。消歧规则在计算规则运行时调用。
5.实验结果及讨论
实验从汉语倾向性标注语料库中抽取400个句子,来自记叙文、说明文、抒情散文和议论文4种不同文体,其中倾向句360个,非倾向句40个。
评测标准,即每个句子由人工评定的带符号的语义倾向程度值,由标注人员预先给定。评测以正确率为指标,正确率定义为:当实验的输出结果与评测标准的正负号相同且它们的值差范围在一个等级内(即[-0.2,0.2])时,认为正、负面语义倾向程度计算结果正确;当实验结果与评测标准相等(即均为0)时,认为中立语义倾向计算结果正确。
实验的输入为经过依存句法分析(使用哈尔滨工业大学社会计算与信息检索研究中心开发的“语言技术平台LTP”)的句子,输出为一个带符号的数值,表示该句子的语义倾向程度值。表7列出了实验的结果数据。
进一步得到句子语义倾向分析的正确率:
正确率=系统计算正确的句子数/实验的句子总数×100%=78.25%
总的看来,实验结果基本达到预期目的,表明基于规则的句子语义倾向计算方法的可行性和有效性,但正确率仍不令人满意。正确率受多个因素的影响:一是人的语感与计算结果的差异,二是语义倾向词典及其附加词典的不完善之处,三是倾向性与非倾向句的识别性能,四是部分规则存在一定问题,五是依存句法分析错误导致的错误蔓延。例如:
(7)卷云和卷积云都很高,那里水分少,它们一般不会带来雨雪。
(8)大熊猫小的时候很活泼,喜欢爬上爬下。
(9)一听他要在自己整洁漂亮的小床上睡觉,就哭了起来。
(10)这是一个顶漂亮的城市!
例(7)被识别为倾向句,词语“高、少”均出现在语义倾向词典中,但这些词语在有的语境中确实具有倾向性,因而语义倾向排歧问题是应该着力解决的一个难点。例(8)的实验结果为+0.8,而评价标准给出语义倾向程度值仅有+0.5,说明有时候计算结果与人的语感存在一定的差异。例(9)的实验结果是+0.375,与评价标准完全不符,是由于规则中对“一……就……”所表示的顺承关系是用算术和方式计算的。例(10)的错误原因在于依存句法分析将“顶漂亮”误判为动补结构。因此,对于各种规则,仍需进行反复地检查、验证和完善。
语义倾向具有程度差异、可组合性和潜在歧义性,有静态和动态的区别。语义倾向计算具有现实基础和可行性依据。基于规则的句子语义倾向计算符合人类思维和解析语义倾向的基本模式,能模拟语境对语义倾向产生的影响,具有较强的领域通用性,能将语义倾向分类和倾向程度计算很好地结合在一起。其工作流程为:在对输入的句子进行依存句法分析后,利用句法分析结果,结合语义倾向词典及其附加词典,依次根据分类、识别、合并、计算和消歧规则,逐步完成句子的主客观分类、语义倾向判别和语义倾向计算。实验结果取得了78.25%的正确率,证明了该方法的科学性和有效性。
从应用的角度看,目前取得的正确率仍不能令人满意。因此,提高分析结果的正确率将是下一步工作的重点,这主要又集中在对各种语言事实的不断总结和深入分析、对各类词典的不断改进和完善、对各项规则的不断修订和补充上。此外,本文的工作基于一个并不成立的假设:一个句子中包含的所有语义倾向表达式均来自于一个相同的持有者且针对一个相同的对象。因而,将语义倾向与其持有者和主题一一对应起来,以区别不同持有者针对不同主题产生的不同语义倾向,也是下一步工作要解决的问题之一。
本文使用了哈尔滨工业大学社会计算与信息检索研究中心提供的“语言技术平台LTP”和“同义词词林扩展版”,语义倾向词典的部分词语来自“知网”情感分析用词语集(beta版)和台湾大学“中文情感极性词典”,在此一并表示感谢。