基于Internet的汉语认知属性的获取与分析_形容词论文

基于互联网的汉语认知属性获取及分析,本文主要内容关键词为:互联网论文,汉语论文,认知论文,属性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

词语的认知属性是指,在特定的语言中,语言使用者对词语代表的概念或实体的认知体验凝结到词义中的各种属性。例如汉语里“猪”这个词,除了语文词典所描写的“眼睛小,耳朵大,身体肥”之外,其认知属性还有“懒”“笨”“丑”等等。表面上看,后面三个属性不过是“猪”的常见特性而已,但这样的语言知识却很难在现有的语文词典和电子资源中找到。传统的词汇语义学,一般将这种意义作为附加在概念义或基本义之上的附加义或陪义(张志毅,2001:44;张慧晶,2003),并没有重视系统性的描写。认知语言学则不区分概念义和附加义,在隐喻研究的框架下,将“肥”和“笨”都作为“猪”的“显著特征”(Giora,97;Veale,2007)。显著特征可以用作隐喻的喻底,比如“他真是头猪”的意思是他像猪一样笨或像猪一样懒,等等。所谓“显著”是认知上显著,“特征”则表示事物的特殊之处,表现为属性和属性值的特异性(陈小荷,2005)。从理论上看,“显著特征”并没有得到良好的界定。为了凸出认知体验性和属性(值),并涵盖更多的词语属性,在本文中,我们将“显著特征”一般化为“认知属性”,以便进行阐述和分析。

词语的认知属性有助于外国人学习汉语词语的文化认知意义。通过查询词语的认知属性库,外国人可以快速地把握词语文化意义。同时,词语认知属性的研究也有助于计算机处理和理解自然语言。在互联网高度发达的今天,人们习惯于通过论坛、博客、微博发表对于事物的评价,有了“猪——笨、懒”的知识,计算机便可以理解“这个人真是头猪”表达的含义,甚至可以自动生成这样的句子。在人机对话系统中,认知属性的加入,也会让计算机了解人的隐喻性表达,同时生成有趣的话语。在机器翻译领域,借助跨语言的认知属性,有助于计算机翻译意译的、带有修辞手法的句子。

因此,本文力图通过对汉语常用词语认知属性的大规模搜集和统计分析,建立结构化的语言知识库,服务语言教学和词典编纂的需要,提高计算机对修辞表达的理解和处理能力。

二、研究现状

从上世纪80年代开始,词语的显著特征特别是名词的显著特征,不仅已成为国内外隐喻分析、自动理解和生成的重要依据(Weiner,1984;杨芸,2008;贾玉祥,2009),还应用于反讽等修辞手法的识别理解(Veale,2007)。对于汉语来说,显著特征还可以解释“太猪了”这样的“副+名”特异搭配(施春宏,2001)。因此,名词认知属性的获取成为认知隐喻计算的一个研究热点。

获取和分析词语的认知属性过程中,判定的主观性比较强。纯手工建立电子百科知识库的方式已为学界所抛弃,转而采用自动或半自动方法来建立新型语言知识库。Kintsch(2000)在语料库上利用潜在语义分析技术(LSA),寻找和名词密切相关的形容词,作为名词的显著特征。Veale(2007)利用英语的明喻格式“A is as B as C”,从搜索引擎谷歌上抓取了大量的“目标域(名词)—属性值(形容词)”对。杨芸(2008)利用词语相关度计算,从本地语料库获取了和名词相关的属性形容词,贾玉祥(2009)则用明喻格式(如“A像C一样B”)搜索百度,获取了汉语名词的显著特征形容词,用于明喻句的理解。这些研究极大地推进了隐喻中明喻研究的进展,但美中不足的是,在数据采集上忽视了频率信息和理论分析。

在语言学研究方面,显著度也逐步被认为是语言理解的重要机制。在Giora(1997)提出的“梯度显著度假说”(Graded Salience Hypothesis)中,显著度高的义项往往被首先处理。Giora(1997)认为,比喻性语言和非比喻性语言的理解都遵循梯度显著度假说:语言理解过程中首先处理显著度高的意义。意义的显著度受习俗、频率、熟悉程度以及上下文语境的影响。词语认知属性也存在显著度的问题,“猪”的各属性的显著程度如何,和语境的关系如何,直接影响着言语理解的过程。

综上所述,随着隐喻理论的发展,计算语言学界催生了对词语隐喻属性的获取研究,但是对“词语—属性”的分析尚不够细致,自动获取中也存在不少问题。在语言学界,也逐步使用显著度理论解释语言中的各种现象。我们试图将两种方法结合起来,形成基于概率分析的汉语常用词语认知属性库。

三、基于互联网的采集方法

认知属性的采集,我们采用已有的基于互联网搜索引擎的方法,以避免纯手工构建的弊端。为了与现有的语言知识库对接,便于进行语义分析并扩展至其他语言,我们采用了中英双语语义知识库知网的2007版(下简称“知网”)作为词典。知网共收录了汉语的51020个名词、27901个动词和12252个形容词。基于三种最简单有效的明喻句式“像+名词+一样”“像+动词+一样”“像+一样+形容词”,使用百度共提交查询91173次,每次查询最多返回100个结果,共得到5637500条记录①。

对于返回的记录,使用张华平的分词标注软件ICTCLAS②进行全文自动分词和词性标注。然后提取正文中含“A像B一样C”的句子,将喻体B和属性相似点C导入数据库,得到{B,C}对3197624例(tokens),1256430型(types),得到的喻体型为461865个,属性型为386009个,参见表1。

这些喻体—属性数量庞大,由于使用了形容词搜索,还得到了知网未收录词语的明喻用法。不过,其中也含有大量的比较句、含代词的短语和一些错误条目。因此,我们在词性自动标注的基础上,用知网的名词和形容词进行过滤,剩余22888个“名词—形容词”型,119375例,覆盖了6022个名词和3539个形容词。在名词和形容词的双重过滤下,这些明喻的条目基本正确,但是相比知网中的名词和形容词总量来说,数量大为减少。过滤后存在的另一个问题是,知网的收词范围有限,会遗漏不少正确的条目。如果只用形容词来过滤,则剩余47869个“喻体—形容词”型,其喻体会变得更为多样,但其中又包含不少错误的条目。因此,除了22888个基本条目外,我们会从47869个词型中补充名词以外的喻体词语的认知属性。

关于百度搜索的三点说明:(1)频率问题:使用百度时,往往会搜索到其他词语的明喻用法,如搜索“像猪一样”,在检索结果中会出现“像猪一样蠢”,也可能额外出现“像母鸡一样蠢”等句子,所以很多条目的用例都多于100个。加之仅采集所有词的前100个结果,因此本文得到的各种词语认知属性的频率并不完全等于在整个互联网上的频率,虽然不特别准确,但基本可以看出这些词语的明喻频度。(2)采集数量:知网的51020个名词和12252个形容词中,只采集到了6022个名词和3539个形容词构成的“名词—形容词”对。我们发现,没有采集到认知属性的名词数量很大,如“百衲本”“边际”“保存期”“家资”等大量不常用或特征不凸显的名词。形容词也是如此,如“极深”“即刻”“潸然”等。知网将区别词也作为形容词予以收录,而这些区别词,如“非常规、全日制、恶性、国立”等基本上没有明喻用法。当然,如果我们用5万多个名词和1万多个形容词逐一按照“像名词一样形容词”的格式去搜索百度,会得到更为全面的认知属性数据。但是,受限于搜索引擎的采集间隔时间一般为20秒/次,即使同时用100个独立ip同时采集,也无法在短期内完成5亿多次的搜索采集工作。(3)数据发布:未经词性标注的认知属性采集结果,目前已封装为网络数据库,供学界研究使用,可分别检索喻体词语和属性词语。网址为http://nlp.nju.edu.cn/lib/cog/ccb_nju.php。

四、汉语词语认知属性分析

词语的认知属性,主要体现在形容词上。我们将“名词—形容词”“动词—形容词”“其他词语—形容词”作为观察和分析对象。

(一)名词的认知属性

名词的认知属性是最为典型的。表2分别给出了频率最高的前10个“名词n—形容词adj”搭配、名词喻体和形容词属性,均为比较常用的明喻,这些明喻体现名词多样的认知属性。从“喻体—属性”上看,“美玉—美丽”出现次数最多,“纸—薄”“雪—白”也都是人们所熟知的认知属性。从名词喻体上看,拥有最多形容词的是“水”,有270个不同的形容词,如“流畅、稀、清淡、纯净”等。本文开头谈到的“猪”,在采集到的认知属性里,“笨、懒、肥”的频次分别为178、142和119,此外还有“幸福”42次、“贪得无厌”22次等上百个形容词。不过,“快乐”和“幸福”也排进了前5名,是一个很有趣的现象,说明当前人们对“猪”的评价的多样性和时代性。

从形容词属性上看,拥有名词最多的形容词是“大”。由于“大”的义项比较多,而且包含一般性的比较的含义,如“和蚂蚁一样大”。“多、快”也是如此,这些单音节形容词的条目还需要后续的人工校对。相比之下,义项少而基本不含比较含义的双音节词更适合作为常用认识属性代表词,如“简单、美丽、可爱”等。

(二)动词的认知属性

和名词的认知属性相比,动词的认知属性较为特殊。例如,动词“呼吸”本身很难说具有什么认知属性,但是在采集到的结果中有“自然、自由、重要”等属性,体现了人们在进行“呼吸”的动作中体验到的情感。表3详细地给出了频率最高的前10个“动词喻体—形容词属性”、动词喻体及形容词属性。“过节、过年”的“高兴”和“热闹”,“抽筋”的疼痛,甚而是口语常用的“放屁”的“轻松”,都非常形象地表现出人们在这些活动中的认知体验。“过节”和“死”都超过了30个形容词,其体验的多样性是显而易见的。形容词大都是体验性的、高频的。

(三)其他词类和短语

借助词性自动标注的结果,我们可以进一步分析包含普通名词和动词之外的、没有被知网收录的词语的认知属性。表4给出了专有名词中的人名、地名及其他类型的10个最高频的“词语—形容词”对,表5给出了时间词、语素、字母词的10个最高频的“词语—形容词”对,表6给出了较长短语的相关信息。从表4中可以看出人物形象“可卿、凤姐、赫本”的认知属性分别为“漂亮、精明、优雅”,国家名、地名“美国、西湖、泰山”的认知属性分别为“强大、美丽、稳固”。其他专名“北斗星、蒙牛、春兰”等也都具有各自的认知属性。有些认知属性初看起来有些费解,如“两面针—蠢”,通过百度查看相关新闻和帖子之后才比较清楚其内涵。

时间词、语素名词、字母词的认知属性也很有趣。在人们的感知中,“春夏秋冬”分别代表着“温暖、炎热、爽朗、寒冷”。语素字的词性标记为g,字母词的词性标记为x。语素字“瓷—白”“箫—哀怨”“猴—机敏”都是非常典型的认知属性。字母词由于数量较少,我们给出了包含字母词的词语的认知属性,如“挂QQ、打CS、做了SPA”等。这些名词和动词短语,显示了人们现实生活的诸多主体认知体验。

自动采集的结果中也包含了较长短语的认知属性,这是以往的研究所忽略的部分。由于短语较长,往往是对特定对象、事件的小范围感知。表6给出了普通短语、书名号管辖的专名、引号管辖的专名的认知属性。普通短语里既有传统的“吃了蜜—甜”,也有近年来才出现的“打了鸡血—兴奋”。其中也包含一些小领域内的感知,如“同桌小丽—漂亮”。还有一些非明喻表达,如“对夏鸥的母亲—亲热”。数据库中含有书名号或引号的专名多为书籍影视作品名称或人物,可以从上下文的形容词中观察到公众对这些专名的态度。如“《魔戒》—伟大”“谢大脚—漂亮”“犀利哥—出名”。

(四)总结分析

根据上文的统计分析,可以明显地看出,我们采集的词语已经大大超出了知网收录的词语范围,体现出互联网数据的巨大优势。从上述三类词语的认知属性,可以看出以下几个特点:

1.词语认知属性的个性差异大,相同义类的词语的认知属性不同。如表中所列举的时间词“春天”和“秋天”、处所词“西伯利亚”和“长城”的认知属性差别很大。

2.不同词语的认知属性可能相近,如“花儿”“天使”都有“美丽”的属性。

3.名词和动词的认知属性差异大。名词的认知属性主要是名词所指称的概念在日常生活中的感知体验,在形容词上主要使用“美丽”“可爱”等。而动词的认知属性则是人们在这些动作、活动中体验到的各种感觉,在形容词上的使用差异也是非常明显的,如“疼”“痛”“紧张”等。

4.名词和动词的认知属性中有部分可互通,体现了认知对象和动作行为的一致性。“兔子”和“飞”“跑”的属性都有“快”,这体现出运动的典型主体和典型动作在认知属性上的一致性。“蜜”和“吃了蜜”都是“甜”,则体现出感知对象和感知过程在认知属性上的一致性。

5.仅使用形容词作为认知属性的载体,还难以做到细致入微。例如,名词“孩子”和动词“呼吸”的属性都有形容词“简单”,但其“简单”的含义并不完全一样。作为抽象名词,“简单”的这两个含义,在《现代汉语词典》和知网中也没有细致的区分。这就要求在认知语义学的框架下,对形容词做更为细致的研究。

五、认知属性的理论意义和应用价值

中文词语认知属性库的建立,对于词汇语义学、英汉认知差异对比、夸张反讽的自动生成都有直接的理论和应用价值。

1.丰富词汇语义学的研究。将传统的词语文化义、隐喻义在认知属性的理论框架下较为系统地描写出来,揭示心理词库的组织方式。认知属性甚至可以作为词语分类的新的依据。以属性“温暖”为依托,我们看到“阳光、太阳、家、家庭、春天、春风、火”等不同语义类下的词语可以拥有相同的认知属性,这可能是人们心理词库的重要组织方式之一。在这个意义上说,传统的词语相似度的计算,也可以借助认知属性得到更好的结果,把语义类上差别较大的词语,计算出较高的相似性。

2.英汉认知属性的差异对比。我们把汉语认知属性库和Veale(2007)建立的英文数据库sardonicus④进行了初步的比较,利用知网收录的中英双语名词和形容词为中介,发现两个数据库仅有1000多条“名词—形容词”可以匹配上,可见英汉之间的认知差别是较大的。由于英文数据库没有频率信息,暂时难以做系统的比较,即使有相同的“名—形”对也不排除是偶然的巧合或是翻译表达。

3.夸张的自动生成。使用典型的夸张句式“比N还A”和认知属性库中的数据,可以很容易地生成“比美国还强大”“比凤姐还精明”“比打仗还紧张”“比西伯利亚还寒冷”等句子。这些句子显得非常自然,可以直接用于人机对话、机器翻译的译词选择任务。

4.反讽的自动生成。利用知网提供的反义、对义关系,我们将认知属性应用于反讽的自动生成。在这个过程中,我们发现大多数反讽句都是难以接受的,如“像美国一样弱小(强大)”“像凤姐一样愚蠢(精明)”。这促使我们进一步思考,反讽的生成机制是较为复杂的。一般只能将不好的属性反讽为好的属性,如“跟猪一样聪明(笨)”“像豆腐一样硬(软)”,反之则不行。因此反讽的自动生成还需进一步研究。

词语的认知属性是在一种文化下人们对事物认知的语言表达,涵盖了传统词汇语义学的多种陪义(附加义)。由于这些陪义往往是词典所无或疏于描写的对象,描写难度也较大,本文则采用基于互联网的技术,通过明喻格式,从搜索引擎上获取了大量词语的认知属性,比过去仅靠人工总结、分析词语的文化意义和附加意义更为快捷和全面。特别是根据频率信息的统计,能看到一个词语不同属性的显著度,也可以看到一个认知属性支配不同名词的概况。这对于外国人学习汉语词语的文化认知意义、编纂认知型教学和语文词典、辅助机器翻译方面都具有重要的应用价值。

不过,目前的研究仍有不足,还需要继续研究下列问题:(1)继续研究知网收录却没有采集到实例的那些名词和形容词,观察其语义类的分布特点和认知特点。(2)认知属性的结构化和形式化,考虑将作为认知属性的形容词进一步离析,从认知背景和认知角度等方面进行分析。(3)加强动态性、地域性的研究,不同时期、不同地域的不同主体对同一事物的认知属性可能是不同的,需要在地域、篇章的角度来建模,描写这种差异性。(4)使用谷歌等搜索引擎,采集英文的认知属性,形成英汉双语带频度的认知属性库,以进行英汉词语认知属性的深入比较。(5)对于不断涌现的新词语,如“林书豪”、形容词“囧”等,能够做到增量式采集,以观察认知属性的动态变化。

①百度对中文搜索的结果较好。我们也尝试利用Google Book公开的中文历代图书中包含的5Gram数据(5个词构成的所有词串)统计明喻句式,但仅得到数百条有效记录,数据量过低,无法使用。而谷歌的查询结果,往往会混入其他语言的翻译结果,且严格限制爬虫的速度。

②下载地址:www.nip.org.cn。

③1670688条记录中,由于去除了上下文,存在部分重复。经去重后剩余1258430条记录。

④http://afflatus.ucd.ie/sardonicus/tree.jsp。

标签:;  ;  

基于Internet的汉语认知属性的获取与分析_形容词论文
下载Doc文档

猜你喜欢