论词库词汇控制机制的改革_自然语言处理论文

叙词表词汇控制机制变革的探讨,本文主要内容关键词为:词表论文,词汇论文,机制论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

作为一种常用的信息组织语义工具,叙词表在信息组织与检索中的作用毋庸置疑。但随着信息环境、信息资源、信息用户及信息需求的变化,整个信息检索环境发生了根本变化,检索机制的变革必将引发检索语言编制、管理和应用的变革。

词汇控制是检索语言编制和发挥作用的基本原理,与其他受控语言相比,叙词语言的词汇控制更为严格,贯穿于叙词表编制、使用和管理的全过程。随着叙词表应用环境与编制技术的变化,为适应网络环境和普通用户(尤其是机器用户),叙词表词汇控制各方面也出现了新变化。

1 检索系统与叙词表的词汇控制概述

1.1 检索系统控制模式概述

标引和检索是检索系统的两个主要模块,在标引和检索阶段均会涉及词汇控制问题,张琪玉曾总结出情报检索语言在检索系统中的主要应用模式。[1]根据词汇控制阶段的不同,机检环境下检索系统控制模式分以下四种,如表1所示:

以上四种检索系统控制模式更适合于联机检索,到了网络时代,尤其是检索系统用户大众化以后,受控的难操作性和不受控的低效率性之间的矛盾催生出一种新的检索机制,即检索系统的“外壳”——标引和检索两端都不控制,采用自然语言标引和检索;在系统的“内核”——语词匹配过程中运用检索语言中的词汇关系,甚至计算语言学和统计学相关方法,进行语词转换控制,将自然语言转化为受控语言,具体实现如图1所示。

图1 “外壳非控,内核受控”的检索机制

图表来源:杜慧平,仲云云.自然语言叙词表自动构建研究[M].南京:东南大学出版社,2009:64.

这种“外壳非控,内核受控”的检索机制既减轻了标引人员的工作负担,也大大降低了用户的检索负担,提高了检索系统的用户友好性;同时,内核匹配中的转换控制避免了单纯字面匹配查找的低效率,实现了概念检索,能提高系统的检全率和检准率。这种检索控制模式对知识组织和信息检索的语义工具产生了重要影响,要求作为转换中介的叙词表具有丰富的概念和词汇,尤其要尽量多提供入口词、使用适合计算机自动匹配的词法和句法、丰富的词间关系和关系类型等。

1.2 叙词表词汇控制机制

情报语言学家Lancaster认为:所谓词汇控制就是把自然语言加工成检索语言的情报控制过程。[2]从叙词表编制过程来看,词汇控制包括两个方面:一是对自然语言的语词进行压缩、优选和规范化处理,二是对自然语言进行结构化处理。[3]126-127具体体现为词量控制、词类控制、词形控制、词义控制、词间关系控制和先组度控制,这些在各种叙词表编制标准规范中均有明确说明或规范,如表2所示。

在早期检索环境中,标引和检索工作由专业人员完成,叙词表作为一种标引工具和检索语言,往往将标引功能和检索功能统一于一体。但随着网络信息检索的普及,标引和检索的施动者发生了变化,从人工标引向自动标引转变,检索用户从专业情报人员向大众用户甚至机器用户转变,叙词表作为标引用表还是检索用表,在编制过程尤其是词汇控制中需加以明确区分。

从目前的检索机制和信息环境来看,叙词表作为检索中介与语义控制词典的作用越加明显。受语义网、人工智能和本体等的影响,网络环境中叙词表呈现出语义性加强、使用主体由专业人员向普通用户和机器用户扩大,作为控制中介在检索系统中逐渐趋向于“无形化”等特点。[4]因此,叙词表编制过程中的词汇控制机制也应做出相应的变革。

2 叙词表选词阶段词汇控制的变革

叙词表是由自然语言中优选出来的语义相关、族性相关的科学术语所组成的一种规范化词典。[5]由此可知,词汇优选是叙词表词汇控制的第一阶段,具体控制范围包括词类控制、词量控制和先组度控制。从根本上讲,词汇优选和压缩原是受限于传统纸本环境和人工工作成本,而不得不通过一些手段来控制词表规模。网络环境下,词表规模的控制将不再是叙词表编制中考虑的主要问题,呈现弱化趋势。

2.1 词量控制的变革

传统叙词表受编制工作量、成本和纸本印刷等诸多因素限制,往往通过自然语言语词优选进行词量控制。一方面优选组配功能强大的基本词汇,通过组配标引法和语义分解法来表达词组,从而达到少收复合词的目的;另一方面通过上位词置代来减少低频词的收录,总体控制效果显著,连《汉表》这样的综合性词表收词规模才108 568条。但总的趋势看,由于新学科与新主题的不断涌现,叙词表总词量趋于增长。[6]并且随着电子版和网络版的出现,叙词表词量可基本不受限制,大幅增长。因此,叙词表编制中出现了不同版本词量规模不同的状况,印刷版作为标引用表,面向专业人员,适当控制规模,而电子版或网络版则出于检索控制以及更新换代的需要,词量可不予限制,规模大大超过印刷版。比如,新修订的《中分表》第二版,其2005年出版的印刷版收录主题词110 837条,入口词35 690条,而Web版目前主题词则达到118 647条,入口词43 512条,并且还在不断增补中。

总体而言,叙词表选词阶段的词汇控制将继续弱化,打破词量规模控制框框,具体表现为:

(1)增设基础词表,从文献数据库、网络搜索引擎以及其他各种术语表、词典中广泛收词构建基础词表,以便用于叙词表的选词;

(2)词量成倍增长,有可能五倍、十倍,大量引入入口词、同义词、词组甚至各种代码;

(3)增设各类专有名词规范库,替代词表中各种专有名称主题词,实现专有名词的表外控制和管理;

(4)大量引入国外术语的原文形式进入叙词表,即使是单语种叙词表也可吸收已获得普遍认同的外来术语,比如Web、Web2.0和Internet等。

2.2 词类控制的变革

自然语言中词类较多,名词、动词、形容词、副词、数词和量词等,每种词类对信息内容揭示的深度和针对性各不相同。在传统叙词表编制中为了控制规模对词类实行了严格控制,选词时以名词和名词词组为主,极少量选用形容词、副词、数词及量词,其他词类一般不考虑。但随着文本内容深度标引和语义检索(包括情感检索)的需要,形容词、动词甚至副词在反映文献观点、进行语义推理和表达情感等方面的作用不容忽视,形容词、动词和副词等也应是叙词表的重要组成词汇。近年来,国内外编制的大型语义词典中都大量收录了动词、形容词和副词,在情感计算、意义表示和倾向性分析等文本内容深层次揭示方面取得了良好的效果。如中文领域应用最为普及的语义词典——HowNet(知网),不仅收录了名词概念,还包含大量形容词、动词、介词、数词和量词,甚至在2007年专门发布了由形容词和副词组成的“情感分析用语集”,成为中文文本情感分析最主要的语义支撑工具。[7]HowNet丰富的词类和语义关系使其突破义类词典的功能,成为支撑语义检索和推理的概念知识库。因此,叙词表词类范围应该借鉴计算语言学界编制概念语义词典的做法予以扩大。

2.3 先组度控制的变革

叙词表作为一种后组式语言大量使用组配,通过组配标引和语义分解来表达词组从而控制词组的数量。在词表编制过程中,通常利用先组方式(组代)的选择与否来控制词表的先组度,先组词越多先组度越高,词表规模也越大,概念的组配能力也相应下降。但过多地使用概念组配,又会造成误组配和组配不一致,从而导致标引和检索效率的低下。因此,在允许大规模扩充叙词表词量的前提下,不再采用“后组+适当先组”的词汇控制模式,而是以先组词为主,大大增加组代词,以提高词汇的专指度和先组度。

3 叙词表词汇规范化控制

自然语言语词要经过规范化控制才能收录词表,作为一种人工语言,在标引员与用户之间达成一致。叙词表的词汇规范化主要通过词形控制和词义控制来实现概念与语词的一一对应。

3.1 词形控制的变革

词形控制主要是针对异形同义词进行处理,使得同一概念的语词能够集中于同一语词形式下,并且为了排检需要和排版效果对语词的形式和组成成分进行限制。词形控制的主要形式包括:①词长控制;②词序选择;③汉字形体规定;④外来音译名控制;⑤数字和标点符号构词控制;⑥同义词、准同义词的优选。这一系列优选方案的最终目的是为了从这些异形同义词中选出一个作为正式叙词,其他的或舍弃或作为非叙词进行等同参照。

新的环境下,叙词表可以突破词量规模的限制,同义词控制可以大大增强,等同率也可大大增长。可以把一个概念的各种同义词、准同义词及其词组都收录词表,并大幅度增加各种形式的组代形式(包括概念组配和字面组配),甚至可以考虑借鉴搜索引擎加入容错词,以提高入口率。即把同一概念的各种词形都收录,使叙词表真正成为基于概念的受控语言。

除了人工标引,词形控制可以不再需要区分叙词和非叙词,形成一个同义词环(synonyms rings),其中每个词都是等同的,地位相当,皆可以用于检索和标引。当然,在系统词汇管理时可为每个同义词集指定一个领词。

3.2 词义控制的变革

为了达到“叙词与概念一一对应”的要求,在叙词表编制过程中需要通过词义控制来解决多义词、同形异义词和词义含糊的问题。传统叙词表针对多义词或同形异义词的控制一般采用添加括号限定词的办法,这种词形结构与自然语言语序迥异,普通用户在网络检索中不可能使用这种形式。因此,必须扬弃这种添加括号限定词的方式,使叙词表向自然语言化方向改革。

(1)将原来括号加限义词的方式改成结合限义词形成自然语序词组。例如:

模特(人体)改为人体模特

模特(服装)改为服装模特

模特(商业)改为商业模特

龙骨(飞机)改为飞机龙骨

(2)将原来的括号加限义词的方式改成先组式词组来明确词义,从而使其具有单义性。例如,中东战争(1948)、中东战争(1967)等叙词可以取消括号限定词,直接采用“中东战争”和具体年代组配标引,并添加下列组代形式的参照,以便用户使用:

中东战争(1948)

Y中东战争+1948

中东战争(1967)

Y中东战争+1967

(3)通过与释义词典关联为每个叙词添加定义以明确词义。为了消除歧义,可以为每个叙词添加定义注释,即在词表宏观结构中增加一个释义表,定义可以直接取自某一部或两部权威词典,不必另编释义词典。比如《UNESCO叙词表》为一些有歧义的叙词添加定义注释,《军用主题词表》中有专门的释义表,与主表中的每个叙词直接关联。

4 叙词表词间关系控制的变革

词间关系控制是叙词表词汇控制的关键,实现了自然语言词汇的结构化处理。词间关系控制的目的在于形成一个概念体系,使按照字顺排列的叙词之间能够建立关联,从而有助于揭示词间关系和明确词义,便于检索时扩大或缩小检索范围。词间关系的控制手段包括建立各种分类性质索引和参照系统,控制内容包括词汇之间的等同、等级和相关关系。目前,叙词表词间关系控制的变化主要体现在两个方面:

(1)词间关系控制手段的多样化和展示的可视化。叙词表词间关系控制手段主要有三类:①编制分类性质的索引,如范畴索引、词族索引;②运用图示方式,如同心圆图、箭头图、树型结构图等;③建立参照系统,用参照符号显示叙词之间的各种关系。[3]131其中,编制分类索引和建立参照系统是最常用的方法,而图示方式所用不多,但随着可视化技术的发展,叙词表词间关系控制手段中越来越多地引入可视化技术,通过可视化以各种图表形式动态展示词间关系。反而是纸本环境下的范畴索引、词族索引不再单独设立,通过叙词参照系统的关系推导和超链接来直接展示。

(2)词间关系类型细分化。通过对叙词表国际标准、中美标准的对比研究,有学者提出在等同、等级、相关三种基本关系类型的基础上应该细分等级关系,放松相关关系范围的约束,引入自定义关系类型等。[8-9]

①细分等级关系。等级关系不必仅限于属种关系和整部关系,ISO25964-1中就把等级关系分为属种型、整部型和例举型三种,并把各种关系标识符号也做了相应细分,如表3所示。[10]此外,等级关系类型还可以扩大到流派与传人关系、风格与作品等。

②放松相关关系范围的约束,扩大相关关系。在叙词表各项参照中,相关关系参照最难控制,即便在国际标准和各种国家标准中对于相关关系的界定也是使用排除法:即相关关系包括词与词之间既非等同关系又非上下位词的等级关系,而这些词在语义上或使用上有密切的关系。[8]在传统环境下,受限于篇幅和人工构建的智力成本,相关关系的总体规模不大。有学者用横向关联度来反映现有词表相关参照的情况,其中《汉表》的横向关联点比例为24.5%、横向关联点的相关词个数仅为1.8个,而一直更新不断的EI叙词表(2006年,第5版)的横向关联点比例达到60.6%、横向关联点的相关词个数为4.76个。[11]这与当前自然语言检索中百度、谷歌等搜索引擎动辄十数个甚至数十个检索相关词的推荐相去甚远。因此,在相关关系的词间关系控制过程中应考虑扩大参项数量,减少孤立词的存在。当然,参照项也不是多多益善,过度的相关关系建立会降低相关的语义程度,从而引发由相关词过度扩检带来的检索效率低下问题。因此,网络环境下,可以扩大相关关系项,但需要分组显示,一组7-8个,最多2-3组共20多个,供用户选择,并考虑使用分面标头完善词间关系的显示。

③允许自定义关系类型。随着计算语言学和人工智能技术的发展,叙词表作为一个语义工具,在面向机器用户和语义检索时,叙词的词间关系也呈现出多元化趋势。而SKOS描述规范的推广,XML+RDF的概念描述和表述机制使得越来越多的知识组织工具在语词或概念表示中可以更加细化和语义化,[12]因此,叙词表也可以根据用户需求自定义其他关系类型,一些编表软件也提供了词间关系自定义功能,如MultiTes[13]。中国科技信息研究所开发的词系统平台,针对不同领域词表构建需要,细化出了在时间、领域和不同语种之间的用代关系,在相关关系上,则细化出了用途、因果、对偶反义和对比反义等新型参照关系。[14]

5 讨论

随着叙词表应用环境、用户群体以及整体信息环境和检索机制的变革,叙词表编制和管理方式都出现了新变化,由人编机助向机编人助、甚至向半自动、全自动的方式转变,微观结构显示由表单状向图形转变,由线性显示向可视化展现发展,宏观结构呈现由单纸本向多表联动变化等。此外,叙词表的发展方向直接影响了其词汇控制机制的变化,当前环境下叙词表是向用于检索后控制的入口词表发展还是向用于语义检索和人工智能的本体发展,将直接影响其词汇控制的程度和内容。因此,从目前整体发展趋势看,其词汇控制机制的变化主要表现为:

(1)选词和规范化控制的“弱化”。网络环境使得叙词表突破纸本限制,允许大规模收词;新术语、新概念的不断涌现要求叙词表及时增补更新;网络检索中叙词表作为检索端的自然语言入口,需要极大丰富各种词形的入口词并向自然语言化方向发展;而情感计算、舆情监控和意义表示的需求,使得信息标引已不仅仅局限于主题内容的揭示,还涉及观点、评价的正负面甄别。因此,相对于传统叙词表,网络环境下的叙词表在词量、词类、词形和词义等方面的控制是弱化的。

(2)结构化控制的“强化”。第二代互联网——语义网的崛起以及人工智能技术的快速进步,叙词表作为一个语义工具需要体现其语义性、智能性,则必须通过严密的结构化体系和丰富的语义关系建立一个概念网络以作为语义网的基础支撑,因此,应强化其词间关系控制,使其更加细分化、形式化和语义化。

(3)词汇控制技术的“智能化”。目前叙词表标准和规范中的词汇控制规则还局限于手工编表,各种控制方法对人工判别的依赖性很大;而在机助或自动编制词表过程中,各种词汇控制手段应该向机器可操作发展,即实现各种控制方法和措施的自动化与智能化,从而提高控制的效率和一致性。

(4)词汇控制与互操作相结合。从最新的叙词表国际标准——ISO25964的命名和内容可以看出互操作已然成为叙词表编制的一个重要内容。[10]词表互操作实际上是在不同词表间进行词汇控制,将来自不同词表的语词建立关联,包括概念相同词形不同的同义控制、词形相同含义不同的词义控制以及其他各种概念间语义关系的映射等,互操作可以看作是叙词表词汇控制的一种延伸和扩展。目前叙词表的词汇控制机制还仅局限于单个词表的编制、使用和管理,如何将词汇控制与词表互操作整合将是网络时代词汇控制机制变革的新方向。

网络环境下,受控语言的存废问题引发了广泛的争议和讨论,[15-17]叙词表的编制、管理和使用也应与时俱进。张琪玉先生认为,“情报检索语言的未来是与自然语言融合”,“实现情报检索语言的自然语言化或自然语言的情报检索语言化”。[18]因此,在词汇控制的选词和规范化阶段弱化控制,大量吸收自然语言,而在词间关系控制中细分和强化语义关系及可视化展示也是叙词表适应当前网络环境的一种需要和变革。

信息环境的变化使传统叙词表正在经历一个变革和适应性改造过程,从词汇控制机制方法到叙词表的编制、管理和使用技术,都将会发生脱胎换骨的变化。我们要迎接这种挑战,投身到网络时代新型叙词表的创新研究和开发中,构建别开生面的中文知识组织系统。

标签:;  ;  ;  ;  ;  

论词库词汇控制机制的改革_自然语言处理论文
下载Doc文档

猜你喜欢