20世纪90年代中国主题检索词典编纂理论研究述评_主题词论文

20世纪90年代中国主题检索词典编纂理论研究述评_主题词论文

90年代我国主题检索词表编制理论研究述评,本文主要内容关键词为:词表论文,述评论文,理论研究论文,年代论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着情报检索系统的发展与主题词表的推广,90年代我国图书情报界发表了一批有关主题词表编制理论研究的文章[1~2]。本文从论文数量和研究内容两个方面,对这一时段的理论研究文章进行评述。

1 论文数量的统计分析

一个领域研究论文的数量,是衡量该领域发展状况的重要指标之一。笔者通过对中情所重庆分所的科技篇名数据库(1989~1997)、《全国报刊索引》(哲社版)(1990~1997)与《图书馆学文摘》(1990~1993)中有关主题词表编制论文的统计,列出下表。

90年代各年度论文总量与各主题论文数量统计表

年代 1990 1991 1992 1993 1994 1995 1996 1997

相关基础理论探讨

5225 102 2 2

主题词表的标准化

3010 1 2 0 1

分类主题一体化 8024 6 11177

兼容转换

1402 1 1 0 1

计算机化

44610155 103

综述

0216 3 4 6 4

词表编制、评介 6610

1515121712

总计

27

18

22

4251375230

比例(%) 9.68 6.45 7.89 15.05 18.28 13.26 18.64 10.75

年代 总 计

比例

篇数 (%)

相关基础理论探讨30 10.75

主题词表的标准化 8 2.87

分类主题一体化 52 18.64

兼容转换10 3.58

计算机化57 20.48

综述26 9.32

词表编制、评介 93 33.33

总计

279

100

比例(%)100

说明:在上表中,同一篇文章涉及多个内容时,依文章目的与篇幅大小归类;有关分类主题一体化的词表编制评介,一律归入“分类主题一体化”项目中。

90年代,词表编制理论研究领域平均每年发文34.88篇,比80 年代的年均13.2篇明显增多。笔者将90年代的词表编制理论研究文章分为七个主题,通过上表对各主题论文的数量统计,可以看出,以词表编制、评介为主题的论文最多,共计93篇;其后依次为:词表计算机化研究(57篇),分类主题一体化研究(52篇),基础理论研究(30篇),综述性研究(26篇)。对兼容转换和词表标准化研究的文章最少,分别为10篇和8篇。这种情况的出现,与我国各系统、 各地区之间条块分割管理,导致对系统间兼容、词表规范化及数据共享问题重视不够有关。

2 理论研究热点的分析

90年代,数据库技术与网络技术给文献信息环境带来了很大的变化。据原国家科委信息司的统计,到1995年我国已建有各类型、各学科数据库1038个,累计中文文献记录总量约200万条。同时, 国内四大互联网(CERNET、 CHINABN、 CSTNET、 CHINANET)以及各行业网络(“金”字号工程以及各专业网络等)的建立联通,进一步给用户带来了前所未有的大量、实时、多样的信息。广泛的联网使得用户可以更自由地直接介入检索过程,没有专业背景的用户要求检索系统具有自我学习和自我完善等功能,能提供友好的用户界面与专项浏览相结合的查找方式。为了适应检索对象与检索需求的变化,情报检索系统必须改变传统的组织信息方式。作为检索系统典据文本的主题词表,必须在编制方向上作出调整。90年代,我国主题词表编制理论的研究主要集中在四个方面:分类主题一体化、词表的构成、兼容标准化以及词表计算机化。

2.1 分类主题一体化研究

进入90年代,一方面,人们进一步对分类法与主题法在检索原理、检索手段等方面的一致与差异以及分类主题一体化的实现途径进行理论上的深入探讨[3], 提出了学科—事物概念组配型检索语言等词表构成模式[4];另一方面, 人们积极将理论研究成果应用于词表编制的实践活动中,编制了不同形式的分类主题一体化词表。既有合并词族索引与范畴索引,建成半分面的叙词表,如《农业科学叙词表》(1994年版);又编制分类主题对照索引,如《中图法》教育专业分类表与《教育主题词表》;还编制分面叙词表,如《中国人口主题词表》(1990~1991年编制)、《社会科学检索词表》(1995 年版)、 《音像资料词表》(1996年版)等。实践活动与理论研究互为因果,互为动力,使得这一时段的理论研究大多注重紧贴具体词表,并对检索效率以及词表微观结构进行分析评介,这也是90年代分类主题一体化理论研究的一大特色。以分类法与主题法对照索引的研究为例,绝大多数研究文章都是针对具体词表展开的。例如,通过对《中国分类主题词表》进行一体化标引的实验分析,提出列类、类目注释、组配方式、标引规则等方面的改进意见[5];集中精力,对《中国分类主题词表》的某一方面(如相关参照[6]、先组散组标引功能[7])进行探讨等。

这一时段,较有新意的文章有贺玲勇的《联机一体化词表的原理与实践》、苏丽珍的《分类主题一体化自动检索系统》等。前者以人口情报研究中心编制的“联机一体化词表系统(OCTS)”为例,分析了联机一体化词表的完善途径;后者引入数学聚类分析法,论证了在文献向量化的前提下,运用文献自动聚类的原理和方法,建立自动化检索系统的可行性,并提出了有关措施。

2.2 词表构成研究

对词表结构的研究大体上可分为两类:一是直接从理论角度进行探讨,不排斥以一部或几部词表为例;二是依托于一部或几部词表的评介分析,提出词表结构模式的改进建议。

在第一类研究中,较有代表性的有宋明亮、岳文彪对词量控制的探讨[8]。 他们撰文详细分析了词量变化与词表专指度以及检索系统的检全率与检准率的关系,并提出依据文献保障原则统计得出的反应词频条件,通过对该条件的把握,来实现词量控制。同时,周全明对叙词表各类功能性与标引性注释的分析[9~10], 陆建平对叙词表建立与增加组代参照的两种具体方法的探讨[11],陈正瑜从语言学角度,通过义素分析法来描述叙词表中语义关系的聚合和组合[12],都为检索语言的编制与性能研究提供了新的视角。此外,还有周全明以《机械工程叙词表》(1990年版)为例,用研究自然语言中语词的构成方法来研究叙词的构成法,按词素的数目、音节、构成方式将叙词一一划分,并就此展开了避免叙词歧义的探讨[13]。

关于第二类的研究,主要是围绕对几部大型词表如《军用表》、《汉表》(修订版)、《国防表》、《中国分类主题词表》等的评介分析展开的,研究内容是词表宏观结构体系、微观构成及词表适用度等。但缺乏从纵向的角度,对词表稳定性、更新频率、词表关联比、参照度、族首词、领词数量以及词表编制使用成本效益比进行研究。对《数学表》、《音像资料叙词表》等中小型词表模式的研究,则多限于编制者对词表编制过程以及词表结构的介绍。这方面研究的弱化,将会影响到对多学科、多领域词表特点的把握和相关词表的修订。

2.3 兼容与标准化研究

到1996年7月召开的“全国分类法、 叙词表发展学术研讨与成果展示会”为止,我国实际投入运用的词表已达100余部。 由于各词表编制前并未作有计划的兼容规划和总体设计,且各词表都是根据系统的特定需要,模仿《汉表》或国外表编制的,因而不同部门、系统、学科领域的专业词表在编制原则、使用目的、词间因素、结构因素等方面存在很大差异,使不同系统难以联接,给中文数据库联网系统的资源共享带来了障碍。从80年代末、90年代初开始,人们日益重视兼容标准化问题,并且提出实现统一的词表体系。具体方法有:采用一些可行的兼容措施,颁布统一的叙词表编制标准等。

(1)词表兼容理论研究。根据国外兼容的理论与实践, 研究者归纳出四种兼容措施,即宏词表、源词表、中介词典、 转换语言或系统[14]。人们争论的焦点集中在前两者上:建立标准词库,形成兼容中心;编制大型通用词表与各专业词表并向《汉表》靠拢,将《汉表》发展为标准词表。而有关前者的讨论又集中在是否要在叙词词库中显示词间关系,乃至建立词库的分类体系[15]。1991年,傅兰生撰文[16],对大词表能否兼顾综合与专业的矛盾,以及在词表更新、词量平衡、对机检系统的适用性等方面的问题进行分析,说明大词表方案不可行的理由;同时,该文从词量、词汇专指度、词间关系、词表维护工作量及经济性等方面,对词库方案与大词表方案进行进一步的对比,论证了词库方案是我国目前现实可行的方案。1995年,有的研究者提出,将研究内容具体到对词库系统的流程设计、数据结构及词库的选词原则等方面[17]。作为国家词库建成前的过渡手段,人们主要采用三种措施:一是编制军用词库、农业词库等专业词库,为本系列专业词表的编制提供规范化的词源。二是在编制专业词表(如《教育分面叙词表》、《军用表》)时,采用一部分与《汉表》——“推荐国家标准”相同的附表,以期在一定程度上达到兼容效果。三是以模块式结构编表,实现词表兼容。例如,1993年吴国兴提出以《航空航天医学主题词表》的编制为例,通过结构上与《军用主题词表》兼容,语义上与《NASA叙词表》兼容,临床航空医学部分词汇与《MESH词表》兼容,实现一对多词表的相对兼容[18]。

(2)标准化问题研究。 标准化问题的研究多集中在对词表编制过程中词汇控制方面,主要包括选词原则、词间关系的显示[19]和将《汉表》上升为国家标准两个方面。目前,对标准制订的具体问题讨论并不多。应该指出的是,兼容与标准化问题除了涉及技术问题外,统筹规划至关重要。没有良好的统一规划,不仅难以解决词表间兼容与标准化问题,还会出现重复编制。以档案主题词表为例,先后就有江苏省档案馆、黄冈县档案馆、河南省浚县档案馆、湖北省档案馆及《中国档案主题词表》编委会等单位编制,不仅重复劳动,而且将会在本系统内部造成信息交流障碍。因此,词表编制研究人员应尽快展开对该问题的研究。

2.4 词表的计算机化研究

进入90年代后,一方面,计算机技术的发展,机检系统的进一步完善,自动标引、机器翻译领域研究成果的引入,为智能情报检索系统的研制、应用创造了客观物质条件;另一方面,规范语言因其固有的人工受控性,越来越难以满足大量迅捷、自由多样的检索要求,用户在主观上也要求以自然语言代替规范语言检索。由于主观要求与客观条件的作用,使得自然语言与规范语言的结合,成为这一时期词表计算机化方向的主要研究任务。

在90年代的理论研究中,更多地表现出深入与多样化的特点。一方面,对自然语言与规范语言的理论探讨,由80年代的可行性研究与定性分析,深入到对诸多问题的探讨,主要包括对自然语言与受控语言检索效果的探讨[20],两者的具体转换模式探讨[21],半受控与自然语言检索系统词表的具体设计以及对后控词表词汇控制技术、词汇采集原则等专题的探讨[22~23]。词表生成基础则由DBASE关系数据库的二维表[24],发展到超文本的网状结构[25]。另一方面,各具体后控检索系统的原理也因词表理论研究角度的不同而有所不同,包括基于用户提问和用户建议的自学后控制系统、基于字面相似原理的后控词表辅助编制系统、基于词对相似和词对共现原理的后控制词表系统,以及基于分面分析的机辅后控制词表系统等[26]。

对于今后后控词表的发展方向,韩冬梅提出,词表系统的研究设计将逐渐着重于将接口系统与情报检索系统的其他部分综合起来,使其数据结构、设计语言向词表管理系统、自动标引系统靠拢,提高情报检索系统的整体功能;同时让接口系统向独立系统方向发展,增强可移植性,使其有可能以外接模式与联机系统联接[27]。

由于汉语词间关系的复杂问题与机械分词问题一直未能很好地解决,使得自然语言研究中的核心部分——自动标引始终未能“走出实验室的大门”[28]。因此,在机检实践中,要加强应用方面的研究。

收稿日期:1998—12—14

标签:;  ;  

20世纪90年代中国主题检索词典编纂理论研究述评_主题词论文
下载Doc文档

猜你喜欢