计算机检验中文图书主题索引技术研究_主题词论文

面向机检的中文图书主题标引技术研究,本文主要内容关键词为:技术研究论文,中文论文,主题论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔中图分类号〕G254.36;G254.2 〔文献标识码〕A 〔文章编号〕1005—8214(2000)04—0006—04

一、主题法在我国的应用和发展

普遍对中文图书进行主题标引和建立图书主题目录,在我国是20世纪90年代中期以后的事了。1982年我国开始着手制订《文献主题标引规范》,并于1983年正式颁布《文献主题标引规则》(BG3860—83)后,北京图书馆于1984年推出《北京图书馆中文图书主题标引工作条例》(在此之前北图分类法词表组于1981年还编写了《〈汉语主题词表〉手工检索标引工作手册》),这是《标准》颁布后第一个面向中文图书主题标引工作的细则, 对我国以后的中文图书主题标引起到重要的影响。 1985年北图编印《中文图书主题标引宣传手册》并在统编卡上使用《汉表》标引主题词,同年中国图书馆学会举办全国性的标引师资培训班,至此才拉开我国图书馆界全面推广中文图书主题标引的序幕。但此后的近十年中,中文图书的主题标引和检索并未取得很大进展,仅是在部分大学图书馆、部分省级图书馆以及大型科技图书馆得到实施。从90年代中期开始,我国中文图书主题标引在各类图书馆中迅速得到普及,其原因是多方面的:

1.计算机技术90年代在各类图书馆的应用迅速普及,为主题法的应用提供了一个十分必要的硬环境。

2.出现多种成熟的图书馆集成系统,如ILAS、GLIS、DataTrans、 文津、鑫磐等并已商业化,与计算机硬件一起推动我国计算机编目进而推动图书主题标引的发展。

3.北京图书馆于1986年在UNIMARC的基础上制订了CNMARC (随后中情所也在CCF的基础上制订了CCFC), 使我国图书馆界全面推行机编有了统一的标准,主题法的推广应用离不开这个基础。

4.1994年《中国分类主题词表》出版,这是一个《中图法》和《汉表》对照兼容的分类主题一体化工具,它在每个分类号之后列出类目对应的组配式标题和类目内容对应的主题词。这样主题标引对于大多数图书馆来说一下子变得不那么复杂了,至少有了可借鉴的组配式标题模式,从而极大地推动了各类图书馆开始进行中文图书的主题标引。

5.北京图书馆发行的统编卡片(1985年)和机读目录(1990年),以及后来各地相继建立的统编机构发行的统编卡片和机读目录都有高质量的主题标引数据,为我国主题法的普及推波助澜,功不可没。

从以上分析不难看出,我国中文图书的主题标引从整体来说,一开始就是与计算机应用联系在一起的,并且使用统一的机读目录格式和基本统一的叙词表。对于一个传统的以分类检索为主的国家,越过了纯手工检索工具的主题标引阶段(也有极少数单位单独建立手检图书主题目录),进入机编文档人工主题标引和计算机检索阶段,是我国主题法应用的一个突出特点。

二、中文图书主题标引的问题及改进

我国主题法应用和普及的重要特点是基于计算机技术的应用和叙词表的使用,但长期以来主题标引技术的运用却没有摆脱编制手工检索工具的思路,忽视机检系统的特点,忽视用户检索需求和特点,忽视自然语言运用,把叙词表当做编制先组式标题的工具使用,以至不能充分发挥叙词表和计算机检索的优越性。相比之下,题录数据库(如重庆所的“科技期刊篇名数据库”)、文摘数据库(如上海有机所的“中国化学文献数据库”)、Web搜索引擎(如搜狐)等的主题标引, 要比图书馆书目数据库的主题标引灵活、实用,检索功能也明显强大。中文图书的主题标引技术必须在充分满足用户的检索需求、充分发挥计算机检索功能方面不断改进。

1.关于用户的特点

文献标引的目的是建立检索系统,而检索系统是为用户服务的,这是一个简单的道理,然而在制订主题标引规则和进行文献主题标引时却常常被忽视或重视不够。现在的文献信息用户有什么特点呢?用户不限于图书馆的固定读者群,有可能利用书目数据库的人们都是用户的范围;对于数据库的检索,用户已不再通过图书馆工作人员作中介,而是成为检索的主体;99%以上的用户手中没有叙词表(甚至没有见过),目前只有极少数书目检索系统提供机读叙词表,在这种情况下叙词越专指,用户确切把握其字面形式的概率越低;用户基本不了解或根本不了解复杂的叙词标引规则;用户的文化层次、知识面和专业背景差异很大,检索时使用各自所熟悉的语词,而自然语言是首选的;由于近年来各种数据库、网络检索系统的问世和推广应用,用户对词语组配检索有一定程度的了解,用泛指词组配查找较专指的主题是一种常用的方法;“浏览—检索”和“提问—检索”都是用户主要的检索方式。用户上述这些特点和习惯如不在主题标引规则和标引过程中得到重视,检索系统的效率会大打折扣。

2.关于主题结构模式

主题结构模式(亦即主题组配公式)有两个作用,一是用于主题分析,二是确定组成标题的词串次序,由于在机检系统中采用后组检索,词串是无意义的,因此其主要功能是作为文献主题分析的辅助工具。从这个意义上看,通用的“主体—通用—空间—时间—文献类型”的主题结构模式改为“主体—方面—空间—时间—文献类型”为宜。这里的“主体”是指文献的研究对象,包括研究对象的组成部分及结构,也包括由“名词+动词”构成的研究对象(如“齿轮加工”、“土壤退化”等);“方面”则是指研究的角度和方法,包括材料、性质、状态、过程、条件、手段等(这部分原来作为主体要素),也包括原来的“通用因素面”的各要素。因为主题分析的基本过程是首先判断研究的对象(包括其组成部分),其次判断研究的方面,即研究对象的材料、性质、状态、过程、所处的条件、使用的手段等;最后判断研究对象所处的空间、时间及文献类型。显然修改后的模式更有利于主题分析。

3.先组式标引还是后组式标引

面向机检的图书主题标引,应不考虑用机读文档生成手工检索款目的问题,彻底抛弃在主题字段使用叙词串的先组标引方法(包括概念交叉组配),这不仅是因为在拥有计算机检索系统后,用于手检的主题目录实际被废止,还因为如兼顾生成手检工具的需要将影响机检的功能(而这是主要的)。以《板梁铁路桥工程测量误差手册》为例,为生成手检目录的标题,需标引为(以下均以CNMARC为例):

606a板梁桥:铁路桥—工程测量—测量误差—手册

由于这是一个先组的主题词串,铁路桥、工程测量、测量误差都不能作为检索入口,也不能作为独立的组配因素使用,为此必须再进行四次轮排,不仅增加了工作量,而且重要的是当标引员忽略某些主题词轮排时(他认为不重要,或某些通用概念不必轮排,甚至为了简便),那么机检时就可能因缺少某个主题限定因素(如设计、工艺、手册)而影响检索效率。只有完全采用后组式标引,如上例标引为“606a板梁桥a铁路桥×工程测量×测量误差×手册”, 才能充分发挥机检系统的功能。

4.关于606字段及其子字段的使用

目前对606a是否可重复、什么情况下重复使用606字段、×表达主题要素的范围,有不同的认识和使用方法。从主题分析和标引的便利性考虑,以下述方法为宜。

(1)单主题文献的各主题要素使用一个606字段标引,其中主体因素使用a标引(可重复),方面因素使用×标引 (可重复)。由几个交叉概念合成的主题,各用于组配的概念均视为主体的要素;事物的组成部分及结构也属于主体要素;一个研究对象的若干方面,视为一个主题。例如:

“人造金刚石液压机加载系统模拟试验”标引为:

606a液压机a杆力模拟机构×金刚石{g9kb11.jpg }×模拟试验

610a人造金刚石a加载系统

“中承式钢筋混凝土拱桥”标引为:

606a中承式桥a钢筋混凝桥a拱桥

“小麦的育种、栽培和病虫害防治”标引为:

6061a小麦x作物育种×栽培×病虫害防治方法

(2)多主题文献的各主题分别使用606字段标引,其中相同的方面、空间、时间、文献类型要素,无须重复标引,因为标引于各606 字段的主题要素之间都可以实现组配检索。例如:

“鸡鸭鹅集约饲养”标引为:

606a鸡×集约饲养

606a鸭

606a鹅

其实划分为单主题和多主题,仅仅是为了标引过程中思路清晰,避免遗漏主题要素,对于文献检索来说是无关紧要的。

5.关于主题词的组配

(1)组配的形式问题。 在以往的主题标引规则中十分注重组配的逻辑形式,严格区分为交叉组配、限定组配和联结组配,并规定不同组配形式的使用次序和符号。复杂的组配规则用户是无从掌握的,而在计算机检索系统中最常用的布尔检索只区分为逻辑和、逻辑乘、逻辑非,并可以进行混合运算,因此机读文档中叙词标引区分为概念交叉组配和方面(限定)组配以及规定先后次序,对计算机检索来说是无意义的。区分组配类型的意义仅仅在于帮助标引员把较复杂的概念(无对应的主题词)分解成为较简单的概念(有对应的主题词),以便选择专指标引词,例如“卫星长期水文预报”应分解为:水文预报、长期预报、气象卫星,而不应分解为:水文预报、长期、卫星。因此应对主题词的组配规则进行大大的简化。

(2)逻辑组配与字面组配问题。 逻辑组配是主题标引的基本规则之一,但有时完全采用逻辑组配反而可能导致检索效率降低。例如“垂体肿瘤”,按逻辑组配应选“垂体疾病”和“肿瘤”组配,而用“垂体”和“肿瘤”则视为字面组配,但相同主题结构的“滑液囊肿瘤”(事物—方面),因词表中无“滑液囊疾病”一词,用“滑液囊”和“肿瘤”组配却属逻辑组配,这种区分是用户无法理解和掌握的。因此按一般用户习惯的字面组配应是允许的,比如用“垂体”和“肿瘤”组配。

(3)越级组配问题。一般而言越级组配会影响检准率, 但必须顾及用户对词表的掌握程度和检索习惯,否则可能事与愿违。如“农业科学史”、“造船工业经济史”,按专指性组配规则应分别用“农业科学”和“自然科学史”、“造船工业”和“重工业经济史”组配,但用户查找过程中使用“农业科学”和“历史”、“造船工业”和“工业经济史”(甚至“经济史”)组配检索的几率更高(越级组配)。这个问题必须借助于上位词标引才能解决。

6.关于专指性标引

主题标引的基本规则之一是使用专指的主题词标引(包括使用专指的主题词进行组配),但有时如果机械地遵循专指性规则,可能导致检索效率降低。例如《核、化、生武器防护手册》一书,按专指性规则应标引为:

606a对原子化学细菌武器防护×手册

这里有两个问题,一是对于查找“三防”的用户来说,不容易想到该专指词,即使有联机词表可用,也较可能从“三(防)”或“防(化学、细菌)”等字入手查词,“三防”是非叙词,可指向正式叙词,但从“防”入手则查不到专指词,就会产生漏检;二是对于分别查找“核武器”、“生物武器”、“化学武器”防护或杀伤力的用户来说,该文献也是有价值的,用户往往会从“防”、“核”、“原”、“细”、“生”、“化”入手查词或使用上述字起首的语词检索,而极少从“对”字入手查找,结果都会产生漏检。因此使用专指词标引时(特别是专指词不能与相关的主题词字面成族时)还必须考虑用户可能的检索入口,提供必要的指引,不能认为只要选择了专指词标引就达到了目的。就该文献而言,“核武器”、“化学武器”、“生物武器”、“防化学”、“防细菌”、“防原子”都是必要的标引词。当然这个问题也与叙词表编制的选词、标引深度、分析标引等相关。

7.关于上位词标引

使用上位词标引主要有两个作用,一是能根据检索的需要灵活地扩大或缩小检索范围,从较宽泛的词入手也可以查到较专指的文献,提高检全率。二是可以通过较宽泛词之间的组配或较宽泛的词与专指词之间的组配,查到所需的专指性文献,这对用户来说是十分有用的。以下面的词族为例:

经济学

·部门经济学

··农业经济学

···林业经济学

····森林生态经济学

·生态经济学

··森林生态经济学

《湖北天然林生态经济学》应标引为:

606a天然林x森林生态经济学y湖北省

(1)当用户不知道有“森林生态经济学”一词时, 比较可能选择的检索策略有:①“森林(或林业、或天然林)&生态学&经济学”、②“森林(或林业,或天然林)&生态经济学”、③“森林生态学&林业经济学(或经济学)”,显然都查不到该文献,除非使用前方一致的方法如“森林*”或“森林生态*”(* 为右截断)可以避免部分漏检,但检准率较低。

(2)很多专指性论题中包含用户宽泛检索的内容, 特别是当检出文献量不足需要扩检时,例如用户全面查找“生态经济学”或“林业经济学”时,该文献可能也属于他所需的范围但必然漏检;又如全面检索“中国生态经济”的文献,因未标引上位词“中国”,也可能产生漏检。

(3)在宽泛的浏览检索中发现所需的文献, 是用户一种重要的检索行为,没有上位词标引就不能提供这种检索功能。

显然,上位词标引对面向用户的机检系统来说是极为必要的。上位词标引最佳的方式是通过机内词表实现上位词自动登录,在没有上位词自动登录功能的编目系统中,可借助机读词表或印刷型词表进行上位词的手工标引,但因这样工作量太大而无法实现。较实用的方法是可根据叙词表词族编制的特点和文献主题的特点,选择直接的上位词、用户最容易联想(或使用)的上位词或族首词作辅助标引。上例可选择“生态经济学”和“林业经济学”作上位词手工标引。

8.关于自由词的使用

受控语言和自然语言的结合是检索语言发展的大趋势,计算机技术的应用为这种结合提供了条件,由于今后的机检系统都是直接面向各类用户的,自然语言的使用就显得更为重要。自然语言切入的途径之一是利用“后控制词表”技术为用户提供使用自然语言检索的接口。但在目前我国尚未普及后控制词表的条件下,大量使用自由词标引则是最简便有效的途径。我国现有的词表“入口词”比率相当低、词表的修订周期又相当长,与科学技术高速发展相伴随的检索需求矛盾越来越突出,自由词标引的必要性也日益显露出来。以往的主题标引规则都强调对自由词的使用要严格控制,其实在机检文档主题标引中是不必要的,因为它只能给用户的检索带来便利,而不会产生负作用。自由词可广泛用于专用特称、新主题、同义词、组代词和复杂主题描述等方面的标引。例如:

《怎样使用HTML语言编制网页》可标引为:

606a程序语言a计算机网络

610aHTML语言a超文本标记语言a网页

《搜索引擎与虚拟图书馆的实现》可标引为:

606a图书馆×虚拟存取×计算机网络

606a计算机软件a网络软件

610a搜索引擎a网络机器人a虚拟图书馆a电子图书馆

可以想象如果没有610字段的自由词标引, 该文献几乎无法被检索出来,其重要性由此可窥一斑。广泛使用自由词标引,不但通过自然语言的介入大大提高检索效率,同时也为叙词表的修订和后控词表的编制提供宝贵的数据。《中国分类主题词表》即将开始修订,剔除旧词补充新词的工作应主要参考各种文摘索引数据库的关键词标引和书目数据库的自由词标引所积累的数据,因为它们都是有文献保证的。

〔收稿日期〕2000—01—21

标签:;  ;  ;  

计算机检验中文图书主题索引技术研究_主题词论文
下载Doc文档

猜你喜欢