计算机环境下中文文献主题索引研究_主题词论文

计算机环境下中文文献主题索引研究_主题词论文

计算机环境下中文文献主题标引问题研究,本文主要内容关键词为:中文论文,文献论文,环境论文,计算机论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1. 主题标引现状

北京图书馆于1984年制定了我国第一部中文文献主题标引细则《北京图书馆中文图书主题标引条例》,开启了我国图书馆界中文图书主题标引工作的先河,但由于主题标引难度较大,专业性强,在我国图书馆未得到广泛开展。据报道,到上个世纪九十年代末,在已实行计算机编目的图书馆中,有61%的馆未做主题标引,比例相当大。

主题标引工作随着计算机编目的开展而逐步发展起来。目前,国内大部分图书馆使用计算机编目,采用叙词法的原理方法进行中文文献主题标引。越来越多的读者利用计算机检索所需文献资料,而主题词检索则是最受欢迎的检索途径之一。目前,国际上许多大型的文献数据库都是通过主题词、关键词进行联机检索的,通过构建网上图书馆虚拟文库来检索专题信息。由此可见,以主题标引为基础的主题检索是当今图书馆现代化发展的必然趋势。

2. 存在的问题

2.1.计算机中文文献主题标引与读者检索的矛盾

随着计算机技术和网络技术的不断发展,在长期的主题标引工作实践中和读者检索过程中,逐渐暴露出主题标引方面的一些问题。

现在的计算机技术非常先进,国内许多图书馆已经基本实现了计算机联机联合编目与书目资源共享。在计算机环境下编目所产生的文献机读目录,能为读者查找文献资料提供尽可能多的检索途径。尤其是文献的主题标引,是最直接的揭示文献的内容特征,方便读者检索,因而读者检索的频率很高。可是,读者利用主题词检索的方便性和检索的效果却不尽如人意。为了深入了解这一问题,2003年10-12月,我们进行了一项读者问卷调查。调查向中国人民大学读者发出200份问卷,收回189份。调查的对象包括学生和教师,既有本科生,也有研究生。通过调查结果(表1)可以分析出,在主题标引与读者检索需求之间存在的问题:

表1读者检索调查问卷

┌───────────────┬──────┬───────────┬────────┬─────┬──┐

│您知道主题词/关键词的意思吗? │均知:81│知主题词:23 │知关键词:69│不知道:13│未 │

│ ││ ││ │答3 │

├───────────────┼──────┼───────────┼────────┼─────┴──┤

│您用主题词检索吗?│经常用:109 │很少用:73│不用:6 │未答:1 │

├───────────────┼──────┼───────────┼────────┼────────┤

│您用关键词检索吗?│经常用:129 │很少用:60│不用:0 │未答:0 │

├───────────────┼──────┼───────────┼────────┼────────┤

│用主题词检索能否满足需求?│能: 16 │有时能:141

│不能:25│未答:7 │

├───────────────┼──────┼───────────┼────────┼────────┤

│用关键词能否满足需求?│能:51 │有时能:113

│不能:22│未答:3 │

├───────────────┼──────┼───────────┼────────┼────────┤

│您明白主题词间"用代属分参"的 │明白:2 │知道一点:29 │不明白:141 │未答:7 │

│关系吗? ││ │││

├───────────────┼──────┴───────────┴────────┴────────┤

│检索专题性较强的文献时│A.主题词/关键词能检索到相关文献吗? │

│ ├──────┬───────────┬─────────────────┤

│ │能:147 │不能:35 │未答:7

│ ├──────┴───────────┴─────────────────┤

│ │B.您对主题词/关键词检索的结果(查全率和查准率)满意吗? │

│ ├──────┬───────────┬────────┬────────┤

│ │很满意:2

│ 一般:109

│ 不满意:59│ 未答:19 │

├───────────────┼──────┴───────────┴────────┴────────┤

│ 检索交叉边缘和新兴学科或领域│ A.主题词/关键词能检索到相关的文献吗? │

│ 的文献时││

│ ├──────┬───────────┬─────────────────┤

│ │ 能:146

│ 不能:28│未答:15 │

├───────────────┼──────┴───────────┴─────────────────┤

│ │B.您对主题词/关键词检索的结果(查全率和查准率)满意吗? │

│ ├──────┬───────────┬────────────┬────┤

│ │很满意:2

│一般:100 │不满意:59 │未答:19│

└───────────────┴──────┴───────────┴────────────┴────┘

(1)真正了解主题词和关键词的含义及其区别的人很少,他们是凭借丰富的专业知识进行检索,所以他们的检索思路难以符合主题标引规则。

(2)读者手中没有《中国分类主题词表》,也不了解复杂的主题标引规则,完全是凭感觉。

这里的主要原因是:首先,读者不熟悉情报检索系统的数据结构:其次,读者不太了解规范的主题词,更不知道主题词之间的各种组配关系。对于他们来说,传统的标引规则,组配方法过于复杂,不可能用更多的时间去学习、掌握,所以对检索用词的选择往往有较大的随意性和盲目性,致使标引用词与检索用词的矛盾日渐突出,在检索效果上不能令人满意。

2.2.MARC格式与传统主题标引的矛盾

计算机编目的一个突出特点,是MARC格式的应用。使用MARC格式进行主题标引,可以加深主题标引的深度,较之传统的主题标引,可以标引得更全面、更准确、更丰富。在计算机环境下使用CNMARC格式进行中文文献主题标引,国内图书馆基本还是沿用传统中文文献主题标引工作细则。虽然工作细则按照计算机编目的需要进行过多次修订,但始终没有触及传统中文文献标引的一些观念、规则和方法。

为了对中文文献主题标引工作现状有更深入的了解,我们又进行了编目员主题标引问卷调查。共有包括北京、上海、武汉、广州等地24个高校图书馆的编目员接受了调查(表2)。调查结果显示:

表2 编目员主题标引调查表

┌──────────────┬────────────────┬───────────────┐

│贵馆主题词轮排吗? │轮排:6 │不轮排:18│

├──────────────┼────────────────┼───────────────┤

│您认为计算机环境下需要 │需要:4 │不需要:20│

│轮排吗?││ │

├──────────────┼────────────────┼───────────────┤

│主题标引深度是否应限定?│应该:12│不应该:12│

├──────────────┼────────────────┼────────┬──────┤

│如何标引深度? │具体规定:4(2~10;2~5;1~5;│依具体文献:19 │未答:1 │

││3~5) │││

├──────────────┼────┬────┬──────┼──────┬─┴──────┤

│贵馆主题标引深度是 │1~3∶4 │3~5∶9 │5~8∶1 │9个以上:1 │未规定:9

├──────────────┼────┴────┴──────┼──────┴────────┤

│贵馆启用610字段吗? │用:14 │不用:10 │

├──────────────┼────┬────┬──────┼────┬──────────┤

│贵馆主题词组配使用 │|x: 13│:∶ 3 │-: 2

│其它:1 │注:由于改变调查表,│

││││││此项只含19家│

├──────────────┼────┴────┴──────┼────┴──────────┤

│您认为使用|x:-对检索有影响│有:11 │没有:13 │

│吗?││ │

└──────────────┴────────────────┴───────────────┘

注:有效问卷24份。

(1)83%(20/24)的图书馆主张计算机环境下主题标引不进行轮排。事实上,75%(18/24)的图书馆已经不轮排。

(2)79.2%(19/24)的图书馆认为应该依据具体的文献确定标引深度。事实上,62.5%(15/24)的图书馆规定了具体的标引深度。

(3)58.3%(14/24)的图书馆使用610字段进行非受控标引。

(4)对使用|x与使用“:”和“-”对读者检索有无区别和影响的认识上,54%(13/24)的馆认为没影响。

通过此调查表,可以看出,在主题词轮排、标引深度、组配方法、610字段的使用等方面各馆作法并不一致。在《中国机读目录通讯格式》中,“6--”字段为主题分析块。国内各个图书馆在使用“6--”字段进行主题标引时,对字段和子字段的理解不统一,对主题标引细则执行得也不完全一样。出现了CNMARC格式主题标引和主题标引细则的矛盾。传统的《中文文献主题标引工作细则》为了达到标引的准确、专指,过多地强调主题标引的诸个因素,强调主题词的轮排,概念的交叉限定组配和标点符号的严格规定,等等,而忽视了对CNMARC格式的理解和运用,忽视了计算机检索系统的特点和读者检索的需求特点。

3.几点建议

随着计算机技术和网络技术的不断发展,图书馆的文献主题标引工作也应该不断革新。我们应该解放思想,以现实和发展的眼光对待中文文献主题标引工作。

3.1完善编目软件功能,尽快建立统一的机读目录主题规范数据库,实现书目数据库与规范数据库的联接

编目员在主题标引过程中键入某一主题词后,软件系统应能提示该主题词及其组配形式在系统中被标引的历史记录,并可查询规范词表。如果不是正式主题词,可通过相关参照系统自动链接到规范主题词库,显示出与其对应的主题词。这将大大方便编目员的主题标引工作,并可提高标引的一致性和准确性,其二,由于主题词与检索词的差异,编目员使用规范的主题语言标引文献,读者使用熟悉的自然语言进行主题检索,两者应能通过计算机进行联接。即建立一个从非规范词指引到规范词的入口词库,读者可以通过快速浏览系统从一个自由词检索到主题机读规范数据库里的规范主题词,实现标引词与检索词的互换。这将大大提高查全率和查准率,达到提高读者检索效率的目的。

3.2.取消主题词轮排

在传统手工主题标引工作中,主题词的轮排是为了增加标引深度,达到增加检索途径,提高检全率的目的。现在使用CNMARC格式进行主题标引,利用计算机网络环境下的机读目录检索系统检索,记录中的任何信息都可能作为检索点,似乎没有必要进行轮排。例:超音速飞机:轰炸机--结构设计

这组主题词使用606字段标引时,不同的编目员会有不同的标引结果。

结果(1):6060|a超音速飞机:轰炸机--结构设计

6060|a轰炸机:超音速飞机--结构设计

6060|a结构设计--超音速飞机:轰炸机

有的编目员把它照原样放在606字段的|a子字段里,有的还要重复使用606字段进行轮排,以加深标引深度,生成3个不同的入口词。

结果(2):6060|a超音速飞机|x轰炸机|x结构设计

这种作法是把第一个主题词放在606|a子字段里,其它的分别放在|x子字段里。这里的主体因素,也就是a款目要素,是文献研究和论述的关键性主题概念。作为主体因素的主题词可以有一个或多个,每个主题词都有检索意义,都应该是一个检索点。可以在多个主题词之间运用组配规则,用|x代替组配标识符号进行概念组配。在计算机检索系统,用结果(2)的标引形式即可达到检索目的,又不用轮排。

3.3.提高组配标识的易懂性

在主题标引工作中,文献的复合主题要进行概念组配。主题词与主题词之间用组配符号连接。组配标识符号的作用是表达主题词之间的各种关系。如“:”表示概念相交关系,“-,’表示概念限定关系,等等。如3.2所举之例,在多个主题词之间运用组配规则,用组配标识符号进行概念组配。通过调查表我们得知,读者并不知道主题词这些概念上交叉与限定的组配符号的作用,在读者眼里,这些符号没有任何实质意义。而编目员在主题标引时,有时花很多心思琢磨,它们之间应该用“:”,还是用“-”。笔者认为,应该淡化概念交叉和概念限定的关系,在606字段的|a不再区分“:“-”的含义。况且检索时,任何标识符号都不起作用。如果用CMARC格式进行主题标引时,简化这些组配符号,一律用“|x”代替,不仅读者容易识别,还可以减少编目员花在这上面的时间,把主要精力用在分析文献主题标引上。

3.4.提高组配标引的灵活性

中文文献主题标引细则中强调,对中文文献必须进行概念组配标引,不能字面组配。而在实际检索中,由于字面组配形式含义直观,一目了然,大多数读者更习惯于这种直观的标引形式,而字面组配也不会造成误检。相反,对于主题词概念的交叉组配形式,读者会觉得难懂。在计算机环境下的主题标引,是否能够根据计算机检索系统的特点和读者检索的特点,灵活变通一些。

例:《企业成本管理》

标引:6060|a企业管理:成本管理

不能标引成:6060|a企业|x成本管理

对于编目员来说,他能理解这是概念上具有交叉关系的主题词组配标引,而读者可能想不到还要把它们分解成两个概念,他对第二种标引的理解更快捷,一目了然。

3.5.完善610字段的设置

当主题标引遇到有的文献主题不能用词表中的现有主题词进行组配表达,用上位标引过于宽泛,用近义词标引又不能准确表达文献主题时,应该考虑用自由词标引。

610字段是用自由词标引的非控主题词字段。通过增加自由词的标引,可以增加一些读者熟悉的专业词汇、名词术语作为检索入口,从而提高读者的检索效果。当然,自由词的使用不能过于随意,它只能是组配标引的补充,应该遵循一定的规则。随着新学科新事物的不断涌现,《汉语主题词表》的修订工作不可能超越时代的发展。使用610字段是弥补这种缺憾的方法。但610字段只设置了一个子字段|a款自要素,没有其它子字段复分,对主题的表达不完整,影响使用效果。610字段应该与其它主题字段一样,设置统一的子字段。

3.6.重新修订中文文献主题标引细则

《中文文献主题标引细则》是编目员进行主题标引工作的依据。当前,应该有一个适合在计算机环境下的新的《中文文献主题标引细则》。该细则应该充分考虑到计算机检索系统的特点和读者检索的需求和特点。该细则应该力求简明、易操作,以充分揭示文献内容、满足读者检索需求为原则,借以指导具体的中文文献主题标引工作。

标签:;  ;  

计算机环境下中文文献主题索引研究_主题词论文
下载Doc文档

猜你喜欢