标引是文献数据库建设的关键,本文主要内容关键词为:文献论文,关键论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,随着文献数据库建设的发展,主题法文献标引得到了普遍的应用。众所周知,标引是一项重要的文献处理技术。情报学在世界范围内是一门新兴学科,标引工作是其中一个崭新的领域。对于文献数据库的建设通常有四个主要环节,即:文献收集和叙词表的编制、主题标引、检索软件研制、检索服务。其中,起关键作用的则是文献标引。
1 文献标引的重要意义
标引对文献情报工作具有重要的意义和作用,标引是各项文献工作的中心环节,它是检索工作的基础和准备阶段,是建立各种检索系统,无论是手工检索系统还是计算机检索系统的前提条件。因为,通过标引,文献获得检索标识,根据标识的同异,并按其顺序加以排列就构成了检索工具。正确的标引可使同一主题的文献正确地集中在检索工具的一条款目之下,非常便于检索。相反,标引的误差或错误,将直接影响检索效率,造成检索的混乱和困难,甚至会使整个检索系统失去效用。显然,没有标引也就不可能有真正的检索,大量的文献信息也无法得到充分的利用。
检索工作就是在通过标引工作所建立起来的检索系统中,找出用户需求课题的操作过程,这个过程就是对标引工作成果的直接应用。因此,标引工作的好坏直接影响检索的效果,检索与标引是一对相互依存、相互匹配的关系。
显而易见,标引是完成各项文献情报工作的基础工作。如果说检索系统,包括各种目录、索引和文献数据库是打开知识宝库的钥匙,那么,文献标引就是制造这些钥匙的一种关键性的劳动过程。
2 最优化文献标引
文献标引对文献数据库及其检索系统至关重要。因此,我们就要尽量做到高质量的标引,即最优化的文献标引。
2.1 最优化标引的衡量标准
2.1.1 标引的准确性,是指从“叙词表”中,选用恰当的主题词来表达文献的主题。也就是所选用的几个主题词能概括某篇文献的中心内容,无论含义和专指度都是适宜的。
2.1.2 标引深度,是指根据文献的主题分析,选用主题词的数量,或者说是指标引概念的精细程度。文献含有的有用知识或事实越多,使用标引词也就越多,文献的主题确定了,所选用的叙词数量也就确定了。文献的主题概念与所选用的叙词数量相互匹配。
2.1.3 标引的一致性,是指一篇文献在标引时所选用的叙词对相同或不同人员在不同时间和空间进行标引的一致程度。由于标引人员知识水平的差异,对同一篇文献的理解也必然有不同的深度。因此,对主题分析和主题词的确定也是不同的。即使同一个人,在不同的时间对同一篇文献的标引也会不同。当然,影响标引一致性的因素很多,人工标引很难取得完全一致,但在标引时都尽量设法缩小标引的差异,这就需要选用具有广博知识水平的标引员,建立科学的主题标引模式及一套统一适用的标引规则和词表。
2.2 标引人员的素质
我国情报专家钱起霖先生说:“标引是一种技术,也是一项艺术,更是一门科学。”一些文献也反复强调:标引工作是具有较高知识水平的人员所从事的一种高智能的活动。绝非什么人都可以干的。国外还流传一种所谓“黑匣子”的论调,说标引像一个“黑匣子”,叫人看不清也摸不到……。这种标引的神秘论也是要不得的。做好标引工作不是一件轻松和易于掌握的事,只有认真学习标引技术和理论,并在标引实践中不断分析总结经验与不足,才能把标引工作提高到一个较高的水平,做到最优化标引。标引人员做好标引工作,应具备如下素质:
2.2.1 必须具备较广博的专业知识。科学文献都是具体的某学科的专业知识。如果对这些专业内容不够了解,当然就弄不清文献的中心内容,也就无法正确进行文献标引。由于文献学科交叉,互相渗透,标引人员除熟悉本专业知识外,还应对其它专业知识有所了解。
2.2.2 要了解计算机检索的原理和方法。标引的目的就是为了建立检索系统,如果标引人员不了解文献的检索原理和方法,不了解用户对文献的需求,标引工作很难做好。反之,标引人员了解检索工作的各个环节以及用户的需求,就会有的放矢地做好标引工作。
2.2.3 必须熟悉词表的结构及找词选词方法。叙词法文献标引,是以叙词表作为选词标引的依据,如果标引人员不熟悉词表的结构和找词选词的方法,往往造成标引的失误,直接影响标引质量。具体说,就会导致找词速度慢、选词不准确,甚至把应标的重要叙词漏掉,把不应标的叙词标上去。为了熟悉词表,就要学会汉语拼音,并经常翻阅词表,逐渐了解词表中某专业词汇具体有哪些,专指度如何……
2.2.4 必须有较高的英语水平。目前,多数文献库都想进入国际数据库行列,并与国外进行交流,为国外用户提供服务,因此,文献都是中英文同时标引,要求标引员必须具备较高的英语水平。
2.2.5 必须善于分析和总结经验。标引人员要不断提高标引质量,就得在标引的实践中善于学习,善于分析,经常发现标引中的缺陷与不足,注意总结标引工作中的经验,并上升到理论上加以研究。对一些文献库系统,可定期召开标引技术研讨会,针对标引中的具体问题,加以研究解决。
2.3 标引规则的制定
建立文献数据库的关键步骤是文献标引。为了确保标引质量必须制定标引规则。尤其是多个单位、数量众多的标引人员共同建库,标引规则尤其重要。为此,国家标准局1983年制定公布了“文献主题标引规则”,各文献库参照国家标准结合自己库的特点也都相应地制定了本库的标引规则。标引规则通常包括文献标引规则和标引的著录规则。每个库都逐条作了详细规定,从而保证标引的规范化和标引的一致性。
2.4 “叙词表”的适用性
一部适用性较强的叙词表,首先是它所含有的词汇量能够满足标引的需要,而不是一些词在标引时,从词表中找不到。在体系结构上必须有主表和词族索引。这样不但可以提供充足的标引词,而且还能查到标引词的专指度。专业叙词表在词汇的排序上应做到把具有相同汉字的叙词排列在一起,以利于查找。
2.5 主题分析
任何文献都有一定主题。要对文献进行标引,就得对文献的主题进行分析。主题分析是在弄清文献主题类型、构成主题的各个主题要素以及相互关系的基础上,选定该文献应该标引的主题概念,以便从词表中选定合适的主题词进行标引。
主题分析方法一般有二种:一种是先找出文献论述的对象,再进一步查明是论述了对象哪个方面的具体问题;另一种是先找出文献所涉及的各种概念,再进一步查明它们之间的相互关系。一般说来,一篇文献分析出的主题数量不受限制,主要决定于该文献对具体需要者的情报价值以及分析水平和分析角度。文献工作者,从信息角度出发分析文献主题时,要注意文献中实际含有哪些有参考价值的知识,然后,用情报检索语言将其充分、准确、简明地表达出来。
在进行主题分析时,必须遵守以下基本原则:首先,要反映文献的固有特征,这就要求标引人员客观地分析文献,决不允许掺杂个人的观点和褒贬。在实际工作中,标引员本身的专业环境、兴趣等都可能影响标引的客观性。其次,必须站在用户的立场上,从用户需求考虑问题。因为标引的目的是为了检索,标引的最终结果也将在用户的检索过程中体现出来。所以,在分析文献主题时,应充分考虑用户的检索需要,分析选定对用户有实际意义的主题概念(包括隐含的主题概念)。
2.6 主题词的选用
对于某篇文献的几个固有的主题概念,在标引时能从词表中选取合适数量和专指度的叙词与之匹配,这就是最佳标引,也称适度标引。然而,要做到适度标引是非常困难的,因为一篇文献往往可以综合为一个主题概念,也可以分析为多个主题概念。所以对每篇文献应选择多少个叙词标引最为适宜是无法作出强行规定的。评价一篇文献的主题概念,也会因人而异,往往造成深标引和浅标引的不同。实践证明,标引时选用的叙词过多过少都是非常有害的,标引人员应尽量做到适度标引。如果说“词表”定了,文献中的有用知识和事实定了,标引词的数量也就基本定了下来。显而易见,适度标引与词表质量、主题分析有着直接的关系。
3 几种标引方法
3.1 人工受控标引
人工受控标引是目前应用最普遍的方法。由于在标引时选用的叙词是标引员通过主题分析从词表中直接选用的,这就是人工标引。而标引词的选择范围因受词表的控制,又称受控标引。从长远看,人工受控标引逐渐会被机器自动标引所取代,或发展成“自身文献标引”。这种标引是文献作者在掌握标引技术的基础上,由作者选词直接标引到文献的最后部分。将来这种标引方法能否广泛使用,关键在于能否在广大科研人员中普及标引技术。使作者标引在质量上能达到较高的水平。
3.2 计算机辅助标引(联机标引)
这种标引方法是标引人员在计算机辅助下进行的标引。其中,起主导作用的仍是标引人员。计算机辅助标引就是在计算机系统中建立一个词库,这个词库根据词型的特点,把前后一致和各个叙词的相互关系也反映出来,使之能向标引人员提供尽可能多的启示,以从中挑选出最佳标引词。采用联机标引后,先由标引人员把文献输入计算机,然后,再由计算机根据输入文献中的词元,从词库中找出一系列的候选标引词,标引员从中挑选合适的标引词。此外,标引员也可自己键入一词或词的前缀,计算机可据此从词库中找出一系列的候选词。联机标引是人和计算机的相互配合,因此,比机器自动标引更能准确地揭示文献的主题特征。然而,实现联机标引遇到的主要困难是建立词库,即把词表全部输入计算机,而且要求每位标引员都必须熟练地使用计算机。
3.3 计算机自动标引
近年来,我国一些情报专家正在研究计算机自动标引,并取得了许多可喜的进展,但还没有完全达到实用阶段。主要是准确性及适用性还不够令人满意。文献数据库大多仍采用人工标引的方法。计算机自动标引基本有二种方式,一种是由计算机自动从文献的标题、摘要中抽取词汇,直接进行标引。另一种是由计算机自动抽出词汇,然后再把这些词进行优选,把优选出的词标引进去。用机器标引最简单的是关键词标引,其过程是把标题或文摘中的词划分为二类,一类是对检索有用的,一类是对检索无用的,标引时要去掉那些无用词,即“非用词”,这些词指冠词、连词、介词一类的虚词,去掉非用词后,剩下的词认为是关键词。要有效地抽取关键词,第一步先人工建立一个“非用词表”;第二步从标题(或文摘)中用比较的方法去掉非用词,以取出有用词;第三步把取出的词再用词表做进一步的自动规范处理,转换成正式主题词。这样即可实现计算机的自动标引。
综上所述,建立一个具有高效率检索系统的文献库是非常不容易的,除要强化建库的各个环节外,关键就是要组织好标引队伍,对标引员进行培训,在编制适用叙词表的基础上,制定严密的文献标引规则,确保标引的规范化。同时,还要对标引工作单进行严格的校审,纠正漏标、误标及标引的技术性差错,从而做到标引的高效率、高质量,实现最优化标引。
标签:文献论文;