“中国分类叙词表”的两个对应词库_主题词论文

“中国分类叙词表”的两个对应词库_主题词论文

《中国分类主题词表》的两种对应依据,本文主要内容关键词为:词表论文,两种论文,中国论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

《中国分类主题词表》是我国分类主题一体化的产品,是信息资源组织的重要工具。《中图法》编委会于2004年推出的《中国分类主题词表》电子版,把《中国分类主题词表》推向当前的信息环境,促使我们继续探索这种兼容型情报检索语言的内部形成机制,并分析它的兼容根据。

兼容型情报检索语言包括多种分类法语言的兼容、多种主题法语言的兼容、一种分类语言与一种主题语言的兼容,及多种分类语言与多种主题语言的兼容等,其中分类法与主题法系统的兼容是各种兼容形式的核心。

编制一体化兼容词表,进行类目与主题词对应转换时,存在如下3种可能。

第一,字面对应。罗列与类目有关的叙词,没有按正确的逻辑关系和语义关系将这些叙词组织起来,近似于为类目作了某种程度的注释。

第二,概念对应。针对类目的涵义,将叙词用正确的逻辑关系和语义关系组织成有机统一整体,对应给类目,为类目找到了形式不同而内容一致的替代品。

第三,虚拟对应。以类目体系为媒介,虚拟出类目体系可以包容的文献资料,然后对该文献资料作主题标引,再把主题标引的结果对应给类目体系。作为对应转换依据的文献资料是虚拟的。

上述3种情况从对应依据方面,可以概括为基于类目涵义的一体化对应方式和基于文献标引的一体化对应方式。

1 基于类目涵义的一体化对应方式

基于类目涵义的一体化对应方式,要充分分析分类法类目的确切涵义和范围,将符合条件的主题词无遗漏地对应在该类目之下,用主题法形式揭示分类法类目的内容。

这种方式一般分5种形式:①一一对应。叙词和类目完全一致。分类法类目和主题词最大限度地重合形成完全对应关系。在《中国分类主题词表》中,类目词用黑体字,与类目词一致的叙词也用黑体字,黑体字叙词成为最代表该类内涵的对应结果。②增词对应。分类法涵盖的某些意义在主题法中找不到,主题法的专指意义有的在分类法中也找不到。分类法比较概括,对应叙词时如果没有确切类目,改换近似类目对应比较容易,即可以靠类对应,但是主题词专指,与类目意义对应时发生问题,很难用近似的叙词解决。这种情况下,必须考虑增词对应。增词对应也是完善叙词表,保持主题法新颖性和实用性的需要。③上位对应。首先,分类法由概括向具体层层展开类目体系的过程中,不可能无遗漏地列举该类目包含的所有方面。对没有细小类目可以对应的叙词则用比较概括的上位类目予以对应。其次,某一叙词与需要仿分或复分的类号对应,为了不更改分类法的布局,把这种叙词对应在未仿分、复分的上位类目中。④组配对应。分类法类目概念多为复合形式的主题,主题法的词汇比较具体,其概念多为单元形式的主题。一种是先组式语言,一种是后组式语言,差异性使得为了描述类目涵义必须使用叙词的组配形式,以完成意义的对等转换。⑤包含对应。某一叙词不与类目涵义对等,但它是该类目所规定范围内的一部分,比如,该叙词的学科归属在这一类目,或者叙词与类目存在整体与部分的关系,也要对应在该类目之下。

通过上面的5种方法,完成类目涵义与叙词意义的兼容。一一对应方式是分类法与主题法结合得最好的对应方式;增词对应为了与分类体系取得一致,将主题系统灵活处理;上位对应将分类体系灵活处理;而组配对应和包含对应两种方式利用分类法与主题法的差异实现完满兼容。

2 基于文献标引的一体化对应方式

基于类目涵义的对应方式,要揣摩分类法类目列类意图,用叙词诠释类目,翻译式地对应倾向很严重。如同从纯理论的角度建立空中楼阁,缺乏有针对性地满足文献标引的需要。虽然分类法和叙词法在列类选词时已经考虑文献保证原则,收入的类目和叙词具有实际文献标引的价值,但是处于各自独立形态中的两种情报检索语言的文献保证价值不等于一体化语言的文献保证价值,一体化语言的对应,需要考察一体化文献标引实际,研究《中国分类主题词表》对应起来的分类号与主题词,分析它们在同一文献的标引中能够共现的概率。

这样,产生了基于文献标引的一体化对应方式。基于文献标引的一体化对应方式的原理可以表述为:标引词A标引了文献X,标引词B也标引了文献X,那么,不管A与B在内涵与外延、形式与内容或方式与方法上有多大的差异,从标引指代共同文献X角度讲,A与B是相等的,而相等的情报检索语言是可以对应转换的。

它首先以文献为依据,将标引同一文献的分类号与主题词建立等同关系,并不断地积累文献样本数。随着被统计文献的增多,分类号与主题词之间建立的等同关系的频次也增大。频次成了定量描述分类号与主题词相关性的依据,选取一定的频次阀值,比如规定在同一文献中共现10次以上的分类号和主题词,才确认等同对应兼容关系,不足10次的,难以排除随机偶然因素,则不建立分类号与主题词的等同对应兼容关系。以这种方式建立起来的分类主题一体化词表,是从已经一体化标引的结果中采用数理统计方式形成的,它最大限度地实现一体化对应的文献保证原则,具有很强的文献标引实用性,是基于类目涵义的一体化对应方式所不能比拟的。

《杜威十进分类法》与《美国国会图书馆标题词表》的一体化兼容词表是用基于文献标引的一体化对应方式建立起来的典范。《杜威十进分类法》重视传统分类法的电子化改造,适时完成计算机化管理。因它在分类标引和检索中的地位,美国俄亥俄学院联机图书馆中心买进电子版杜威法,固化在联机系统的内部,各成员馆使用电子版杜威法标引。随着俄亥俄联机图书馆中心由编目中心向检索咨询中心转变,该电子版分类法不仅用于机读目录的标引,也用于数据库的检索查询。《美国国会图书馆标题词表》是美国国会图书馆的主题标引工具,国会图书馆是美国第一大图书馆,该词表的影响远远超出一馆范围,在俄亥俄学院联机图书馆中心的机读目录数据中,20%是美国国会图书馆提供的,而且这个标题词表和杜威法一样,成为机读目录数据的标引、查询工具,杜威法和国会图书馆标题表的标引记录共现在编目数据中。计算机管理系统能够自动统计基于文献标引的分类号、主题词一体化的共现频次,为词表的编制提供依据。然后通过计算机自动匹配,将符合一体化条件的分类号和叙词建立等同对应关系,形成一体化词表。基于文献标引的一体化对应方式由机器自动生成,人工干预很少,与基于类目涵义的一体化对应方式相比,如《中国分类主题词表》集中全国数十家几百位工作人员力量,多年奋战成一表,要优越得多。

国外分类主题一体化问题的探讨,也首先从不同词表的理论研究开始,比较TEST与UDC的词汇要素,发现不同类型检索语言对应互换具备可行性。随后,在五六十年代编制出几部分类主题一体化的兼容性词表,这些词表都是书本式的,而且从基于不同检索语言词汇要素涵义的理论一致角度,编制这种词表。七八十年代计算机编目和词表的机读化管理进展很快,能够方便地统计机读目录的标引数据和词表词汇的使用情况。在这种背景下,开始突破五六十年代不顾文献标引的实际,只以词汇要素理论涵义相同便建立对应关系的一体化模式。计算机管理系统能够自动统计基于文献标引的分类号、主题词一体化共现频次,为词表编制提供依据,然后通过计算机自动匹配,将符合一体化条件的分类号和叙词建立等同对应关系,形成机读形式的一体化词表。因为这种基于文献标引的一体化词表根据文献标引结果的统计,以动态方式建立,里面的对应关系随标引统计结果的变化而不断调整,所以,国外现在很少出版这种凝固的书本一体化词表,这是词表编制方式变化的结果。

我国的分类主题一体化建设,处于国外五六十年代的水平,一般从不同检索语言的词汇要素的涵义角度,以理论分析方式,将理论涵义一致的不同词汇建立一体化对应关系,是用基于类目涵义的一体化对应方式建立的词表。这种方式建立的词表稳定性比较好,而且需要将理论分析的结果变为实物式的成果。用基于类目涵义的一体化对应方式建立起来的词表,无论国外国内,都是凝固的书本式一体化词表。

随着时间推移,我国也会过渡到用基于文献标引的对应方式建立一体化词表,书本式一体化词表将逐渐被取代。2004年修订版的《中国分类主题词表》,已经呈现出这种倾向。但我们并不主张完全仿效国外的做法,因为虽然基于类目涵义的对应方式缺乏文献标引的针对性、实用性,但是基于文献标引的对应方式也暴露出缺乏理论分析完满性的弊端。

标签:;  ;  ;  

“中国分类叙词表”的两个对应词库_主题词论文
下载Doc文档

猜你喜欢