分类法主题法一体化自动标引系统的基本原理和方法,本文主要内容关键词为:分类法论文,基本原理论文,方法论文,主题论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[摘要]本文阐述基于文献题名的自动标引系统的原理和方法,该系统是分类法主题法一体化的。文中说明了依据文献题名对文献进行分类和主题标引的可行性、从题名中自动抽词、以体系分类法为基础的自动分类用分类词表、自动分类规则及以分面分类法为基础的文献自动分类、自由体系自动分类、半自动抽词、检索系统的分类法主题法一体化检索功能、保证检索系统质量的关键因素等问题。
[主题词]自动分类 自动抽词 检索系统 分类法主题法一体化
[分类号]G254—39
1 依据文献题名对文献进行分类和主题标引的可行性
文献题名是对文献主题内容的概括说明,可以认为它是作者自己对文献主题内容用自然语言表达的“标引句”。作者在拟写文献题名时,一般都是十分审慎,力求题名能正确表达文献主题。所以,文献题名与文献内容的相符率很高。特别是科技文献的题名,据统计,89.2%能较好地反映文献的主题内容,10.57%与文献主题内容部分相符,只有0.23%与文献内容不符。当然,由于题名不能太长,所以,在反映文献主题内容的充分程度方面,有一定局限。
文献题名中的词作为标引—检索用词的可行性,早已为种类繁多、广泛流行的各种关键词索引和检索系统所证明。以文献题名中的词作为自动分类的依据,同样是可行的。研究生金巍在我和王永成教授指导下设计的“中文文献自动分类系统”,以肿瘤学专业文献题名为试验材料,据她的试验结果,自动抽词(利用王永成教授的抽词软件和她自编的抽词用部件词典)的人机相符率达89%,自动分类(利用她自编的自动分类用关键词分类表)的人机相符率达85%左右。如果对抽词词典和分类表继续改进,自动抽词和自动分类的质量还可有一定程度的提高。该系统既可进行分类检索,也可进行关键词检索,还可进行分类号与关键词混合检索。
这里所用的自动分类方法,是基于分类表结构原理和通常的类目内容范围划分规则的自动赋号法。与自动聚类法相比,这种自动分类方法更为简单而且可靠。
为了指导研究生,我曾用情报语言学原理作过思考,我认为,绕过自动聚类法的研究路线是可能的。现将我所发现的一些基本原理和方法说明如下。
2 从题名中自动抽词
自动分类必须以自动抽词为前提。中文的自动抽词必须借助于用词词典,或用词词典与非用词词典并用。用词词典中还应包括非正规的但往往在文献题名中出现的词。抽词词典越丰富,抽词完全率和正确率越高。从索引、文摘、数据库著录的实际题名中收集词典素材是最为有用的,但也应从其他途径(如词表、专业词典等)收集。
用词词典和非用词词典最好齐备,以便通过用词词典将题名中的有用词抽出,通过非用词词典将题名中的无用词删除,剩下的“垃圾”应通过人工判别,查明是词典不完备而漏抽的词,还是误抽而把一个整词分成了两半,以便改进抽词词典或抽词规则。
3
以体系分类法为基础的自动分类用分类词表——词—分类号双向对应表
以体系分类法为基础的文献自动分类需要一种自动分类用分类词表。这种分类词表是词—分类号双向对应表,分为分类号—词对应表和词—分类号对应表两部分。
先编制分类号—词对应表。如果使用《中图法》,需将《中图法》分类表改造成分面分类表,把词对应到相应的分面中,但原有类目内容和分类号不需要改变。我在《情报语言学基础》一书第三章说明过体系分类法的构成原理,在该书第四章及《情报语言学基础问题选讲》一书有关部分说明过组配分类法的构成原理和两种分类法原理上的相通之处。文献主题一般都是由多个主题因素构成的,各个主题因素在体系分类表中都有其对应的类目。例如,“客车传动系统设计”这个主题,分入“U463.1汽车传动系统”、“U462汽车设计”、“U469.1客车”三个类目或其中的任何一个,从事物概念的多向成族性看,都是正确的,以哪个类作为主要类,这只是“集中与分散”的需要不同而已。依据一般分类规则把上述主题分入“U469.1客车”类目,就是按事物集中,是把该类作为主要类目。所以,可以把《中图法》中的汽车理论、汽车设计和计算、汽车构造、汽车发动机、汽车材料、汽车制造工艺、汽车试验、汽车制造厂、各类型汽车、汽车驾驶与使用、汽车保养与修理、汽车燃料与润滑料12个类作为12个分面,把所有汽车专业的词都对应到这12个分面中,将《中图法》原有的分类号给予每个词。这样,分类号—词对应表就基本编成了(还少必要的注释)。这个表按分类顺序排列,主要供检索用。
词—分类号对应表实际上是词与分类号的对应表,由分类号—词对应表倒转过来编成的,按词的字顺排列。这个表用于对文献自动分类标引。
在自动标引过程中,将从文献题名中自动抽出的词通过与词—分类号对应表核对,赋予《中图法》的分类号,建立分类号索引,提供分类检索途径。同一题名中的词因为分属于不同的分面,其分类号也就有多个。词仍应保留,建立词索引,提供主题检索途径。
在对应表中如果能将等同关系词选定一种词形为正式词,其余为非正式词,设置非正式词转换成正式词的功能,则更好。
4 自动分类规则
这里所谓自动分类规则,是指从一篇文献获得的多个分类号中确定一个主要分类号(相当于排架分类号,但不全都是)的规则。
确定主要分类号的依据,实际上就是图书馆中通行的文献分类规则(主要是所用体系分类法的类目内容范围划分规则)。根据通行的分类规则,将各个分面定出一个优先次序。一篇文献所获得的几个分类号中,哪个分类号所属分面在别的分类号所属分面之前,就确定那个分类号为主要分类号。如果遇有两个分类号所属分面并列,则两个分类号均为主要分类号。
上述列举的汽车专业的12个分面,其优先次序是:
(1)各类型汽车
(2)汽车构造(即汽车零部件);(2)汽车发动机
(3)汽车材料
(4)汽车理论;(4)汽车设计和计算;(4)汽车制造工艺;(4)汽车试验;(4)汽车驾驶与使用;(4)汽车保养与修理
(5)汽车制造厂;(5)汽车燃料与润滑料
例如:
[汽车]设计(4)
其中“设计”为主要分类号
[汽车]传动系统(2)设计(4)
其中“传动系统”为主要分类号
客车(1)传动系统(2)设计(4)
其中“客车”为主要分类号
对主要分类号必须加一个标志,以便在检索中必要时与其他次要分类号能区分开来。
5 以分面分类法为基础的文献自动分类
以分面分类法为基础的文献自动分类,其所用分类词表也分为两部分。
分类号—词对应表部分的编制极为简单,只要把从文献题名中自动抽出的词对应到分面分类表相应的类目下即可。
词—分类号对应表也只要将分类号—词对应表倒转来就成了。
文献自动分类后的完整分类号,是根据分面分类法的分面公式构成的。若为后组式使用,则无须构成文献的完整分类号。
应当指出,以分面分类法为基础的文献自动分类,并非先要有现成的分类表不可。在大量文献的基础上,把从题名中抽出来的词整理成分面分类词表,也是可以的。
6 自由体系自动分类
这里所谓“自由体系”,是指分类体系可根据具体需要来确定或调整。上面曾提到体系分类法中的“集中与分散”问题,也谈到自动分类规则,即将分类号—词对应表部分的分面排成次序,以优先的分面决定文献的主要分类号问题。其实,这种分面的优先次序是可以随需要确定或调整的。这样,就可改变分类法中“集中与分散”的状况,以适应某种具体需要。
7 半自动抽词
从题名中抽词,采用半自动方式也是可以的。所谓半自动方式,是在题名中加插切分符号(并可作适当修改,如把“目录与版本学家”修改成“目录学家版本学家”),然后用计算机将其切开并整理。这是不用抽词词典的一种方法,比较简单。在起初阶段,也可用这种半自动抽词的方法为抽词词典收集素材。当然,这种半自动抽词方法的抽词速度较低。
8 检索系统的分类法主题法一体化检索功能
用上述自动化方法建立的检索系统,可以说是分类法主题法一体化的检索系统,其检索功能有:
(1)可用单个分类号检索;
(2)可用几个分面的分类号组配检索;
(3)可对同一分面的分类号进行“逻辑和”检索或截号扩检;
(4)可用单个词检索;
(5)可用几个词组配检索;
(6)可用词与分类号组配检索(有时需用截号检索法);
(7)可浏览选择分类号和浏览选择检索用词。
9 保证检索系统质量的关键因素
应当指出,目前自动抽词和自动分类的正确率都还没有达到90~95%,但进一步提高的希望还是有的。
抽词词典词汇丰富和功能完善,是提高抽词质量的保证。所以,抽词词典必须不断进行充实和更正。
自动分类用分类词表的完善程度也是影响自动分类质量的关键因素,要研究怎样能保证它与体系分类法保持高度一致的各种技术措施。体系分类法的计算机化势在必行。《中国分类主题词表》机读版使《中图法》计算机化跨出了一步,自动分类用分类词表的原理和方法有可能使《中图法》更进一步适用于计算机系统。
(收稿日期:1995—06—27)