文献分类法自动映射系统的构建①——以《中国图书馆分类法》与《杜威十进分类法》为例,本文主要内容关键词为:分类法论文,为例论文,中国论文,文献论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 《中国图书馆分类法》与《杜威十进分类法》自动映射系统的构建原理[1~3]
《中国图书馆分类法》(CLC)与《杜威十进分类法》(DDC)可以说是世界上用户最多、影响最大的两部用于信息标引和检索的文献分类法。这两部分类法的结构一致性和类目表达概念的相似性是实现两部分类法自动映射的理论基础。它们都是综合性分类法,都是对知识世界进行描述和归类,都是以概念逻辑和知识分类为基础,并且描述的学科领域和知识总量基本相同。在类目划分原则相近的情况下,CLC类目与DDC类目表达的概念必然存在着相似性,即CLC类目和DDC类目表达概念的内涵和外延上存在一定的交叠程度,也可以称为类目间的语义相似度。根据类目之间的语义相似度,就能确定CLC类目与DDC类目的映射关系。
CLC类目与DDC类目都是先组式类目,把分类法中先组式的类目分解成足够小的概念单位,通过小的概念单位之间的语义相似度计算,再应用一定的加权方法便可以较准确地计算出类目之间的相似度。概括来说,类目相似度计算的基本思想是:类目表示的是一个整体概念,类目分解成足够小的概念单位是整体的部分,整体相似可以建立在部分相似的基础上,即把一个复杂的整体分解成部分,通过计算部分之间的相似度得到整体之间的相似度。
类目分解成足够小的概念单位指的是概念因素,通常是词或词素,即类目表达的概念用词来表示。采用什么词来表示类目概念呢?基本原则是:类目分解成若干词后,这些词的语义之和应该与先组类目的语义相同或基本相同,即部分概念之和应该等于整体概念。
CLC与DDC的类目名称本身就是语词,它表达事物概念的内涵和外延。CLC和DDC类目名称都比较规范化、简洁,能准确地反映类目的实际内容范围。当类目名称不能确切表达类目的实际内容范围时,可用注释来明确。另外在CLC和DDC中,每一级别的类目概念涵义受上位类目概念及下位类目概念的制约。
直接从每一级类目的类名和该类目的下位类的类名以及上位类的类名中抽取的词能表达类目概念,一条类目对应的词由类名词、注释词、下位词、上位词组成,并把这些词统称为索引词(实际上就是在几个构成因素基础上构建分类法索引款目)。
各种分类主题词表的出版和应用证明了主题词也能表达类目概念。
类目概念部分之间相似度计算实际上是词之间的相似值计算,词的相似值计算可以通过词的语义相似度计算方法来完成[4]。
2 《中国图书馆分类法》与《杜威十进分类法》自动映射系统的构建
类目的映射类型可以是一对一的映射,也有多对多的映射,即能处理两条类目之间进行相似度计算,也能处理多条类目之间的相似度计算,并建立映射关系。类目之间的映射关系可以动态地建立,也可以利用该自动映射系统建立CLC和DDC两部分分类法类目的映射关系表,即类目对照表。本项研究以CLC第4版和DDC第21版的财政、金融、保险类为实验对象,建立自动映射系统。
2.1 自动映射规则
本映射系统借鉴了欧洲Renardus项目[5~7] 中对类目映射关系的定义,假定CLC类目为A,DDC类目为B,则根据A、B表达概念的交叠程度定义了五种类目映射关系。①相等关系,两条类目表达的概念内涵和外延交叠为100%或接近100%;②包含关系,A类目不但表达了B类目的所有概念,同时也包含了B类目中没有表达的概念;③包含于关系,B不但表达了A所有概念,同时也包含了A中没有表达的概念;④大部分交叠,A所表达的概念与B所表达的概念大部分相同;⑤A与B表达的概念小部分相同。
类目之间建立什么样的映射关系,由3个参数决定:两条类目之间的相似度值、两类目对应词的差额;完全相等词类别,即存在类名词相等,注释词相等,还是上位词相等或者下位词相等。词汇差额影响类目映射关系是因为:如果类目表达的概念整体在外延和内涵不同,类目这个概念整体分解成词汇部分概念后,必然会体现类目对应的词汇的数量上,即词汇数量上差异,例如,类目C[,1]有N个对应主题词汇,类目C[,1]可以分解成N个部分概念,C[,2]有M个对应主题词汇,类目C[,2]可以分解成M个部分概念,如果N与M不相等的情况下,词的差额为|N-M|,即C[,1]、C[,2]之间存在|N-M|个无法对应的部分概念,这必然影响到两类目映射关系的确定。
根据类目之间的相似度、类目对应词差额数、完全相等词类别3个参数,制定了详细的类目映射关系规则。系统能根据系统中3个参数的具体值推算出具体两条类目的映射关系。
2.2 自动映射方法的筛选
CLC与DDC自动映射系统中通过采用索引词、类名词、主题词三种方法来计算类目的相似度,CLC类目与DDC类目索引词对应规则相同,索引词是由直接从类目名称中抽取的类名词、从类目对应的注释中抽取的注释词、从类目的下位类类目中抽取的下位词和从类目的上位类抽取的上位词共同组成。类名词指直接从类目名称抽取的关键词,这主要考虑到CLC和DDC类目注释、下位类的不平衡。CLC和DDC的主题词分别来自《汉表》和LCSH,DDC类目对应的主题词主要是LCSH中的标题词以及部分索引款目,取自于DDC视窗版中类目所对应的LCSH标题词,CLC对应的主题词主要来源于《中分表》中的主题词。类目自动映射系统中分别利用了这三种类型的词来确定类目之间的映射关系。系统通过大量的测试,发现三种方法中采用索引词建立类目之间的映射关系效果最好。
2.3 自动映射系统的数据流程
根据类目对应的主题词汇来计算类目相似度,利用语义距离的方法来计算词汇相似度之前必须对词汇进行语义切分,但CLC类目和DDC类目一般都有多个对应词,DDC类目对应的词如何才能在CLC类目对应的词中找到相似值最大的词呢?可以先计算出每两个词汇之间的相似值,构建出词汇相似值矩阵,然后依次从矩阵中抽出最大相似值对应词汇,从而得到两条类目对应词之间的最佳配对,即得到了整体的各部分之间的相似值,根据部分(词汇)之间的相似值反过来又可以计算出类目之间的相似值[4]。但是,类目对应词汇并不完全来源于类名和注释,还有上位类和下位类,所以在建立类目之间映射关系时不单单要考虑类目之间的相似值,还应该考虑相等词之间词的类型。另外,类目对应词汇也有多有少,类目对应的主题词汇特别是索引词在数量上存在的差额也直接影响到类目映射关系的建立。
完成类目之间的自动映射需要经过以下五步:①类目对应词抽取;②类目对应词的语义切分;③构建相似词汇矩阵;④计算类目总相似度;⑤根据映射关系规则建立映射关系5个过程(图1)。
图1 自动映射数据流程
3 自动映射系统的功能模块
根据自动映射系统的原理以及自动映射的数据流程,把自动映射系统模块分为:类目对应数据生成、两类目自动映射、类目映射批处理、地理复分处理、映射系统维护等模块(图2)。
图2 自动映射模块
3.1 类目数据处理模块
该模块主要是建立分类目与索引词(含类名词)、类目与主题词的对应数据表。自动映射系统中,选用了CLC和DDC的财政金融类作为试验类目,在建立类目与词对应数据表之前,对CLC类目名称进行了完善,使之完整化,把DDC类目翻译成中文,根据在类目的作用添加标记,类目索引词是根据类目中的标记自动抽取。另外,还翻译了DDC类目对应的LCSH标题词。
3.2 两类目自动映射模块
该模块CLC和DDC类目的映射关系分别可以采用索引词、类目词、主题词计算来确定,它们的计算过程和映射规则大体上相同:把类目对应的词切分为语义单位,计算词的语义相似度,使两条类目中的各概念因素配对,再根据配对的概念因素相似值,采用一定的加权方法计算出类目的相似度,最后利用映射规则建立类目映射关系。
3.3 自动映射批处理模块
在自动映射批处理模块中,为了减少计算量,确定映射范围是必须的,因为,用CLC的财政金融类目与DDC的宗教方面的类目来计算类目相似度是没有多大意义的。自动映射批处理就是处理一定范围内的CLC类目与一定范围内的DDC类目的自动映射,实际上是处理多对多的类目映射,该模块也能处理一对多和一对一的类目映射。
3.4 地理复分处理模块
CLC的列类具有特殊性,特别是社会科学方面的类目,一般顺序为“0理论”,“1世界”,“2中国”,“3/7各国”,而DDC基本上按主题列类,能适用地理复分的类目用注释标明。该模块通过建立CLC与DDC的地区表对应表以及对适用地理复分类目进行标记,实现了CLC中地区概念与DDC中地区概念的映射。
3.5 数据维护模块
该系统可以动态地建立类目之间的映射关系,但必须定期地进行数据的维护,特别是语义词典的维护。另外两部分类法的部分类目修改后,其对应的词也应该作必要的修改,以便系统动态地计算出变更类目的映射关系。
4 自动映射系统的使用
4.1 类目对应数据生成
这一模块处理类目与索引词、类名词、主题词的对应。例如,332.404/货币的形式与单位(图3)。
图3 自动映射系统的基本界面
索引词:货币形式 货币单位【金币】【银币】【辅币】【纸币】【通货十进制】《货币》
类名词:货币形式 货币单位
主题词:货币单位 货币形式 金币 辅币
4.2 计算类目相似度建立类目映射关系
下面举例说明如何利用索引词计算类目相似度并建立映射关系。
4.2.1 两类目的自动映射(图4)
图4 两类目之间的自动映射
在图4的树形框中分别选取CLC和DDC待映射的类目,类目对应的索引词将自动读入语义计算栏中。
利用语义词典对类目对应词进行语义切分,切分时给类名词、注释词、下位词、上位词分别加注标记,以便在统计相等词时,识别相等词的类别,同时记录切分后语义单元对应的语义编码,以便进行词的语义相似度计算。在图4的结果显示区中,上部分显示了F820.2类目与332.404类目对应词的切分结果,下部分显示了F820.2类目与332.404类目对应词中每两个词进行语义相似度计算后,构建出的词汇相似值矩阵,构建词汇矩阵是为了使类目中最相似的概念因素配对。
根据最大值对应原则确定概念因素的配对,相似值越大概念因素排序越前(图5)。
图5 概念因素配对结果
根据配对概念因素的相似值,加权后计算出CLC类目与DDC类目的相似值,根据类目规则建立类目之间的映射关系,如图6所示。图中“F820.2货币制度”与“332.404货币的形式与单位”自动计算后显示的结果在相等映射关系的阈值范围内,即存在注释词与类目词相等,类目相似值大于65%,并且类目对应词差额不大于4。
图6 类目之间映射关系的建立
4.2.2 类目映射批处理
映射批处理能处理一对多和多对多的类目映射,通过一对多的类目映射可以计算出一部分类法中某条类目与另一部分类法中概念相关类目的映射关系。多对多映射可以生成类目映射关系表,但通常是动态计算一定范围内类目映射关系。
注释:
①基金项目:国家社会科学基金项目(05BTQ021)。
标签:中国图书馆分类法论文; 主题词论文; 对象关系映射论文; 图书分类论文; clc论文;