图书分类法映射系统设计原理——以《中国图书馆分类法》和《杜威十进分类法》为例,本文主要内容关键词为:分类法论文,为例论文,中国论文,原理论文,图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 实现分类法之间映射操作的必要性及困难
不管是应用于传统信息资源的组织管理还是网络信息资源的组织管理,国内外分类法始终没有统一,也不可能实现完全统一。种类繁多的分类法已经成为跨库跨域检索的障碍。不同分类法之间的互操作性已成为情报检索语言研究中亟待解决的问题之一。分类法的互操作一般通过分类法之间的相互映射来实现。实现分类法之间的相互映射,能使不同分类法中具有相同语义的类目之间相互调用。
实现分类法之间的相互映射是实现文献资源共享的需要,也是减少标引工作强度,互相利用标引成果,节省标引时间,提高工作效率的需要,分类法的相互映射后,还可实现网络信息资源交叉浏览和交叉检索以及满足信息用户“一站式”浏览和检索信息的需要,即用户在一个系统中可以自由地浏览其他系统中的同一个概念的内容,一个提问式能够获取网络中多个相关数据库中的数据。
当然,要实现分类法的相互映射,需要克服分类语言相互映射中存在的很多难题。每一种分类法都是根据一定需要而创建的,不但具有适应某些具体需要的特点,而且往往还带有某个国家的特点和某种自然语言的特点;分类标准的确立及其引用次序上均存在不同;每一级别的类目受上位类目及下位类目的制约,其含义及范围各不相同,因此分类法类目之间映射很难确立对应关系。不同分类法的类目之间还存在专指度,先组程度的差别;以及一种分类法的类目在另一分类法的类目中完全缺乏所需要的对应概念[1];分类法的更新频率不一致,也造成了分类法相互映射的困难;另外,分类法的版权问题也是困扰实现分类法相互映射操作的一个问题。
2 映射系统中类目映射关系
2.1 CLC4和DDC21两部分类法之间的差异分析
CLC4是我国使用范围最广、影响最大的一部分类法,在体系结构上,CLC4分为五大部类,22个基本大类,共计50000多个类。DDC21是世界上最为广泛使用的分类法。DDC分为10个主要大类,30000多个类,目前DDC最新版本是第22版,还出版发行了光盘版和网络版。
2.1.1 CLC4与DDC21在基本大类设置的差异
CLC4以马克思列宁主义、毛泽东思想为指导思想,类目的确立及其序列安排,不仅要从科学概念出发,同时要考虑思想政治内容[2]。DDC21以盎格鲁萨克逊文化为中心,以实用为原则,并优先考虑美国、其次是西欧[3]。编制指导思想上的差异必然导致体系结构上的差异,具体体现在CLC4和DDC21的基本大类及主干类目的设置上[4]。
2.1.2 列类、分类的标准不统一
DDC21和CLC4的分类标准及列类并不统一,特别是社会科学类目。这与中美两国对社会科学的认识不同有关[4]。美国社会科学百科全书将社会科学定义为“研究团体中个人活动心理及文化的科学”;在我们国家,一般认为社会科学是以社会为研究对象的科学,它的任务是研究并阐述各种社会现象及其发展规律。例如,CLC4和DDC21除了一些共有的类目如政治学、法律、经济等外,DDC21还设有自己特色的类目,如“公共行政”、“社会问题和服务、协会”等。
另外,CLC4的列类一般按“0”原理,“1”中国,“2”世界,“3—7”各国的体系排列类目。而在DDC21的主类表中只列举各学科或专业的主题概念,地区和国家细分一律列入复分。
2.1.3 同主题概念的类目数量上的差异
CLC4和DDC21经过多次修订后,类目数量较以前版本都又较大的增加,例如,CLC4的F经济类大大小小的类目数量,目前约有1700多条。DDC21版的330—339经济类目数量约1300多条,其中DDC21的330—339类目中不包括“交通运输经济”、“邮电经济”、“贸易经济”等学科内容,而这些内容在CLC4类目中就约占534条,另外CLC4的F经济类中,很多四级类目是以世界、中国、各国来列类,存在很多同主题概念的重复类目,除去这些重复列类的主题,经济类目方面,DDC21比CLC4更详细、具体。
2.1.4 类名相同,但内涵存在差异
类目名称与注释是否准确、清晰,关系到类目概念的内涵与外延的界定。CLC4的经济类和DDC21的经济类虽然类名相同,但类目概念的内涵并不一致。其最大的区别在于CLC4经济类中包括商业,DDC21把商业从经济类中移出,与通讯和交通合为一个类组。
2.1.5 所表达的概念相同,但类目名称却不同
对于相同概念的表达可以用不同的语词来表示,不同语种的分类法这方面的差异是显而易见的,这是由文化,语言的多样性所决定的。
2.2 类目映射关系
分类法类目之间表达概念的不一致性直接决定了类目之间映射关系的多样性。例如,对于某一个主题概念,CLC4中用一条类目表示,而在DDC21中却用两条甚至更多的类目表示,这些类目的概念内涵和外延就存在差异,表达的概念必然存在不同的重叠度,类目之间的映射也自然存在多种语义对应关系。
在以往的转换系统中,对分类法类目映射关系的划分也不统一。SOSIG(社会科学信息网关)UDC分类体系和Biz/ed(网络教育贸易信息网关)DDC21分类体系间进行的映射,规定类目对应关系为:同义等价关系、上位概念、下位概念三种[5]。欧盟的Renardus项目中,根据本地分类法(Locate classificatin)类目与DDC21类目的概念交叠程度,规定了类目之间五种对应关系[6]:相等、包含、包含于、大部重叠、小部分重叠。
CLC4和DDC21均是综合性分类法,类目层次深,CLC4是我国通用的综合性分类法,DDC21是国际通用的分类法,参考欧盟Renardus项目中局部分类法与DDC21映射中所确立的五种映射关系,并考虑前面分析的两分类法类目之间的差异性,CLC4与DDC21类目之间映射拟建立四种语义映射关系。假设CLC4类目用A表示,DDC21类目用B来表示。
(1)等价关系,即A=B,A、B类目表达的概念在内涵和外延上基本相同,类目等价并不是严格的,允许存在少许的差异。
(2)包含关系,即A>B,A类目不但表达了B类目的所有概念,同时也包含了B类目中没有表达的概念。
(3)包含于关系,即A<B,B不但表达了A所有概念,同时也包含了A目中没有表达的概念。
(4)相关关系,即A~B,A所表达的概念与B所表达的概念存在一定的重叠部分。
3 分类法之间映射系统设计原理
3.1 分类法之间的映射的可行性
不同分类法要实现的功能是相同的,只是分类法的结构存在差异,我们认为在“同功异构”的分类法之间的进行相互映射是可行的。大多数分类法都是以概念逻辑和知识分类为基础。目前分类体系的建立主要在学科或专业层面上进行,而学科分类一般依据一定的原则,如客观、发展、实用性等原则,并且学科的门类的划分是按照不同的知识形式及涉及的现象结合进行的[7]。
分类法的结构一致性和类目表达概念的相似性是实现相互映射的理论基础。下面以《中国图书馆分类法》第4版(以后简称CLC4)和《杜威十进分类法》第21版(以后简称DDC21)为例,分析分类法映射系统设计原理。
CLC4和DDC21这两部分类法都是综合性体系分类法,都是对知识世界进行描述和归类,以概念逻辑和知识分类为基础,大类展开形成的类目都表达一定的概念,分类法中的类目是表达文献情报内容概念的基本单位,即CLC4和DDC21的类目本质都是表达文献主题概念的码号标识,只是标记种类和标记方法有些不同,类目表达的概念必然存在相似性;当然,类目的划分和设置也存在差异,但是,两部分类法描述的学科领域和知识总量基本相同,在类目划分原则相近的情况下,CLC4类目与DDC21类目表达的概念必然存在着很大程度的相似性,即CLC4类目和DDC21类目表达概念的内涵和外延存在交叠,根据交叠程度可以建立CLC4类目与DDC21类目之间的映射关系。
分类法的类目进行映射时,不仅仅要考虑到类目的表达形式,如类号,类名等等,更重要的是要考虑类目所表达的概念在外延和内涵上的相符程度。分类法类目的实质是概念标识的集合,两部分类法的相互映射应该从类目所表达的特定概念出发,才能较好地克服两部分类法在语言、类目名称、注释等外在形式上的差异。
CLC4与DDC21的类目先组度高,类目之间很难直接进行相似度计算。如果把要进行相似度计算的先组度高的类目分解成多个足够小的概念因素,并且类目概念总存在一定比例的在内涵和外延方面相似的概念因素,便可以制订一定的映射规则,自动建立CLC4类目与DDC21类目之间的映射关系。
3.2 实现分类法相互映射的模式
根据分类法之间建立映射关系时人工智力参与的程度,可以分为直接映射和间接映射两种模式。
直接映射,也可称为静态映射,其基本的特征是类目间映射的关系由人工判断确定。这种映射方法在国外应用非常广泛。其基本思想是:事先确定不同分类法类目映射时存在的概念关系,然后由专家判断分类法类目之间的关系,并以二维表或其他格式保存。静态映射一般也借用计算机来辅助,但是确立类目之间的对应关系却是基于人的主观判定。静态映射完成的分类法对应转换,具有准确性高,但过多依赖于专家个人、映射成本高、完成周期长、不容易维护等特点。
间接映射,类目间的映射关系一般不由专家直接判断确定,而是根据一定的统计或计算原理,由计算机自动完成,所以一般也称为自动映射。其基本的思想是:利用统计或自动计算需映射类目之间的相似度,根据类目之间的语义相似值,确立一种分类法的类目与另一种分类法类目的映射关系。目前,国内外对于分类法的自动映射研究并不多,但也存在一些相关项目,如采用基于同现统计[8]、基于语义向量空间等方法实现类目的自动映射。
3.3 分类法自动映射系统设计原理
类目相似度是指不同类目表达概念的相似程度。类目自动映射建立在类目相似度计算的基础上。如果把分类法中的类目看成是可以分解成部分的整体,那么,整体相似可以建立在部分相似的基础上,复杂的整体分解成部分,通过计算部分之间的相似度得到整体之间的相似度。假设两条类目C和C[,2],类目C[,1],C[,2]是整体,可分解成多个部分,假定C[,1]分解成部分A[,1],A[,2],…,A[,n]表达,C[,2]分解成部分B[,1],B[,2],…,B[,m]表达,计算C[,1]和C[,2]之间的相似度就可以转换成计算各部分之间的相似度。
类目整体可以分解成若干个部分,即类目表达的整体概念可以分解成若干独立概念和概念因素,并用词来表示,那么,部分之间相似度计算实际上是词汇之间的相似值计算,词的相似值计算可以通过词汇的语义相似度计算方法来完成。采用什么词来表示类目概念呢?基本原则是:类目分解成若干词后,这些词的语义之和应该与类目的语义相同,即概念因素之和应该等于整体概念。
CLC4和DDC21类目名称都比较规范化,简洁,能准确地反映类目的实际内容范围。大量的CLC4与DDC21的类目名称本身就是语词,表达事物概念的内涵和外延;当类目名称不能确切表达类目的实际内容范围时,用注释来明确;另外在CLC4和DDC21中,每一级别的类目概念涵义受上位类目概念及下位类目概念的制约,直接从每一级类目的类名以及该类的下位类名及上位类名中抽取的词均能表达类目概念。
一条类目对应的词由类名词、注释词、下位词、上位词组成。类名词:直接从类目名称中抽取的,能表达类目概念的词。注释词:从类目对应注释中抽取能够对类目概念起补充作用的词。上位词:从类目的直接上位类的类目名称中抽取的、对类目概念起限定作用的词。下位词:从类目的直接下位类的类目名称中抽取的、能对类目概念外延起界定作用的词。类名词、注释词、下位词、上位词统称为索引词,实际上就是在几个构成因素基础上构建分类法索引款目。
类目概念分解成词表达,如果类目C[,1]有N个词,C[,2]有M个词,两类目部分概念之间的相似度计算就存在N×M种对应关系。但是,只有在整体中起相同作用的部分互相比较才有效,例如:比较两个人长相是否相似,我们总是比较它们的脸型、轮廓、眼睛、鼻子等部分是否相似,而不会拿眼睛去和鼻子做比较[9]。因此,在比较两个整体的相似性时,首先要做的工作是判断哪些具有相同功能的部分最为相似,采用相似值最大值原则,即相似值最大的部分在两个整体中所起的作用才相同。假定类目C[,1]分解成N个部分,类目C[,2]分解成M个部分,为使最相似的部分之间建立对应的关系,可以通过构建成N×M词相似度矩阵,然后在词相似矩阵中对词与词的相似值进行比较,并且认为相似值最大的两个词在整体中所起的作用才相同,从而确定各部分之间的对应关系。根据整体中各部分对应的相似值,再通过一定加权计算便可以得到整体的相似度,即类目的相似度。
类目之间建立什么样的映射关系,除了取决于两条类目之间的相似度值外,还有两个重要因素影响类目映射关系的建立:一是两类目对应词的差额;二是完全相等词的类别,即是类名词相等,注释词相等,还是上位词相等或者下位词相等。词汇差额影响类目映射关系的建立是因为:类目这个概念整体分解成概念因素后,在概念因素范围一定的情况下,如果类目表达的概念整体在外延和内涵不同,必然会体现在概念因素的数量上,即类目对应的词的数量上,例如:类目C[,1]表达的整体概念可以分解成N个概念因素,即类目C[,1]有N个对应词,类目C[,2]表达的整体概念可以分解成M个概念因素,即C[,2]有M个对应词,如果N与M不相等的情况下,词汇差额数为│N-M│,即C[,1]、C[,2]之间存在│N-M│个无法对应的部分概念,这必然影响到两类目映射关系的确定。
类目的映射类型可以是一对一的映射,也有一对多的映射,还有多对多的映射,在类目的自动映射中,不仅仅要处理两类目之间进行相似度计算,更应该处理一条类目与多条类目之间以及多条类目与多条类目之间的相似度计算,并建立映射关系。
计算机情报检索中有很多成熟的数学模型能解决一对多的匹配问题,空间向量模型就是其中之一。该模型是计算机情报检索和文献聚类研究中重要的数学模型。该模型的基本思想是:文献用一定数量的标引词来表示,每篇文献可以构建成一个等长的文献向量,待检索的文献集合构成多向量组成的向量空间,提问式也用相同数量的词表示,形成单条提问向量。这样,情报检索中的文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题[10]。同样,我们把类目对应的词汇看成类目向量,多条DDC21类目向量就可以构成待映射的类目向量集合,映射类目(CLC4类目)看成是映射向量,这样类目的一对多映射就可以转换为映射类目向量与被映射的类目向量相似度计算的问题。
假定,某一CLC4类目可以由m个词汇来表达:C[,1]=(A[,11],A[,12],…,A[,1m]),如果被映射的每条DDC21类目也用m个主题词(这是最理想的情况)表示,n条DDC21类目构成一个向量集合C:C={C[,1],C[,2],…,C[,n]},其中C[,i]=(A[,i1],A[,i2],…,A[,im]),i取2,3…,n+1,则映射类目与被映射类目构成向量矩阵M:
其中矩阵中第一行为CLC4类目向量,第二行至第i行为DDC21类目向量,A[,11],A[,12],…,A[,1m]为CLC4类目所对应的词汇,A[,21],A[,22],…,A[,2m]至A[,i1],A[,i2],…,A[,im]分别为各CLC4类目所对应的词汇。
要使CLC4类目与多条DDC21类目建立映射关系,只要分别计算向量2,3,…,i与第一向量的相似度,一对多的映射关系直接转换为每两条类目之间的相似度计算,而两条类目之间的相似度计算如上所描述,采用一一词汇对应构建语词相似矩阵,然后按最大值确立每两个词汇之间的对应,再加权取平均得到具体两类目之间的相似度值,根据各种映射关系的阈值范围,便可以建立CLC4类目与多条DDC21类目之间的映射关系。