数字信息资源的自动分类和主题识别——OCLC“蝎子计划”研究,本文主要内容关键词为:蝎子论文,信息资源论文,数字论文,计划论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数字资源的急剧膨胀与无序化之间的矛盾日益突出,成为数字信息资源有效利用的最大障碍。为此,需要把传统环境下为图书、期刊编制目录款目的信息表示方法和理论移植到数字信息资源的组织管理中来,进行关于数字信息资源的自动分类和主题识别的研究,美国OCLC的“蝎子计划”是其中成果显著的研究项目之一。
关于“蝎子计划”,吴建中、柴纯青、贺亚锋、丘君瑞和李林华等先后已有介绍,鉴于该项目对于中文网络信息自动分类组织亦有借鉴启发之处,故本文对此项目作一详细评介并和我们利用《中图法》所开展的中文信息自动分类和自动标引项目进行对比研究。
1 Scorpion项目简介
“蝎子计划”(Scorpion Project)是美国OCLC在自动分类领域探索使用《杜威十进分类法》(DDC)来组织数字信息资源的一个重大研究项目。1996年开始,1999年11月初步完成采用DDC对数字信息资源进行自动分类和自动赋予主题阶段的研究,并在CORC(Cooperative Online Resource Catalog)系统中加以应用。
现在数字信息的自动分类实际上多半是自动聚类,先有信息,再根据信息的内容和覆盖范围聚合形成一个分类体系,来组织这些信息,即常见的搜索引擎的分类目录,而Scorpion却是用已有的DDC分类体系给数字信息归类,分类前就有一个确定的分类体系。自动聚类计算的是文献与文献的相似度,而归类则计算的是文献主题与类目信息之间的相似度。在这一点上Scorpion可以采用自动聚类的相似度计算方法,把类目信息作为一个标准文献,通过计算数字信息和它的相似度来确定这些数字信息资源的类目归属。
当我们对信息进行Scorpion处理时,把该信息的源文件作为一个提问式,把ESS记录集合也作为一个输入,两者同时进入Scorpion系统中,通过一定的加权算法(SMART加权体系)对两者分别进行处理,计算出该信息与ESS记录集合中每一条记录的相似度,按相似度大小返回一串DDC分类号及与这些分类号对应的相关词作为该信息的潜在主题供编目人员使用。其流程如下(图1):
图1 Scorpion处理流程图
2 Scorpion处理流程
2.1 构建Scorpion杜威数据库
为了使Scorpion杜威数据库的性能能够最优化,目前已经设计出30多种不同版本的数据库进行试验,并得出了一些结论:①包含附加等级信息的数据库优于不含等级关系信息的数据库;②同时含有上位类和下位类信息的数据库优于只含有上位类或只含有下位类信息的数据库;③使不使用截词法对Scorpion结果没有什么明显的影响;④数据库中的记录数越多越好。
由此可知,当进行Scorpion处理时,应尽量选择包含等级信息、构建字段合理完整的大型杜威数据库,从而使结果更优化。
2.2 提问式的构建
为了优化Scorpion处理的结果,对于不同的待标引数字信息需采用不同的预处理,形成提问式,这里以HTML文本为例:
(1)首先,输入待标引网页的URL地址,系统自动链接到该页面,抽取该网页的源文件HTML文本进行处理;
(2)通过预处理,把HTML文本分成两部分,含有Meta标签的内容组成一个文本,剩余的部分构成另一个文本;
(3)先对后一个文本进行处理,使用停用词表去掉一些介词、数词、标点符号、罗马数字、阿拉伯数字以及如“@”、“//”、“/”之类的标识,得到一篇处理好的过滤文本(Document text after cleanup);
(4)对过滤文本中的单词进行词频统计,利用停用词表排除文本中的高频功能词;
(5)用截词算法把余下的词压缩为词干,词干相同的加以合并;
(6)利用词频、位置关系等计算每个词在该文本中的权值;
(7)如果源文件中提供了元数据,即含有Meta头文件,则抽取Meta标记中的description、dc.subject、dc.description、keywords、dc.title项中的内容,组成一个文本,然后对这部分文本采用以上(3)-(6)的步骤进行处理;
(8)将(6)、(7)的最终结果进行合并;
(9)确定标引词权值的范围,识别出符合要求的词;
(10)将保留下来的具有适当权值的单词构成文献语词矩阵,作为对Scorpion杜威数据库的提问式。
2.3 相似度匹配
把待分类的网页利用SMART加权算法形成一个语词矩阵,作为提问式提交给Scorpion杜威数据库,计算该提问式与Scorpion杜威数据库中每条ESS记录概念文本的相似度,类似于信息检索中提问式与检索结果的相关度。根据相似度的高低排序,按照一定的阈值或者确定的输出结果数提供匹配的结果集。
Scorpion处理后的结果集包含权重(相似度)、主题代码(分类号)、主题词(类名词)、相关词(DDC的索引词等)。这样既给网页提供了分类号,又提供了主题词,以供编目人员进行标引时选择使用,减轻编目人员的负担。OCLC对Scorpion的结果进行了多次评估试验,证明Scorpion的结果是相当好的,基本上实现了自动分类和自动主题识别的初步目标。所以,Scorpion在CORC中进行了实际的应用,在CORC生成的元数据中有一个专门的主题字段“DDC Scorpion”用来存储Scorpion生成的DDC分类号。
3 Scorpion的发展与比较研究
OCLC目前对Scorpion进行完善,在网上提供了Scorpion1.0版本供用户试用。该系统采用更易用、更可靠的Pears数据库引擎取代了原有的SMART加权系统;[17]对Scorpion的数据库进行了改进,使得其分类数据库不再局限于DDC,而是可以根据用户的需求自己决定是使用DDC、LCC或者其他的分类体系或者词表,只要能够提供一个覆盖一定主题范围、相互明确区分的概念集合就可以了。这些改进使得Scorpion系统的易用性、可移植性大大增强,也更便于用户定制使用。
与Scorpion同时,我实验室也在中文信息主题标引和自动分类领域展开了一系列的研究,形成一条新思路——采用国内最通用的分类体系(《中图法》)作为组织框架,利用中文文献数据库实体中包含的分类号和主题词双重标引记录,通过统计分析建立分类号与关键词串的对应关系,构建一个《中图法》知识库,以实现中文信息的自动标引和自动分类。
随着情报检索语言向分类主题一体化方法发展和分类语言、主题语言、自然语言兼容互换工作的展开,《中图法》经过多年的实践已经建立起与其他分类法、词表之间的兼容互换对应关系,发展成为一种可以有效组织信息的工具,即知识组织系统(Knowledge Organization System)。《中图法》知识库以《中图法》类目体系为主干,包含若干个词表和词典,其中抽词词典、停用词表、同义词表、义类词典是主题标引知识库,分类号—关键词串对应表为主分类知识库,地名表、时代表、文献类型表等为辅助分类知识库。其中分类知识库是《中图法》知识库的主体,通过对三类数据:(1)《中图法》类目索引、《中国分类主题词表》(以下简称《中分表》)中的分类号—主题词对应表;(2)人工规范标引数据,包含《中图法》分类号和《汉表》正式叙词,如上海图书馆《中文社科报刊篇名数据库》、北京图书馆《中文图书检索系统》;(3)人工标引数据,包含《中图法》分类号和散标的自由词(或称关键词),如重庆维普《中文科技期刊数据库》的采集,构建一个以分类号与关键词(串)对应为主,包含分类号与类名词、分类号与主题词(串)对应的原始库,统计类频、词串频次、类号—词串同现频次,通过支持度、置信度两个兴趣度参数删除错误记录,采用dice测度计算分类号与词串的关联度,从而确定分类号与词串的最佳匹配,形成分类知识库。[19、20]图2反映了本系统的知识库构造过程和自动标引、自动分类处理流程。
图2 基于《中国法》知识库的自动标引和自动分类系统处理流程
从图2反映的基于《中图法》知识库的自动标引和自动分类系统的流程看,首先对待处理文档进行预处理,用停用词表和抽词词典进行分词,根据绝对频次、词长、位置进行加权,取前6-8个词作为标引词,然后借助于同义词表和义类词典进行主题规范,得出正式标引词,完成自动标引;将抽词标引结果与分类知识库中的词串进行字面相似度和语义相似度计算,通过计算给出此词汇相似度最大的词串,再找出对应的分类号,完成赋号分类标引。
相较而言,基于知识库的自动分类和自动标引系统与Scorpion在原理和方法上有如下的相同之处:
(1)都是基于分类语言、主题语言之间的兼容互换原理,通过待标文本特征词串与类目特征的相似度计算赋予分类号,以实现分类主题一体化;
(2)都是以通用的传统文献分类法(DDC、CLC)为基础,构建一个知识库或数据库,实现信息的自动归类;
(3)都借鉴了自动聚类的文档相似度算法,计算待标信息与类目信息的相似度,从而完成赋号标引。但与Scorpion系统相比,我们的系统充分利用了现有的人工智力劳动成果——人工标引数据,在中文信息的分类、标引上体现出以下的优势:
(1)Scorpion仅仅是基于DDC的类目体系,它的分类知识库——杜威数据库中类目概念的表示完全来自类目本身(类目、类级、注释和索引等)及DDC与LCSH的对应,是分类号与索引词、主题词(串)的对应;《中图法》知识库中分类号对应的特征词不仅来源于类目本身及其与《汉语主题词表》的对应,更多的来自标引员的标引记录(包含分类号与主题词串,分类号与关键词串的对应)。可以这样说,前者是基于DDC固有类目体系的,后者则是基于《中图法》标引实例、标引员的标引经验。这样的改进,一方面增加了知识库的规模,不仅包含了分类法的固有类目,还增加了类表未现成给出的大量组配类目,展现了分类法的可扩展性;另一方面,分类号与关键词串的对应(不仅仅是主题词的对应)提高了标引的一致性和分类的匹配率,毕竟正式主题词是有限的。
(2)Scorpion的主题标引是在分类基础上完成的,标引词是分类号在杜威数据库中的对应词串,不是直接来自于标引文本,因此往往不能最专指地反映文本主题;而我们的系统采用关键词串标引和主题规范相结合的主题标引方法,标引词直接来自文本;能够较专指地反映文本主题。
当然,Scorpion对于我们构建知识库,进行主题识别和自动分类有着一定的借鉴意义。首先,Scorpion的成功坚定了我们在网络环境下,采用传统文献分类法对信息资源进行自动化加工组织的信心,破除业界存在的有关自动标引和自动分类近期无法实现的悲观情绪;其次,Scorpion在构建杜威数据库时充分考虑了类目的等级关系,并证明包含等级信息的数据库优于不含等级关系信息的数据库,而我们目前所完成的分类知识库缺乏这种类目等级上的推理,没有充分考虑上下位类对于类目信息表达的影响和作用,这对于我们构建合理并具备一定推理功能的知识库有很好的借鉴作用;第三,标引和检索本来就是互逆的过程,在方法上有诸多相似之处,Scorpion明智地利用了这一点,其自动归类的机理采用了搜索引擎的检索原理,这种创新有助于我们改进分类算法。