《中国分类主题词表》的自动扩充研究——从元数据中提取关键词并定位,本文主要内容关键词为:词表论文,中国论文,关键词论文,主题论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
在图书馆和情报检索领域,词表是最重要的知识组织工具,广泛用于文献资源的标引、组织和检索。词表是对词汇进行控制的工具,它收录了给定专业领域内的所有重要概念,并用三类关系将它们组织起来[1]:等同关系、等级关系、相关关系。在网络环境下,词表已发生了深刻的变化,不再局限于传统手工信息组织时期印刷型词表工具的单一模式。数字图书馆的快速发展和网络信息检索的需求,使词表再一次引起了研究界的普遍重视,用于强化搜索引擎、知识导航、检索导引、知识组织、自动分类、概念检索、数据挖掘、Ontology构造等不同领域[2]。
《中国分类主题词表》(以下简称《中分表》),可以说是国内编著词表中的代表,它的问世加上我国图书情报机构普及计算机应用的大环境,极大地推动了我国图书馆情报学领域知识的发展。作为我国文献信息资源组织整序的重要工具,《中分表》为实现分类主题一体化标引,降低主题标引难度做出巨大贡献,并在图书馆、网络信息组织、学科门户和语义网等研究方向得到了应用[3]。
为了跟上网络时代的发展,为了给广大用户提供更好的服务,《中分表》的完善和修订工作迫在眉睫。基于此,本文提出了一种基于《中分表》,从已标引的结构化语料库中提取专业领域词汇,自动丰富词表的技术方案,希望能为词表的修订、完善和利用带来一定的参考价值和意义。
2 《中分表》简介及研究现状
《中分表》是我国一部大型的“分类法—叙词表对照索引式”词表,是为实现分类主题一体化标引,为机助标引、自动标引提供条件,降低标引难度,提高检索效率和标引工作效率,编制而成的分类检索语言和主题检索语言兼容互换的工具。良好的编制基础、比较完善的词表结构、机读版的问世,使得这部词表成为一部非常实用的文献分类、主题一体化标引工具。自出版以来,它受到了图书馆界和情报界的普遍欢迎和广泛使用。实际应用中也显示了它巨大的生命力,除了因为它是基于《中图法》、《汉表》这两部在我国广为应用的检索语言,还因为对应索引的分类主题一体化形式更适用于文献信息的标引和检索[4]。经过十多年的标引实践,证明《中分表》所起的作用远远超过它应有的功能,它在文献标引和检索领域都起到了权威性工具的作用。
然而,以《中分表》为代表的传统词表一直是依靠领域专家手工创建和维护的,其主要功能是用于文献资源的组织和标引,这些因素严重地制约了传统词表在网络环境中的应用。随着网络技术、计算机技术在图书馆广泛应用以及联机编目、远程网络编目的快速发展,对《中分表》的应用技术、应用方法,应用范围以及所反映的学科知识内容及其表现形式等都提出了新的要求[5]。在网络时代,对《中分表》的修订是迫切的也是及时的,从其反映的学科内容、事物主题等方面进行更新和补充,是当前需要做的工作之一。
信息检索领域的研究者们一般都把重点放到了词表的自动生成上,即从自由文本中提取词汇和词汇间关系来自动构造词表。目前见到的方法有:Bayesian网络[6]、机器学习[7]、同现分析[8]。另外,一种基于知识表达[9]的机制可以辅助词表的构建,通过逻辑描述(DL)来辅助词表分类,使词表中的等级关系更加明确;同时,构建一个大型词表的过程可以推动知识表达技术的发展在管理和论证概念中的应用。在前人对词表自动生成机制的研究基础上,本文探讨了一种从元数据中挖掘新的词汇并将它们定位到《中分表》中,从而对词表进行自动更新的机制。这样,既增添了能反映领域最新发展的新词,又保留了传统词表中的词间关系。本文以《中分表》为基础,在上海大学图书馆提供的元数据资源上进行了新词提取和定位的实验。
3 《中分表》自动扩充研究的总体策略
本文讨论的从元数据中提取专业术语、并定位到词表中,主要有三个步骤,总体设计的流程图参见图1,下面对各步骤分别进行描述。
图1 关键词提取及定位总体设计流程图
3.1 从标题中提取关键词
目前研究现状中,从自由文本中提取关键词或短语的方法大致可以分为两类:基于规则[10]和基于统计[11],其中基于统计的方法是当前研究的主流。从标题中抽取关键词,主要是通过分析文献标题的特征从而得出该方法的优越性。本实验的语料库是元数据,其中的文献标题从语法上来看,大多数是名词性短语并且具有固定的句式结构;从语义上来看,文献标题可以说是其内容精华的概括,包含了能够反映文献内容主题的重要关键词。
据此,我们可以假定:如果一个关键词在多个不同的标题中同时出现,该词重复出现的词频越高并且权值越大,则成为候选关键词的概率就越大。本文基于统计的方法,从元数据的文献标题中提取关键词,计算关键词的词频和TF-IDF权值,并通过设定词频和权值的阈值进行过滤,去重后构成候选关键词集合。
3.2 确定候选关键词的专指度
在提取出的关键词候选集中,除了专业词汇之外,标题中还包含大量的通用词,如:应用、研究、设计、方法等等。在将抽取出的词汇定位到词表中之前,需要将这些通用词和专指度较高的专业术语区分开。通常情况下,文献的标题致力于揭示其内容主题,而元数据的主题标引是用规范的主题词来描述文献主题的,这两者之间存在语义上的对应关系。据此,我们可以假定:如果标题中的关键词专指度越高,那么它和标引词之间的对应关系就越强;反之,如果专指度越低,即越通用,它与标引词之间的对应关系就越弱[12]。
文献标引的过程就是先通过分析、理解文献的内容主题,然后再用词表中的规范主题词来描述文献主题的。如果一篇文献标题中包含多个主题,大多数文献一般都是多主题或多元主题的,这种情况就需要用多个标引词对主题进行描述,其中每个标引词描述一个主题,就是通常所说的组配标引。所以,度量候选关键词的专指度,就需要考察候选关键词所对应的标引词集合的主题分布,也就是通过从候选关键词出现过的元数据记录中收集标引词,形成一个标引词集合;并找出它的共同主题(即核心概念),就是该关键词对应语义关系上的主题概念。
计算标引词集的核心概念时,可以利用词表的等级结构,一个词表的主干就是主题词间的等级关系,属于同一个事物范畴的主题词构成一个词族,一个词表就是由多个词族组合而成的[13]。将标引词集划分成不同的主题组依据就是标引词是否归属一个词族;然后在每一个主题组内进行层次聚类[14],选出一个主题代表;将权值高的那些主题代表进行组配,表示出标引词集的核心概念。由此得出的核心概念不仅是测度候选关键词专指度的有效方法,而且是最后关键词定位到词表中的根本依据。
笔者从元数据中抽取部分条目,举例说明这一过程的具体实现过程:
Step1:如表1所示,从标题1~4中抽取“分布式数据库”这一关键词,将元数据中包含该词的所有标题对应的标引词抽取出来组合为标引词集合I。即,I={分布式数据库,查询,优化,模型,分布式数据库,交互环境,分布式数据库,分布式查询,系统性能,分布式数据库,多服务器系统,排队模型,主动模式};
Step2:将I中归属于同一个词族的标引词构成一个主题组,从而形成多个主题组,假如划分结果为:ZT1={分布式数据库};ZT2={查询,优化,分布式查询};ZT3={模型,排队模型,主动模式};ZT4={交互环境,系统性能,多服务器系统};
Step3:计算每个主题组的主题代表,假如分别为:ZT1={数据库},ZT2={数据库管理系统},ZT3={数据模型},ZT4={数据库系统};
Step4:将计算出的所有主题代表构成主体代表集合ZD={数据库,数据库管理系统,数据模型,数据库系统};
Step5:根据给定的阈值,将大于阈值的主题代表选出,构成核心主体概念。假如“分布式数据库”这一关键词最后的核心主题概念就是{数据库}。
3.3 将专指度高的专业词汇定位在词表中
通过第二步对关键词核心概念的计算,可以确定该专业术语的专指度大小,继而可以将词汇定位到词表相关的位置中去。
词表是一个词汇的网络,定位新词就是确定与新词有关联的主题词及其间的关系。核心概念是依据词表的等级结构推导出来的,在计算关键词的核心概念时,可以预期新词和对应的核心概念亦成等级关系,包括上位词、下位词、等价词和相关词等。例如上面所举例子中,“分布式数据库”这一关键词与核心主题概念“数据库”成等级关系,并且可以预测是“数据库”的下位词。
4 核心算法的关键技术
4.1 关键词提取算法
(1)选择元数据,切分语料,生成预处理文档
提取元数据中的标题,去除非中文字符,包括标点符号等,并将这些非中文字符用空格代替,生成预处理文档。
(2)停用词词典匹配
将预处理文档与停用词词表进行模式匹配,文本中凡是有停用词的地方均用空格代替。
(3)采用逆向最长匹配法提取关键词
对去除停用词后的分词碎片,采用逆向最长匹配法,利用规范的抽词词典进行匹配,获取所有可能的关键词。
(4)计算关键词的频率及权值
计算出上一步中提取出的关键词的词频及TF-IDF权值,为下一步过滤做准备。自动文本分类中,TF-IDF[15]是常用的词语权重计算公式:
其中,为文档频率,idf为反文档频率,FREQ是关键词k在文本中出现的总频次,N是文本总数,n是包含关键词k的文本数。
(5)对提取出的关键词进行去重,根据设定词频和权值的阈值进行过滤,最后构成关键词候选词集。
4.2 计算关键词的专指度算法
(1)计算候选关键词对应的核心概念——算法1
①收集标引项,形成标引词集I。假设k是一个给定的候选关键词,从包含k的元数据记录中收集标引项,形成标引词集I。即,在元数据记录中k出现过的每条标题所对应的所有标引词t(t≥1)构成的一个集合。
定义1:freq(t)等于t在I中的出现频率;
定义5:设置标引词权值wgt(ti)=freq(ti),当t∈ZT时;
②构造等级树。对于ZT中的标引词,选取其对应词族CZ的族首词到每个词的路径,形成一颗子树Tree,它的所有叶子节点都来自于ZT。
③返回主题代表。从Tree的最底层选择一个叶子节点t,若,删除t,并另其上位词的权值在原来的基础上加上该节点的权值,然后继续向上遍历查找,直到找到大于阈值的节点为止;若wgt(ti)>TH[,db],返回t作为ZT的主题代表[12]。
5 实验结果测评与分析
5.1 测试语料
本文实验之所以从元数据中提取关键词,是考虑到了元数据所具特点的优越性。元数据是原始文献的替代描述,标题字段包含大量的专业术语,特别是科技文献,可以从中挖掘反映领域最新发展的词汇。元数据的一大特点是主题标引,标引员在理解原始文献内容的基础上,从词表中选择规范的、切题的主题揭示原始文献的主题[16]。
本文选用的测试语料是上海图书馆提供的2005-2006年的受控标引数据,是经过正规标引工作人员严格按照标引原则标引出来的结果。从数据量来看,该数据源大约164.37M,数量达24.5万条,涵盖了从A到Z各个大类的相关数据。从格式上来看(参看图2),数据源格式中采用了“m001”记录号字段、“m200”题名字段、“m610”主题词字段、“m690”中图法分类号字段。该数据资源丰富,格式规范,是进行相关标引工作理想的实验资源。
图2 实验元数据样例
本文实验过程中,为了使提取出的关键词更具专业性,使实验达到更好的效果,笔者对数据库资源的m690字段进行排序,并从中抽取了计算机大类中TP31类的2287条数据作为实验语料。
5.2 测试方法
实验按照本文第二部分描述的总体策略的算法流程,用基于.net平台的C#语言编写程序,对抽取出的2 287条数据进行批处理。(编程小软件界面图样如图3所示)
图3 实验编程操作界面图样
首先,从元数据的m200字段中抽取标题,经过停用词处理形成分词碎片,采用逆向最长匹配法与关键词词典进行匹配抽取关键词,并计算抽取的关键词词频及其权值,经过去重、词频及权值的双重过滤,最后形成了候选关键词集合。这一过程中对提取出的关键词的原始数量与有效数量、去重后数量、过滤后数量几个方面进行对比,并给出测试结果。
其次,按照计算核心概念的算法,计算候选关键词的核心概念,从而确定关键词的专指度。这一过程即可以过滤通用词,又可以筛选关键词,起到了双重作用。为了评测筛选结果的效率,笔者将抽取出的关键词人工分为两类——专指词和通用词,然后根据实验结果分别考察专指词的选取率和通用词的过滤率。
最后,根据核心概念计算过程中得出的关键词与核心概念的等级关系,参照《中分表》对新词进行定位,并对定位结果进行评测。
5.3 测试结果与分析
(1)提取关键词结果统计
如表2所示,本实验元数据共计2 287条,抽取出的词汇共计10 074条,其中有效数为9 241条,去重后关键词总数共计4 206条。其中提取出有效关键词的正确率达99.95%,可见逆向最长匹配法提取关键词的效果不错。这里的“有效”指的是中文短语、英文词汇以及包含英文单词的中文短语,相对“无效”的字词短语包括中文单字、无意义的英文单字词片段、阿拉伯数字等。
分析造成无效词汇的原因有两点:一方面是由于使用的TP类(计算机科技大类)抽词词典数据本身的原因,该词典包含了128 326个字词短语,涵盖了计算机大类所有可能涉及的词汇,但其中也包含了本文中所谓的无效字符短语,故而被抽取出来;另一方面是人为因素,笔者在人工分析时,从个人主观角度判断,有些本来是正确的英文词汇,特别是英文缩写单词,在笔者不了解的情况下被删除掉,比如:BOP、CAN、ADL等,这样的英文单词在数据中占据了一小部分的比例。
将关键词词频和TF-IDF权值作为过滤条件,通过设定阈值,经过词频和权值过滤,最后提取出了251个有效关键词。这里设定词频的阈值为4,IT-IDF的权值为5。最后,将过滤后的关键词最后构成候选关键词词集。(具体如表3所示)
(2)关键词筛选结果统计
通过核心概念的计算,确定候选关键词的专指度大小,进而筛选关键词中的专指词和通用词,并进行评测。为了这一步评测,笔者对候选关键词进行手工分为两类——专指词和通用词。统计过程中专指词总数和通用词总数均为人工分类选中的结果,专指词识别数和通用词识别数为程序自动选中的结果。(具体见表4)
实验结果中,专指词总数为158,识别出来被选中的有55条,即这55个词计算出了关键词对应标引词集的核心概念,正确率为34.81%;另外的103个词没有计算出对应的核心概念,被当做通用词过滤掉了。93个通用词中有32个没有计算出对应的核心概念,也就是识别出了它是通用词,正确率达65.59%。
由此结果可以看出,专指词识别率相对较低,究其原因可能包括以下两个方面:首先,由于本实验仅仅使用了TP31类的数据,数据量较小,没有涵盖整个计算机大类,更没有涵盖A到Z其他大类的数据。实验数据集的局限性,必然会对结果筛选时产生影响。其次,因为没有电子版的《中分表》作为参照,笔者只能将网页形式的词表数据进行手工整理再加以利用,整理时笔者仅将TP31大类的叙词及其词间关系导入到数据库中。由于数据量太大,浪费大量的人力和时间,因而笔者没有对TP整个大类及其他各个大类的数据进行整理,这是实验的一个缺陷之处。所以在计算核心概念,标引词选择词族构造等级树时,很多标引词没有找到相对应的词族,因此被删除掉,这必然对最后的结果产生影响。笔者设想,如果将词表中所有词汇都加以整理利用,实验的结果正确率肯定会更加可观。
(3)关键词定位结果统计
计算关键词对应的核心概念时,已经假定了关键词与核心概念会形成一定的等级关系,经过人工辅助将已经筛选出的专指词定位到《中分表》中。笔者设定,BT代表上位,NT代表下位,ET代表等价词,RT代表相关词,Er代表错误词。定位结果总体统计如表5所示,定位结果的部分实例如表6所示。
由定位结果可以看出,55个专指词定位时,等级关系一共11个,包括4个上位词和7个下位词,等同关系共7个,相关关系共22个,错误定位数15个。出现上位类定位情况是抽取出的关键词语义范围较大,比如“系统”一词定位的结果是“实时操作系统”的上位词。等同关系是词表中本来就有的词,实验中是为了显示各种等级关系并加以对比才将其包括在内的。下位类关系应该是最常见的,这是考虑到算法归约性质的原因。其中相关关系数量最多,笔者认为可能是由于参考的《中分表》数据不全面的问题造成的。造成错误定位,有可能是数据源本身的标引词错误的原因,笔者在查看元数据时也发现存在标引错误这一问题。另外,进行定位时包括人工辅助,由于笔者的学识有限,对于陌生词汇的认知度不够可能会造成定位结果的偏差。
6 结语
本文提出了一种丰富《中分表》的技术方案,具有一定的创新之处。由于目前关于词表自动生成的研究较多,而对于词表自动丰富方面相对较少。鉴于此,本文提出了一种基于《中分表》,从已标引的结构化语料库中提取专业领域词汇,并定位到词表中,进而丰富词表的技术方案。该方案可以用于自动标引或编目,有着较好的应用前景。
当然本文也存在不足之处。首先,实验所选的元数据只是计算机领域类的一部分,故而数据集存在局限性,导致对关键词进行筛选时产生一定的影响。其次,实验仅仅是从标题中抽取关键词,没有涉及摘要和全文,这样对科技类文献比较实用,而文学艺术类则效果不佳。另外,实验时使用的人工整理的《中分表》数据不够全面,只是实验元数据对应大类的词汇,这对计算核心概念时造成不良影响。
总而言之,本文对词表的自动扩充研究进行了尝试。实验中存在的不足之处,笔者在今后会进行完善,以便达到更好的效果。本文的实验方法可以应用到自动标引或编目研究中,将构造的词表和知识库进一步可以应用于Web信息检索、自动分类、自动聚类,以及其他基于内容的文本分析和处理中。丰富词表机制、构造知识库,对分析基于构建传统知识组织资源词库的可能性进行了尝试,基于传统知识组织资源的本体构建是目前情报学研究领域的一大热点,希望今后能继续进行探索。
收稿日期:2011-10-17