基于主题词表转换的科技文献检索面构建_主题词论文

科技文献检索中基于主题词表分面化改造的分面构建,本文主要内容关键词为:词表论文,文献论文,主题论文,科技论文,分面化论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      doi:10.3772/j.issn.1000-0135.2015.008.009

      鉴于分面检索能较好地支持探寻式检索和资源发现[1],因而受到了科技文献检索系统的青睐,目前各知名学术数据库和科技文献检索平台基本都已支持分面检索。其中,分面设置是影响此类检索系统体验的核心要素,就科技文献检索系统而言,分面主要来自文献的形式和内容特征。根据笔者对CNKI、万方、超星发现系统、SCI、Springer等多个常用数据库的调研,这些检索系统在形式特征角度的分面设置上已经较为全面,包括文献类型(期刊、报纸、图书等)、发表时间、文献来源、作者、作者单位、期刊类、作者国家地区、支持基金等;内容角度的分面仅包括学科或热门关键词。对学科和热门关键词分面进一步考察可以发现,两者均有较为明显的缺陷:学科分面粒度过粗,不能有效帮助用户准确表达或细化需求;对于热门关键词分面,展现的热门关键词数量较少时,对用户的需求覆盖有限;展现较多时,则会因关键词间缺乏逻辑关联,排序较为混乱,导致分面易用性较差;此外,部分热门关键词反映的是论文的研究领域[2],与学科分面一样粒度过粗。因此,由于缺乏合适的内容分面体系,当前各科技文献分面检索系统对用户基于内容角度的探寻式检索和资源发现支持有限。要解决该问题,就需要构建一个粒度较细、结构清晰的科技文献内容分面体系。在本研究中,笔者拟尝试基于主题词表分面化改造的方法来实现这一目标。

      全文内容安排如下:第1部分说明面向科技文献检索,基于主题词表分面化改造构建科技文献内容分面体系可行性的理论依据;第2部分阐述实现模型;第3部分通过构建基于该模型的原型系统,验证其可行性和效果;第4部分则对全文加以总结,并提炼下一步的研究方向。

      1 理论基础

      在基于主题词表分面化改造的分面构建的实现中,最核心的问题是面向科技文献分面检索的应用要求进行主题词表的分面化改造;同时,为保障方案的可行性,还需要实现基于主题词表的科技文献赋词标引,以实现科技文献与对应分面、焦点(Focus)的关联;制定针对性的排序策略以避免分面过多带来的信息过载问题。因而,国内外关于主题词表分面化改造、自动赋词标引以及分面检索中的分面排序研究成果就构成了本研究的理论基础。

      1.1 主题词表分面化改造

      围绕主题词表的分面化改造,国内外都进行了丰富的理论研究和实践探索,并形成了一些成熟的实现思路,较为典型的有两种。一种是保持原词表大类体系不变,在每个大类下进行分面列类,从而实现彻底的分面化改造[3-6],按此思路形成的成果包括国外的《布立斯书目分类法》(第2版)、《酒类和其他药物叙词表》、《美国医学主题词表》、《国际难民术语词库》等,以及国内的《教育主题词表》、《社会科学检索词表》、《中国语文教育分面叙词表》等。另一种是OCLC在FAST(Faceted Application of Subject Terminology)项目中提出的改造方案,其思路是将主题词表分成主题、地理名、形式、年代、人名、团体名、会议名、文献名八个分面,并以此为基础进行主题词表的分面化改造[7],基于该方案的改造成果被OCLC一直应用至今。这两种思路各有合理之处,就本研究而言,笔者更倾向于主要采用第一种思路进行分面化改造,但在分面分析时,可以借鉴OCLC的方案,将地理名、形式、年代、人名等作为通用分面。

      此外,维克里[8-10]、Denton[11]等还对主题词表分面化改造的步骤进行了总结归纳,这也可以为主题词表分面化改造的实施提供有益指导。

      1.2 自动赋词标引

      自动赋词标引技术的研究也起源较早,也取得了比较丰硕的成果,并成功应用于Medline美国医学文献数据库、BIOSIS Previews美国生物科学数据库、中国生物学文摘(Chinese Biology Abstract,CBA)数据库、基因银行(GenBank)、日本的DNA数据库(DNA Data Bank of Japan,DDBJ)等文献数据库中。其类型包括基于概率的赋词标引和基于概念的赋词标引两种[12]。较有代表性的基于概率的赋词标引方法包括Maron和Kuhns提出的基于相关概率的赋词标引方法[13],Fuhr提出的基于决策概率的赋词标引方法(DIA,Darmstadt Indexing Approach)等[14],Silva与Milidiu提出的基于相信函数模型的赋词标引方法[15]等。较为代表性的基于概念的赋词标引方法是由Dillon等学者提出的,并据此研制了FASIT系统[16]。此外,鉴于不同语言的特征不同,也产生了一些针对性的研究成果,比如词典标引法是面向汉语文献的一种较为常用的自动标引方法[17]。

      这些研究成果能够为实现不同语种、类型的文献的赋词标引提供指导。在本文第三部分的原型系统实现中,鉴于使用的是中文文献,因而主要参考了基于词典的主题标引方法。

      1.3 分面排序

      为提高用户利用分面的效率,避免分面过多带来的信息过载问题,需要制定合理的排序策略。在国内外的研究和实践中,最典型的排序方法包括两种:①基于分面对检索结果的覆盖率进行排序,分面覆盖的覆盖率越高,则其排序越靠前[18,19]。其合理性在于,分面包含的相关结果数量越多,用户通过此分面访问到目标结果的概率就越高。②基于分面的信息熵进行排序,分面的信息熵越高,则其排序越靠前[20,21]。其合理性在于,在同样的覆盖率下,分面的信息熵越高,则说明分布于各焦点的文献数量相对更均匀,用户到达目标文献的访问路径一般更短。

      这两种排序思路各有其合理性,笔者拟在本研究中同时借鉴二者的思路。并在此基础上,结合科技文献分面检索中用户使用分面的特点进行排序策略的设计。

      

      图1 科技文献分面检索中基于主题词表分面化改造的分面构建模型

      2 科技文献分面检索中基于主题词表分面化改造的分面构建模型

      科技文献分面检索中基于主题词表分面化改造进行分面构建的模型如图1所示,其中:主题词表分面化改造模块的作用是构建分面主题词表,为文献的主题标引、分面的排序和展现奠定基础;科技文献主题赋词标引模块的作用是用分面主题词表收录的主题词对文献进行标引,以用于文献检索;检索模块的作用是接受用户通过交互界面提交的检索请求,并进行检索,之后将检索结果分别传递给分面排序模块和交互界面模块;分面排序模块的作用是以分面主题词表和检索结果为基础,提炼该检索结果对应的分面并对其进行排序;展现控制模块的作用是根据各分面及焦点的具体情况对如何展现进行动态调整,以便于用户利用;交互界面模块则一方面将用户的需求传递给系统,另一方面从系统接收检索结果和分面结果展现给用户。下文将分别对主题词表分面化改造、科技文献主题赋词标引、分面排序和展现控制四个模块进行单独讨论。交互界面设计不是本研究的重点,因而不再进行展开,其设计原则可以参考文献[22~24]的研究成果;而检索模块则与普通检索系统类似,也不再展开讨论。

      2.1 主题词表分面化改造

      面向分面检索系统应用,主题词表分面化改造的思路是保持学科大类不变,在每个大类内实行分面列类,从而实现主题词表彻底地分面化改造。其实现可以分为分面分析、词汇归类、焦点排序几个环节。在分面分析环节,需要结合学科的具体特点对其进行基本范畴划分,从而建立新的分类体系框架。在词汇归类环节,需要将各主题词归入相应的组面,但在处理时需要注意两个方面:一是对于复合主题词,如有必要需要将其分拆并归入相应的组面;二是如果主题词间有明显的等级关系,则需要在归入相应组面的同时建立其等级关系。在焦点排序环节,如果各焦点间有非常明确的先后关系,而且用户习惯于通过按该顺序进行浏览,则该分面的各焦点依照其先后关系进行排序,并且需要加以标识,以便于后续应用,比较典型的例子是时间类的主题词,比如春夏秋冬,宋元明清等。对于各组面,如有必要需根据其特点设置相应的亚面,进一步将各主题词通过词汇分类、焦点排序环节归入到各亚面中,从而实现彻底的分面化改造。

      此外,鉴于一般情况下主题词表的更新周期较长,与分面检索系统的应用要求不符,因而需要构建独立的新增主题词发现和更新机制。笔者建议采用半自动化的更新机制:当数据库进行文献更新时,对新增文献的关键词进行分析,如果出现了新的关键词,则返回给人工进行判断;若该关键词可以作为主题词,则通过词汇归类、焦点排序,将其更新到分面主题词表。

      2.2 科技文献主题赋词标引

      在进行科技文献的主题赋词标引时,必须以分面化改造后的主题词表作为受控词表。因此,对于采用作者关键词或者抽词方式进行文献主题标引的数据库,需要采用自动标引或者计算机辅助标引的方式进行主题的赋词标引[25]。而对于Medline、BIOSIS Previews、中国生物学文摘(Chinese Biology Abstract,CBA)等已经实现赋词标引的数据库,鉴于其标引用的受控词表与分面化改造后的主题词表不一致,因而也不能直接应用其标引成果。对于此类文献数据库,既可以采用重新标引的方式进行处理,也可以构建标引所用词表与分面化改造后词表的映射关系[26,27],进而基于该映射将原标引结果转换为基于分面主题词表的标引。

      2.3 分面排序

      分面排序的目的是提升用户使用分面的效率,因而最理想的方案是按照分面的使用频次高低进行排序。由于用户的历史使用行为能够较好地预测未来的使用行为,因此可以通过日志分析的方式来预判分面的可能使用频次高低,为排序提供依据,而且为降低系统开销,可以将日志分析离线进行,并将结果构建成词典供后续使用。同时,有研究表明,用户在进行探寻式检索时,一般先输入概念较为宽泛的检索词,而后逐步对需求进行细化[28],基于此,对于缺乏用户日志数据的关键词和分面,可以通过分析分面是否由检索词对应主题词的下位词构成来预判其可能使用频次的高低。对于其他分面,则可以借鉴以往的研究成果[21,22],将找到目标文献的可能性高低和浏览路径的长短作为排序原则。

      整个排序策略的处理流程如下:①查找基于日志分析构建的词典中是否包含该检索词,如未包含则转②,如果包含,则依据词典中各相关分面的使用频次进行排序,若分面中有1个以上未被使用过,则这些分面的排序也参考后续步骤进行。②如果检索词是主题词或主题词的同义词,且存在由其下位词构成的分面,则将其独立展现且其排序优先于其他分面,否则转③;另外,如果其下位词构成的分面多于1个,则其排序也参考③进行。③综合分面的检索结果覆盖率和分面相关文献在各焦点间的分布是否均匀对分面进行排序,其中,分面对检索结果的覆盖率越高,用户通过该分面找到所需文献的概率越高,排序应越靠前;分面各焦点的文献分布越均匀,则用户通过该分面查找文献时,浏览路径越短,排序应越靠前。

      2.4 展现控制

      展现控制的目标是通过分面筛选体系的扁平化、分面间的合并减少分面过多带来的信息过载,以及通过对焦点进行排序减少焦点过多带来的信息过载。其实现包括词汇等级调整、分面动态调整、焦点排序三个方面。词汇等级调整是指,对于包含下位词的主题词,如果包含该主题词的文献集中于其一个或少量几个下位词上时,则在分面体系中剔除该主题词,而将其下位词上移,以减少分面体系的层级。分面动态调整是指,如果多个分面的焦点数量均较少,则将其合并到一起进行展现,以减少分面过多带来的信息过载。对于焦点排序,如果分面主题词表中已标记该分面下各焦点间具有明确的先后关系,则按照分面主题词表中指定的顺序排列;否则,采用较为通用的排序方式,即按照焦点对应的文献数量进行降序排列[22]。

      3 科技文献分面检索中基于主题词表分面化改造的分面构建实例

      为验证模型的可行性和效果,笔者以教育学科为例进行了原型系统实现。原型构建中使用的素材包括《中国分类主题词表V2.1》,《中国大学教学》、《成人教育》、《高等农业教育》、《中国成人教育》、《黑龙江高教研究》、《教育探索》、《教育与职业》、《实验技术与管理》、《现代中小学教育》、《继续教育研究》10本教育学核心期刊2006~2013年刊载的全部论文,剔除征文启事、目录、新闻、图书评介等非研究性文章后,共68 003篇。原型系统实现过程及效果阐述如下。

      3.1 教育主题词表的分面化改造

      进行教育主题词表分面化改造时,依据的是《中国分类主题词表V2.1》收录类目“G4教育”中收录的主题词,该版本更新于2014年1月。主题词表分面化改造各环节概述如下。

      (1)分面分析

      在参考B.C.维克里等提出的基本范畴以及1993年编制的分面教育主题词表[29]的基础上,结合教育学科的特点,将教育学科的主题词划分为5个基本范畴和13个大类,见表1。这13个大类也构成了分面主题词表的基本框架。

      

      (2)词汇归类

      在词汇归类时,首先将各主题词直接或分拆后按基本框架进行归类,并将具有明显上下级关系的主题词按等级罗列。在此基础上,再根据需要设置亚面,从实际情况看,有些可以在基本框架之下直接设置页面,有些则在细分出第二、三级类目后才需设置亚面。在进行分面设置时,除了按特征设置亚面外,还设置了“其他”亚面,将较为孤立的主题词归入其中。此外,对于有下位词的主题词,增设“其他”主题词,用于标引无法用其下位词标引的文献。

      (3)固定排序分面的处理

      部分分面对应的各主题词间有约定俗成的顺序,而且用户也习惯于按该顺序进行筛选,比如“各级教育”,其下位主题词早期教育、学前教育、基础教育、高等教育之间就具有明确的先后顺序。对于这类分面,在进行分面化改造时对其焦点进行了排序,并加以标记,以便于后续应用。

      分面化改造后的样例见表2,第一列是分面名称,二三列是主题词,最后一列标记为“是”的,代表该分面包含的各焦点或者该主题词的下位词需要严格按表中的顺序进行排序。

      

      3.2 样本论文的主题赋词标引

      鉴于本原型系统的重点是考察科技文献分面检索中基于主题词表分面化改造构建分面体系的可行性和效果,因而主题赋词标引只要求具备较高的准确率即可,而不刻意追求高召回率。基于这一原则,笔者选择了题名和关键词这两个表达文献主题能力最强的标引源[30]作为基础数据,采用简单词典匹配模式进行了文献主题的标引。其实现主要包括分词、词典匹配、上位主题词增补三个环节。

      在分词环节,首先利用搜狗搜索引擎的分词服务进行了分词[31],但由于其切分粒度过细,直接使用其分词结果进行词典匹配会导致主题标引的召回率过低,因而笔者又对邻近的分词结果进行了拼接,从而将搜索搜索引擎细粒度分词结果和拼接分词一起作为最终分词结果。在词典匹配环节,将分词结果与改造后的分面主题词表进行简单匹配,如果一篇文献的某个分词结果能与某个主题词完全匹配时,则将该主题词赋予该文献。最后,为提高主题标引的召回率,对标引结果进行了上位主题词增补,即如果一个主题词被赋予一篇文献,则该主题词的所有上位词都赋予该文献。

      标引完成后,抽取了100篇论文进行分析,策略对这些论文共标引了271个主题词,其中正确的为262个,准确率达到了96.7%,可以满足实验需要。

      3.3 分面排序策略

      根据前文提出的模型,在进行分面排序时需综合考虑基于日志的分面使用频率统计、是否存在由主题词下位词构成的分面、分面的检索结果覆盖率和分面相关文献在各焦点间的分布情况四个方面。由于缺乏用户行为数据,因而在原型系统中未实现基于日志分析的分面权值计算,而仅依靠其他三个方面进行分面排序。其中,分面的检索结果覆盖率用该分面覆盖的检索结果数量与检索结果总数的比值来计算;而分面相关文献在各焦点间的分布均匀程度的衡量则借鉴信息熵的计算方法,采用如下公式计算:

      分面相关文献分布均匀度=-∑p(xi)log(2,p(xi))(p(xi)指焦点xi对应的文献数量占该分面相关文献数量的比例)

      而总权值则取分面的检索结果覆盖率与分面相关文献分布均匀度权值之积。

      以主题词“教学方法”为例,其分面权值计算如表3所示,其中总权值为放大100倍后的数值。

      

      

      图2 原型系统初始检索结果页面

      3.4 展现控制策略

      主题词等级调整方面,如果主题词的下位词只有一个或两个(学生性别分面除外),则不展现该主题词,而是将其下位词等级提升一级,直接展现出来。分面动态调整方面,如果有多个分面的焦点少于三个(学生性别分面除外),则将其合并展现。焦点排序方面,对于分面主题词表中已限定排序的分面,按既定排序展现,否则依覆盖的文献数量排序。此外,在进行原型系统实现时,还将单个分面默认展现的焦点上限设置为5个,默认展现焦点的分面上限设置为8个,以减少分面或焦点数目过多带来的信息过载问题。

      3.5 原型系统效果

      在完成主题词表的分面化改造、样本文献的主题词标引,制定了分面排序和展现控制策略的基础上,笔者进行了原型系统的实现。由于通过CNKI能抓取的数据字段有限,因而支持的检索点也相对较少,包括:主题、题名、关键词、摘要、作者、年份、作者机构、来源期刊。在检索结果页面的分面展现上,除了展现基于主题词表产生的内容分面之外,还展现了年份、作者、来源期刊三个常用分面。以主题中包含“教学方法”为例,检索结果如图2所示,对检索结果以“常见教学方法”中的“双语教学”进行筛选,结果如图3所示。作为对比,笔者截取了某知名学术文献检索系统以“教学方法”为主题的检索结果界面,如图4所示。鉴于该实例能够反映原型系统和对比系统的效果,因此下面结合该实例对两个系统的效果进行对比分析。

      从图2可以看出,在初始结果页面,提供了常见教学方法、常见教学法派别两个由“教学方法”的下位词构成的分面,同时提供了教学、课程、学校、各级各类教育等分面;从图3可以看出,在基于“双语教学”筛选后,则由于其没有下位词,因而只展现了教学、课程、各级各类教育等分面。而且,图2和图3中默认展现分面和焦点数目均不太多,即便展开分面的全部焦点,一般也在10个以内,因此基本上不会带来信息过载问题。图4包括两张图,下面一张是该学术文献检索系统的初始检索结果页面,上面一张是展开关键词分面后的检索结果页面。从下一张可以看出,该系统包括关键词和学科分类两个内容角度的分面,其中关键词分面展现的是相关文献最多的5个关键词,但其中“教学方法”与检索词重复,“教学”则是检索词的上位概念,焦点过于宽泛,无法帮助用户细化需求,因此真正起到帮助作用的仅3个关键词;而学科分类分面展现的相关文献最多的5个一级学科,通过系统功能可以进一步查看二级学科。结合展开关键词分面的页面截图可以看出,除去前面提到的与检索词重复、过于宽泛问题,还存在以下问题:第一,存在焦点重复问题,如“教学方法”和“教学法”;第二,仅依赖频次排序,相邻焦点间缺乏内容上的关联,查找困难,以课程科目相关的关键词为例,分面中包含的相关关键词有语文教学、英语教学、数学教学、阅读教学、体育教学5个,其位置分别为第6、第7、第12、第16、第21位。

      

      图3 选择常用研究方法分面中的“双语教学”后的检索结果页面

      

      图4 某知名学术检索系统检索结果页面①

      基于以上分析,在科技文献分面检索中,基于分面主题词表构建分面体系可以使得用户全面、快速了解检索结果所涵盖的主题及分布,为其进行文献探索和筛选提供支持;同时鉴于分面数量有限且各分面下高频词数量较少,因而此种分面构建方式也几乎不会带来信息过载问题,从而可以大大提升科技文献分面检索系统的体验。

      此外,在原型系统构建过程中,也发现一些需要进一步研究的问题。在分面化改造方面,较突出的问题是拥有多个上位词的主题词处理问题,具体包括两类,一是上位词属于不同学科,比如主题词“教育法”既属于教育学科,也属于法律学科;二是上位词属于同一学科但属于不同分面,比如主题词“技工学校”的上位词包括“中等学校”和“专业学校”,而这两个主题词虽然同属于学校这一大类,但属于不同的分面。在展现控制策略方面,较突出的问题是部分高频主题词隐藏过深,比如以主题包含教学方法进行检索时,主题词“教学形式”的频次达110次,覆盖5.7%的检索结果,但由于其等级过深无法直接展现出来,导致用户的浏览路径过深,影响了用户体验。

      4 结语

      在科技文献的分面检索中,内容角度的分面设置一直不理想,严重影响了用户体验,其主要原因是缺乏合理的内容分面体系。面向这一问题,本文提出了基于主题词表分面化改造来构建科技文献内容分面体系的思路,在提出模型的基础上,以教育学科为例进行了原型系统实现。从原型系统和某知名学术检索系统效果对比看,基于该方法可以将检索结果所涵盖的主题和分布进行较为清晰的展现,便于用户快捷地进行文献探索和筛选,同时基于该方法产生的分面数量有限且各分面下高频词数量较少,几乎不会带来信息过载问题,因此该方法不仅具备可操作性而且效果良好。

      在原型系统实现过程中,发现了一些需要进一步解决的问题;同时原型系统的实现并未涉及模型的所有方面,这些既是本研究的局限所在,也构成了后续的研究方向。主要包括:①主题词表分面化改造中,拥有多个上位词的主题词处理问题;②部分高频主题词隐藏过深带来的利用不便问题;③该方法效果的用户实验验证问题,在实验前,需要先完善原型系统,包括扩大原型系统索引的文献量,提升主题标引的召回率等;④基于日志分析的排序策略实现和效果验证。

      ①该系统是超星发现,其主页是http://ss.zhizhen.com/。

标签:;  ;  ;  ;  ;  ;  

基于主题词表转换的科技文献检索面构建_主题词论文
下载Doc文档

猜你喜欢