文献检索系统排序指标研究与实践,本文主要内容关键词为:文献论文,指标论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
排序和检索系统密不可分,高质量的排序是高质量检索的重要组成部分。几年前,Google搜索引擎得到迅速崛起,高质量的PageRank算法是功不可没的重要因素之一[1]。因此排序指标的优选和方案设计是每个检索系统都必须面对的课题。理论上讲,检索本身解决的是匹配问题,对于检索命中的若干匹配结果进行显示,则是排序的问题。将与用户期望的结果最匹配的排在最前面,是每个检索系统追求的目标,其排序方案设计的优劣,直接影响用户的检索体验和效率。
科技文献作为人类智力成果的结晶,是每个科研人员天天面对的重要参考资料。其文献检索系统排序指标的方案设计,即如何帮助科研人员快速查找到期望的目标文献,并将最为匹配的文献排在最前面,无疑对提高科研人员检索和工作效率都起着重要的作用。
文章在研究搜索引擎常用的PageRank、HITS算法以及SpringerLink、Elsevier、Entrez PubMed等若干知名文献检索系统的排序方案设计的基础上,提出了D-Rank文献检索排序算法,并介绍了该算法在万方数据知识服务平台中的应用情况。
1 常用排序算法
1.1
PageRank和HITS算法
目前网络搜索引擎有一些经典排序算法,如PageRank,HITS(Hypelink-Induced Topic Search),Kleinberg算法,SALSA算法等。PageRank和HITS是用的较多的两种算法。
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。在PageRank算法中,从网页A导向网页B的链接被看作是页面A对页面B的支持投票,根据这个投票数来判断页面的重要性。而且系统不单单只看投票数(即链接数),对投票的页面也进行分析,“重要性”高的页面所投的票的评价会更高。根据这样的分析,得到了高评价的重要页面会被给予较高的PageRank(网页等级),在检索结果内的名次也会提高[2]。
HITS算法认为搜索开始于用户的检索提问,每个页面的重要性也依赖于用户的检索提问。Kleinberg将网页(或网站)分为两类,即Hubs和Authorities。每个页面也有两个级别(Ranking),即Hubs(中心级别)和Authorities(权威级别),Authorities为具有较高价值的网页,依赖于指向它的页面,而Hubs为指向较多Authorities的网页,依赖于它所指向的页面。HITS算法的目标就是通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的Authority[3]。
这些方法能很好反应网页之间的相互引用关系,被重要的页面引用较多的网页重要性也较大,所以能较好地反应网页的权威性。但是这些方法对网页的主题考虑较少,或者根本没有考虑,容易产生主题漂移现象,即具有较高权威值的页面虽然都有较高的普遍权威性,但是在给定的主题上却并不一定权威。在文献检索系统中,很多检索都是基于主题的检索,因此采用这些方法并不能很好地满足用户的需求,但是在主题确定或者不关注主题的情况下,检索系统的排序可以参考这些思想,比如被引用数较多的文献是较为权威的文献,被引用数较多的作者是比较权威的作者等。
1.2 几种文献检索工具的排序方案
与网络搜索引擎处理网页对象相比,文献检索处理的对象文献有更为规范的形式,具有相对完整的元数据描述。因此,可以设计出更加有效的排序方法。以下是目前几家常用的文献检索系统所提供的排序方法分析[4-6]:
(1)SpringerLink数据库
SpringerLink是由德国Springer与Kluwer Academic Publisher合并后的出版集团。数字资源包含全文电子期刊1500余种、图书和科技丛书13000种以上、超过200万条期刊文章的回溯记录以及最新期刊论文出版印刷前的在线浏览。SpringerLink数据库检索系统提供了按照相关性和出版日期排序的功能。
(2)Elsevier(荷兰爱思唯尔)
Elsevier出版集团向读者提供电子出版物全文的在线服务,包括Elsevier出版集团所属的2200多种同行评议期刊和2000多种系列丛书、手册及参考书等,涉及四大学科领域:物理学与工程、生命科学、健康科学、社会科学与人文科学。Elsevier系统提供了按照相关性、标题、出版日期、作者/编者排序的功能。
(3)Entrez PubMed
Entrez科学文献检索体系是美国国家生物技术信息中心通过互联网为全世界提供的生物医学及相关领域的文献检索平台,其核心数据库是PubMed。Entrez PubMed系统提供了按照出版日期、作者、刊期排序的功能。
这些系统给读者提供了基本的排序算法,如对日期,相关性,作者进行排序,使用简单方便,用户可以通过对资源的这些基本属性进行排序,找到满足自己需要的文献。但是这些简单的排序逐渐落后于使用者的快速发展,随着互联网的飞速发展,越来越多的人通过文献检索系统获取资料,不仅仅是原来的专业人员,很多学生,各行各业、各个层次的从业人员都通过检索系统获取资源,因此,给用户提供多层次,多方位,个性化的排序方法对文献检索系统的排序提出了更高的要求。
2 文献检索排序指标研究和D-Rank算法
2.1 排序指标
总体来说,文献检索系统结果排序可使用的指标大体可分为两类:一类包括文献自身属性,比如都柏林核心集规范包括的题名(Title)、主题(Subject)、日期(Date)、创建者(Creator)等字段,一类是延伸属性,比如与检索表达式的相关度、文献所在刊物的外部评价级别(比如是否是被某种索引工具收录,是否为核心刊等),文献被引用次数等。
对于文献检索系统用户而言,文献自身属性中一些具有排序意义,一些没有排序意义,可能的排序指标如下[7]:
1)题名(Title):根据资源的题名进行排序。
2)创建者(Creator):根据创作、制作者(包括个人、组织或机构,用于标识创作、制作者实体的具有代表性的名称)来排序。
3)主题及关键词(Subject and Keywords):根据资源主要内容的关键词语或主题词进行排序。
4)说明(Description):根据资源内容的说明(包括但并不限于:摘要、内容目次、内容图示或内容的文字说明)等进行排序。
5)出版者(Publisher):根据资源的出版者进行排序。
6)发行者(Contributor):根据资源的发行者(包括个人、组织或机构,应是用于标识发行者实体的有代表性的名称)进行排序。
7)时间(Date):根据资源产生或有效使用的日期、时间进行排序。
8)类型(Type):根据资源的类型(包括种类、功能、体裁或作品集等)进行排序。
9)格式(Format):根据资源的格式(包括媒体类型或资源容量,也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间)进行排序。
10)标识(Identifier):根据资源的标识性信息进行排序。
11)来源(Source):根据资源的来源进行排序。
12)语言(Language):根据资源内容使用的语种进行排序。
13)相关资源(Relation):根据对相关资源的参照排序。
14)范围(Coverage):根据资源内容的领域或范围(范围包括空间定位:地名或地理坐标,时代:年代、日期或日期范围或权限范围)进行排序。
15)版权(Rights):根据持有或拥有该资源权力的信息进行排序。
以上这些项能够比较全面地概括资源的主要特征,用户可以通过这些元素对资源进行检索和排序。但是对于一个检索系统而言一些延伸属性能够更好地帮助排序系统向用户推荐文献,可能的排序指标如下:
1)相关度:根据资源与用户检索表达式的相关程度来排序。
2)被引用数:根据资源被其他资源引用的数目来排序。
3)刊物级别:根据资源发表的期刊的级别(如核心刊收录情况)来排序(适用于期刊论文)。
4)浏览次数:根据资源被其他用户浏览的次数来排序。
5)下载次数:根据资源被其他用户下载的次数来排序。
6)核心作者:根据作者被别人引用的文章数目来排序(参考PageRank的思想,被别人引用的文章数目越多的作者越重要,系统设定一个阈值,被引用文章超过此阈值的作者称为“核心作者”)。
2.2 D-Rank算法
基于网络搜索引擎排序算法和常用文献检索工具排序算法以及对文献排序属性的研究,我们优选了可用的排序指标,并设计了用于文献检索系统,向用户提供优选论文的D-Rank排序算法。
(1)排序指标优选
对于用户来说, 由于其关注的侧重点不同,希望的排序方法各有不同,因此在设计D-Rank算法,我们仅对满足用户检索论文,希望得到高质量相关论文的目的而言,对各可用排序指标进行了优选:
在文献自身的属性中,D-Rank算法中优选了如下几个指标;
·题名:用户经常需要按照资源的名称,如论文标题,这样的顺序找到自己知道标题的资源。
·创作者:用户需要在检索结果中,按照作者的排序来寻找某个人或者单位创作的资源。
·时间:在检索结果中,时间能够描述资源对于用户的新旧程度,也是关键的排序指标。
还有一些元素,如关键词、说明、相关资源等,虽然能够对用户的关键检索起到辅助或关联的作用,用户可能需要对这些项的排序,但是对于大多数检索用户而言,没有太多意义,因此我们仅在计算文献相关度的时候使用,没有在D-Rank算法中直接使用;另外一些元素,如标识、来源、类型、格式、语言、范围、版权等字段,对用户来说,也是有价值的说明性信息,某些特殊的需求需要通过它们来排序,但是对于大多数检索用户而言,没有太多意义,因此没有在D-Rank算法中使用。
在延伸属性中,我们优选的指标包括如下几种:
·相关度:用户应该更关心与自己最相关的资源,因此按照相关度排序对用户来说是很重要的。
·被引用数:被引用数目说明了此资源的重要程度,被引用越多,说明此资源有价值的可能性越大,因此按照被引用数排序一定程度上表明了资源的价值。
·刊物级别:对期刊资源来说,刊物的级别,在一定程度上说明了文献的级别及针对性,因此对于不同的用户找到自己需要的级别的刊物是很重要的。
·浏览次数和下载次数:其他用户访问这个资源的次数说明此资源的受欢迎程度,或者有用程度,被下载次数越多说明这个资源有价值的可能性越大,因此按照浏览和下载次数排序一定程度上表达了资源的价值。
·作者级别:核心作者指作者的文献被其他人引用次数达到一定数目的作者。被其他人引用的文献越多的作者,应该是某领域比较权威的人物,因此按照核心作者排序在一定程度上表达了资源的权威性。
·核心作者引用:即按照被核心作者的文章引用的次数排序,借用PageRank的思想“PageRank值高的网页指向它,则这个网页很重要”,能够被核心作者引用的文献应该是比较权威或者在领域内研究比较深入或者创新性比较好的文献。实现时首先按照一定的阈值确定核心作者的集合,然后统计检索结果中每个文献被这些作者引用的次数,按照这个次数来排序。按照被核心作者引用的文献次数排序,在一定程度上表达了资源的权威性。
·核心刊引用:同样借用PageRank的思想,级别高的文献引用的文献级别也应该比较高,因此按照被核心期刊引用的次数排序一定程度上反映了资源的权威性。
(2)D-Rank算法
D-Rank排序算法包含两类:一类是单元素排序,另一类为组合排序。
单元素排序是指只采用单个排序指标进行排序的方法。单个排序指标包含文献资源的名称,题名、时间、相关度、被引用数、刊物级别、浏览和下载次数等。
组合排序是指采用多个排序指标组合起来进行排序的方法。这里包含两个关键点,即采用哪些排序指标组合和每个指标所占的权重。D-Rank算法优选推荐了三种指标组合排序算法:
·按经典论文优先排序:使用文献被引用数、刊物级别、作者级别、核心刊引用、核心作者引用、相关度等作为排序指标,并且前五个权重设置较大,最后一个权重设置较小。这样排在前边的文献应该是比较权威,有价值的文献。
·按论文时间优先排序:使用时间、相关度、核心刊引用等作为排序指标,并且第一个权重比较大,其他权重较小。这样排在前边的文献是领域内最新的研究成果,发表时间比较新的。
·按相关度排序:使用相关度、被引用数、刊物级别等作为排序指标,并且第一个权重比较大,其他权重较小。这样排在前边的文献是和查询的条件内容最相关的文献。
3
D-Rank算法在万方数据知识服务平台中的应用实践
本文在开发万方数据知识服务平台的过程中,全面采用了D-Rank算法,同时,创新性地提供了多个指标的组合排序方案,收到了良好的效果。
3.1
D-Rank应用
系统提供了经典论文优先、最新论文优先、相关度优先三种固定的排序方式。界面如图1。
经典论文优先、最新论文优先、相关度优先三种排序方式分别针对不同的排序需求:
图1 三种固定的排序方式的提供界面
·经典论文优先:用户需要比较经典,有价值的文献。
·最新论文优先:用户需要本领域最新的研究成果,发表时间比较新的文章。
·相关度优先:用户需要所有和查询的条件内容最相关的文献。
在万方数据知识服务平台系统(http ://www.wanfangdata.com.cn/)中,我们采用相同的检索条件:
“标题 包含完整句子 数字图书馆”与“关键词 包含完整句子 个性化服务”
分别勾选以上三种排序方式,在检索结果中可以看到,三个检索的检索基本条件是一样的,但是结果的排序是不一样的。三种排序方式的完整的检索条件示例如下:
图2 用户可以自己设置排序指标的界面
·经典论文优先:Expression=((Title=“数字图书馆”)and(Key Words=“个性化服务”))sortby CitedNum/Weight=3 CoreRank date relevance。
·最新论文优先:Expression=((Title=“数字图书馆”)and(KeyWords=“个性化服务”))sortby CitedNum CoreRank date/weight=3 relevance。
·相关度优先:Expression=((Title=“数字图书馆”)and(KeyWords=“个性化服务”))sortby CitedNum CoreRank date relevance/weight=3。
注:CitedNum:被引用数;CoreRank:核心期刊;Date:文献时间;Relevance:相关性。
通过以上检索条件,可以看到,不同的排序方式,实际上是调整了各个排序指标在排序时的权重,这样就能给有不同需要的用户提供不同的结果序列。
当然,以上只是一个简单的示例,实际在万方数据知识服务平台的检索系统中,各个排序方式中包含的排序指标以及每个指标的权重是在对大量检索数据统计的基础上得到的。
3.2 用户个性化多指标排序方法
在系统的高级检索中,还提供了用户可以自己设置排序指标的权重的功能。界面如图2。
系统提供了核心期刊指数,被引用频率,时间指数,相关度指数四个排序指标,用户可以通过拖动每个指标上的滑动条来调节此指标在排序中的重要程度。分值越高表示此指标越重要,0表示排序时不考虑此指标,10表示此指标最重要。
这样用户就可以通过自己手动调节各个排序指标的权重,宋满足自己对检索结果的需要。
4 结束语
文献检索系统排序指标的确定与合理使用,是给用户提供满意的检索结果的重要保障。本文分析了一些常用的排序指标,并简单介绍了其在万方数据知识服务平台中的应用。随着研究的不断深入,更多用户关注的排序指标将会被发现,在此基础上开发的系统,将会提供更完善的排序方式,给用户提供更加满足其需求的结果集。同时,系统提供的排序方法还可以与系统的其他功能,如个性化服务,结合起来给用户提供更好的服务。
(收稿日期:2007-10-12)