网络信息检索工具评价指标,本文主要内容关键词为:评价指标论文,信息检索论文,工具论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
随着因特网的不断发展和成熟,一些易于使用的信息检索工具不断地涌现。这些检索工具各有千秋,为了引导用户更好地利用它们,有必要对它们进行评价研究。
对因特网检索工具的评价研究最早出现在美国和加拿大。为了充分发掘因特网的信息资源,图书馆学、情报学、计算机科学等学科领域的许多学者从不同角度对因特网上的信息检索工具进行了研究评价,取得了一批学术成果。有些研究成果非常优秀,有很多值得我们借鉴的地方。但是,它们中对网络检索工具的评价方法和指标进行系统研究的却不多。
随着因特网在国内的普及和发展,介绍网络资源、检索工具的文章不断出现,但主要是一些启蒙性或指南性的文章,只是介绍网上资源和检索工具的使用方法,很少有系统研究网络检索工具评价方法和评价指标的文章。直到近两三年,人们对于网络环境下信息资源的管理越来越重视,一批学者开始把网络信息纳入到信息资源管理的理论框架之中进行研究,出现了一批较有深度的论文。
本文尝试对网络信息检索工具的检索性能、评价指标作一些讨论。
2 传统评价指标体系遇到的困难
对传统的信息检索系统进行评价时,主要的性能评价指标包括信息收录范围、查全率、查准率、响应时间、输出方式、新颖率、用户友好程度等。因特网的出现使信息环境发生了变化,传统的检索性能评价指标在对新兴的网络检索工具进行评价时遇到了很大的困难。
首先,在网络信息环境下,响应时间在相当大的程度上取决于用户使用的通讯设备、网络的拥挤程度等外部因素。就算同一检索工具,在不同时间检索同一课题,其响应时间也会不一样,实际上该指标无太大实际意义。
其次,真实的查准率和查全率在网络环境下也很难获得。
真实的查全率,即检索出的相关文献量和文献空间中所有相关文献量的比率,对整个因特网的文献空间来说是很难计算的,甚至连估算都困难。因为网上的信息是瞬息万变的,今天存在的信息,明天就可能不在了,同时又会出现更多的新的信息,而且至今对因特网上存在的信息量的准确估算都没有公认的说法。要计算或者估算查全率,就意味着要检验检索工具返回的所有检索结果,这在数量上可能成千上万。并且,要知道整个文献空间的相关文献量也是不可能的。
真实查准率,即检索出相关文献的数量和检索出的文献总量的比率,也是很难计算的。因为对于命中结果数太大的检索课题来说,相关性判断的工作量极其大,不具有现实可操作性。
再次,新颖率这个指标在网络环境下也不再是问题了。因为因特网上的信息更新的速度很快,以新闻尤甚,与学术科研有关的信息也不会在网上存在很长时间,因此检索到的信息基本上都是新颖的。新颖率这个指标也没有很大意义。
3 关于新的检索性能评价指标的讨论
为了解决传统的检索性能评价指标体系遇到的困难,有必要对原有的评价指标体系做一些修正,形成新的体系,以适应新的信息环境的要求。
如前所述,响应时间、新颖率、查全率和查准率等传统评价指标在全新的网络信息环境下都遇到了前所未有的困难。但是数据库的收录范围、输出格式的灵活性、数据更新频率和用户界面友好程度等传统评价指标则因为很好地适应了新环境而得以保留。此外,出现了链接的可靠性这样的新的评价指标。
但是,查准率和查全率一直是评价信息检索系统检索性能的最有说服力的指标,也是最应该保留的评价指标。下面分别就查全率和查准率进行一些讨论。
3.1 查全率
上一节中已经总结了查全率在网络环境下遇到的困难:
●整个网络空间的文献总量难以计算;
●整个网络空间中和检索课题相关的文献量更加难以计算;
●很多时候,检出文献中的相关文献量的计算要花费巨大的人力和物力成本。
也就是说,在网络信息环境下,计算真实查全率不具有现实可操作性。
从另一个角度来说,在网络信息环境下,进行全面的回溯检索的现实可操作性也不大,因为网络上的信息是动态存在的。网络信息动态存在的特性决定了网络信息环境下的信息检索只能求新而不能求全。如果要进行全面的回溯检索,则要求助于DIALOG这样专业的联机情报检索系统。在这种情况下,查准率似乎是更必要的检索评价指标。
3.2 查准率
前面已经讨论过,网络信息环境下的真实查准率是难于计算的。因为有的检索命中记录数太多,有时候可以多至成千上万,其相关性判断的工作量极其巨大。因此,有必要寻求一种可操作的替代办法。
比较成功的一种计算查准率的替代方法是两位美国研究人员H.Vernon Leighton和Jaideep Srivastava提出的“相关性范畴”概念和“前X命中记录查准率”。这里对这两种方法进行简要的介绍,并对其计算公式做一些改进。
3.2.1 相关性范畴
相关性范畴是按照检索结果同检索课题的相关程度,把检索结果分别归入4个范畴;范畴0,重复链接、死链和不相关链接;范畴1,技术上相关的链接;范畴2,潜在有用的链接;范畴3,十分有用的链接。
(1)范畴0
命中结果中有三种被归入范畴0。
第一种是重复链接。如果作为检索结果返回的页面的基本URL和前面返回的某一页面的URL相同,就被认为是重复链接,而不管它的其他属性(有效或者相关)。例如,http://www.this.org和http://www.this.org/index.htm就被当作重复链接处理。大小写的差异忽略不计。如http://www.this.org和http://www.This.org/index.htm也算重复链接。在这里,镜像站点也被计做重复链接。
第二种是死链,也就是不存在的链接。这包括404错误:指定服务器连接上了,但是URL中指明的路径没找到,说明检索到的页面已经被移走或删除了。这会发生在检索工具的数据库相邻的两次更新之间。603错误:指定服务器没有响应。
第三种是不相关链接。凡是不能满足基本检索要求的检索结果都被归入这一类。具体来说,指不能满足提问式的任一重要方面的检索结果。例如对检索课题ultraviolet absorption来说,既不包含ultraviolet也不包含absorption的检索结果就被归入这一类。
(2)范畴1
范畴1是指检索结果满足提问式的基本要求,但对检索课题来说是没有用的。这分作两种情况。
第一种情况,检索结果仅仅在技术上满足检索提问式,但是同检索课题不相关。例如,有些词表,包含每个检索词,但是和检索课题不相关。这种情况有,但不经常发生。
第二种情况,检索结果不但在技术上满足检索提问式,而且和检索课题有关,但是它的内容太少或者不充分,对任何对该课题感兴趣的人都没有用。例如,课题crustal evolution,有的检索结果是某大学地质学课程介绍,有的是关于地壳进化的课程简单介绍,但是没有别的相关信息,这样的检索结果应该被归入范畴1。
(3)范畴2
范畴2被定义为检索结果对检索者有潜在用处。这是因为有的检索者对检索课题有自己的理解和要求,而有些方面却没有在检索提问式中明确表达出来。范畴2中的检索结果将为检索者提供潜在相关信息。具体说就是,给出了与检索课题的有关的某些方面的但不很详尽的信息。
检索结果被归入范畴2的另一种情况是,检索结果中包含了指向属于范畴3的页面的链接。
(4)范畴3
范畴3被定义为检索结果明显地对所有检索该课题的检索者都有用。被归入范畴3的检索结果也分为两类。属于第一类的检索结果为检索课题提供了丰富的相关链接,或者提供了一个详尽的相关书目。这些相关链接指向很多同该课题各个方面有关的页面。因为这些链接提供的信息很充分,就会满足绝大多数检索者的需求。
属于第二类的检索结果则是对检索课题进行了非常详尽的讨论和阐述。
3.2.2 前X命中记录查准率
一旦相关判断进行完毕,接下来的工作就是决定对检索工具的检索性能进行评价的具体计量指标。为解决这个问题,Leighton和Srivastava提出了“前X命中记录查准率”P(X),用来反映检索工具在前X个检索结果中向用户提供相关信息的能力。
这个解决办法的最大优点就是它的可操作性。评价实验者可以根据人力、物力上的实际情况来选择X的具体数值。理论上,X越大,P(X)就越接近真实查准率,但这也意味着评价实验成本的增加。实验结果的精确程度和实验成本也是一种互相制约的关系。当然,在条件允许的情况下,X应该尽可能大。
比较合理的情况是把X值定为20,因为一般的检索工具都会以10为单位输出检索结果,前20个检索结果就是检索结果的前两页。而检索用户对前两页的检索结果一般都会认真浏览。这样要计算的查准率就是P(20)。
在计算P(20)时,对处在不同位置的检索结果进行了加权处理。因为检索工具都有某种排序算法,排在前面的检索结果在理论上应具有较大的相关系数,并且检索者通常都从头开始检验检索结果。因此,排在前面的检索结果应该被赋予高权值。具体的加权方法将在下面讨论。
3.2.3 计算公式
和真实查准率一样,P(20)也是一个比值,取值范围在0到1之间。对P(20)的计算,Leighton和Srivastava的做法是:
首先,根据对命中记录进行相关检验的结果,给每个检索结果赋予相关系数0或1。判断为相关的检索结果赋值为1,不相关的结果赋值为0。在评价时,相关标准可以根据评价的需要来确定。例如,只要求满足基本的检索要求,范畴1、2、3都可以被认为是相关的结果。而要求最满足检索要求,就只有范畴3是相关的了。
其次,把检索结果分为3组,1~3、4~10、11~20,然后在计算时分别赋予不同的权值。这样分组是因为,前三个检索结果往往组成了用户所看到的检索工具输出的检索结果的第一屏,接下来的7个结果则是检索输出结果的第一页,最后10个是检索输出结果的第二页。前20个检索结果以后的命中记录可以被看作是第四组,只不过这一组的权值为0。
第三,给每组检索结果加权。第一组权值为20,第二组权值为17,第三组权值为10。
第四,计算P(20)的分子,把每组的检索结果乘以各自的权值相加。例如,某个检索工具对某个检索课题返回的检索结果中,第一组有2个相关记录,第二组有5个相关记录,第三级有8个相关记录,那么,它的P(20)的分子就是
2×20+5×17+8×10=205
第五,计算P(20)的分母。如果返回的检索结果超过20个,那么分母就是所有的20记录都相关时的权值之和,即3×20+7×17+10×10=279。如果返回的检索结果不超过20个,分母就需要进行一定的调整,以使计算结果更接近真实查准率。
在检索结果少于20时如果不对分母进行调整的话,会出现检索命中记录越少,P(20)值越高的现象。如果检索命中记录数为0,分母就是0,那么P(20)就会是无穷大。因此对P(20)分母的计算做如下调整:当检索输出结果少于20时,用279减去不够20的检索结果数量乘以10。例如,某次检索返回15个命中记录,其P(20)的分母应该是279-5×10=229;如果返回命中记录数为0,其 P(X)的分母为279-20×10=79。
综上,最后的计算公式为:
其中,R代表各个命中记录的相关系数,N为命中记录数(当命中记录数大于20时,N=20)。
这样,如果某一检索返回超过20个记录,其中前15个是相关记录,则P(20)=229/279。如果命中记录数是15,并且全部都是相关记录,则P(20)=229/229。如果只返回一条记录且相关,P(20)=20/89。如果命中记录数是0,P(20)=0/79。
Leighton和Srivastava的计算方法中,在赋予检索结果相关系数时有一点不足。当范畴1、2、3或范畴2、3被作为相关范畴时,几个相关范畴之间没有加以区分。例如,当范畴2和3作为相关范畴时,如果一次检索返回5个属于范畴2的命中记录,另一次检索返回5个属于范畴3的命中记录,按照Leighton和Srivastava的计算方法,两次检索的P(20)都是94/129。显然,第二次检索的查准率应该优于第一次检索的查准率。
为克服上述不足,本次实验做如下改进:
当把范畴1、2、3作为相关范畴时,给属于三个范畴的检索结果分别赋予相关系数。属于范畴1的检索结果相关系数为0.3,属于范畴2的检索结果相关系数为0.7,属于范畴3的检索结果相关系数为1.0。这样,上述两次检索的P(20)分别是65.8/129和94/129。
当把范畴2、3作为相关范畴时,属于范畴2的检索结果相关系数为0.5,属于范畴3的检索结果相关系数为1.0。上述两次检索的P(20)分别是47/129和94/129。
当仅把范畴3作为相关范畴时,只给属于范畴3的检索结果相关系数为1.0。上述两次检索的P(20)就分别是0/129和94/129。这时,计算结果和Leighton和Srivastava的计算方法相同。
改进后的计算公式为:
其中,R'代表改进后各个命中记录的相关系数。
4 新检索性能评价指标体系的建立
新评价指标体系以“前X命中记录查准率”为核心,继承和发展了原有的评价指标体系,包括输出数据库的收录范围、格式的灵活性、数据更新频率、链接的可靠性、用户界面友好程度等。
“前X命中记录查准率”是一个易于操作的评价网络检索工具检索性能的指标。虽然“前X命中记录查准率”有着这样那样的不足,但是它确实能比较客观地反映检索工具在前X条命中记录中提供有用信息的能力。
数据库的收录范围是评价一个检索工具的最基本的指标,这里不再赘述。
输出格式的灵活性是网络信息检索性能评价的一个重要指标。检索工具应该能够灵活地定义检索结果输出格式。和传统检索性能评价指标相同,检索工具应该能够输出尽量多的有关信息,如标题、说明语、URL、文件尺寸、语种等。除此之外,网络信息环境的特点使网络检索工具可以用超链接来实现检索结果的输出。例如,Excite在每个命中记录的最后有"Search more like this"这一项,使得用户可以方便地找到更多的相关记录。
数据更新频率是网络信息检索性能评价的另一个重要指标。在不考虑成本的情况下,检索工具数据更新频率当然是越快越好。如果更新频率太慢,跟不上网上信息的更新速度,就会出现死链。
链接的可靠性是网络信息检索性能评价特有的评价指标。这个指标和数据更新频率有关。显而易见,如果链接的可靠性很差,断链、死链太多,就会出现找不到原始文献的情况,那么命中记录再多也没有用。
用户界面友好程度是所有检索工具是否易于使用的衡量标准。检索工具的目的就是尽可能完美地服务于信息检索用户,简单、易用应该是检索工具永恒的特点。