搜索引擎评价指标体系的建立与应用_搜索引擎论文

搜索引擎评价指标体系的建立与应用，本文主要内容关键词为：指标体系论文,评价论文,搜索引擎论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

随着互联网的发展，作为重要的网络信息检索工具之一的搜索引擎，其发展非常迅猛。为帮助用户选择合适且可靠的搜索引擎，开展搜索引擎的评价研究显得十分重要。

在这方面，国内外研究者已经发表了许多研究成果。例如，H.Vernon Leighton和Jaideep Srivastava将传统的检索效率评价指标——查准率和查全率引入搜索引擎检索结果的评价中，提出了“相关性范畴”的概念，通过对不同范畴的检索结果赋予不同的权值计算查准率[1]。Bar-Ila提出应从数据库覆盖范围、查询响应时间、用户所需努力和检索效果来评估搜索引擎的性能[2]。Heting Chu和Marilyn Rosenthal则提出应从标引、检索能力、检索效果、输出、用户负担5个方面来评价搜索引擎[3]。国外搜索引擎评价研究最主要的一个特点是强调“人性化”。因此，他们在确定评价指标的过程中，在充分强调检索效率重要性的同时，常常把用户负担放在第一位。如Bell在前人研究的基础上，考虑到网络内容的复杂性，在评价信息检索系统时采取了以用户为中心的理念，以用户负担为主要评价指标[4]。

国内学者也先后提出了一系列的搜索引擎评价思路与标准。例如曾民族提出了数据库规模和内容、索引方法、检索功能、检索结果、用户界面、查准率和响应时间6项评价指标[5]。宛玲等认为可以借鉴传统检索工具的评价标准对网络检索工具进行评价[6]。包冬梅等侧重从最能反映搜索引擎“检索技术性能”的检索功能、检索结果、检索结果显示、用户负担4个测试指标展开测试和评析[7]。而凌美秀提出了立足于网络信息用户利益的搜索引擎评价标准，包括检全率、检准率、检索速度、搜索引擎索引数据库的更新周期、对信息有效性的判断能力5个方面[8]。

目前国内外搜索引擎评价研究既有定性的，也有定量的。国内搜索引擎评价标准多是综合或借鉴国外的研究成果，没有广泛吸取专家的意见，指标权重的获得也是带有强烈的主观色彩，对搜索引擎的评价研究尚缺乏一套统一的、完整的、科学的、权威的指标体系。因此，本文写作的目的在于试图在搜索引擎评价指标体系的建立和权重的计算上采用更加科学、合理的方法，建立一套较为完整且实用的评价指标体系，并选择若干有代表性的中文搜索引擎进行实际测评，以验证该搜索引擎评价指标体系的科学性和可行性，以便更好地为网络信息资源建设服务。

2 研究方法

2.1 搜索引擎评价指标体系的构建

指标体系的建立是进行评价研究的前提和基础，它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解为具有行为化、可操作化的结构，并对指标体系中每一构成元素（即指标）赋予相应权重的过程[9]。搜索引擎评价指标体系的建立，既要能够全面反映搜索引擎的性能，又要能够有利于进行定性和定量的实证评价。因此本文运用网上特尔菲法和基于指数标度的层次分析法来构建搜索引擎评价指标体系。

2.1.1 通过网上特尔菲法确定评价指标体系

作为一种专家调查法，经过多年的使用和理论上的完善，特尔菲法已日趋成熟，不仅用于预测领域，而且广泛地应用于各种评价指标体系的建立和具体指标的确定过程。由于网络为研究工作带来的极大便利性，因此本研究通过编写运行程序，利用网络优势，在网上进行特尔菲法专家调查。所有调查表的发布与回收、反馈，调查过程中专家意见的集中与汇总，均在网上进行。

首先，选择专家。本研究选择了熟悉该研究领域，有着深厚的专业理论和丰富的实践经验的专家，共计31人参与问卷调查，最终有28人参与了整个调查。

其次，设计调查表。在广泛文献调查的基础上，本研究设计了第一轮调查表。调查表分为两部分，一部分是一级指标调查表，另一部分是二级指标调查表。并且在一级指标调查表的最后一行列出“您认为还需要增加哪些一级指标？请列出，并给出相对重要程度。”在二级指标调查表中，列出“此一级指标下，您认为还需要增加哪些二级指标？请列出，并给出重要程度。”关于重要程度，给出了5、4、3、2、1五个评分等级。从5～1表示重要性逐渐递减，5表示非常重要，1表示不重要。专家对每项指标的打分在5～1之间，程序会自动对每项指标各专家的打分情况进行统计，分别计算出该项指标打5分、4分、3分、2分和1分的专家人数比例。

最后，组织专家答询。经过3轮调查后，专家的意见逐步趋于稳定，就此确定了搜索引擎各项评价指标。其中一级指标4项，二级指标共25项。

2.1.2 通过基于指数标度的层次分析法确定评价指标权重

指标权重一般使用专家咨询的定性方法或者用数学测定的定量方法来获得。本研究采用基于指数标度的层次分析法来计算获得各项指标的权重。权重的计算过程全部采用JAVA程序实现。

运用层次分析法，最重要的是构造判断矩阵，而构造良好的判断矩阵，关键在于应用合适的标度系统确定各元素两两比较的比例标度。标度是将人们的定性分析转化为定量分析的桥梁。不同的标度系统所构造的判断矩阵不仅一致性不同，由判断矩阵所得出的排序序值及顺序也不相同[10]。在前人的研究中，绝大多数都是采用传统的基于1～9标度的层次分析法来获得指标权重，但1～9标度具有如下的严重缺陷[11]：排序结果与人的心理判断差距大，判断矩阵一致性与思维一致性相矛盾，一致性矩阵构造能力差，可能与实际排序产生逆序，标度值与排序方法不一致，数学结构性质差等等。反之，

具体的运算过程有如下几个关键步骤：

（1）计算满分频度

满分频度即对某个对象打满分的专家数与对该对象做出评价的专家总数之比，其值在0～1之间。满分频度的大小，代表了该指标相对重要性的大小，即权重的大小。满分频度值越大，说明对该对象打满分的专家越多，因而该对象的相对重要性越大；反之，该对象的相对重要性越小。满分频度是本文计算权重的依据，或者说是基础。在本研究中，满分频度即给该项指标打5分的专家人数比例。

（2）计算指数标度

由于专家给出的满分频度最大为100％，最小为0％，之间相差为100％。在指数标度中，n取值范围为0～8，相距9个点，共8段，那么将100％八等分后，则每一等分为：（100％-0％）/8=12.5％。由于n的取值范围是0～8，同时我们又把100％八等分，这样相当于建立了一个对应关系，即在0～8的体系中的1，相当于0％～100％体系中的12.5％。然后任意两个满分频率的差与12.5％相比较，得出一个数据，就作为判断矩阵中的标度n。由于采用的是指数标度系统，因此，判断矩阵中的示素两两比较的比例标度值就是α[n]，即1.316的n次方。

（3）构造判断矩阵

利用指数标度的通式α[n]，并利用指数标度系统的互反性原则，即判断矩阵中的元素α[，ij][n]与α[，ji][n]互为倒数，对4个一级指标以及25个二级指标分别两两比较，得出的指数标度就可以用来构造判断矩阵了。

（4）计算指标权重，并进行一致性检验

判断矩阵构造完成后，就可以计算出各项指标的权重，并进行一致性检验。实际计算时，只需把相应指标的满分频度输入程序中，程序便会自动计算出相应层级的判断矩阵、指标权重、最大特征根和随机一致性比率（限于篇幅，具体计算过程省略）。

2.1.3 根据计算出的指标权重进行搜索引擎的实证评价

（1）评价对象的选择

本文评价对象的选择以中国互联网络信息中心（CNNIC）发布的《2005年中国搜索引擎市场调查报告》（以下简称《报告》）的调查结果为依据。调查结果[12] 显示出了北京、上海和广州三地用户首选的搜索引擎的情况。其情况尽管不尽相同，顺序有先有后，但是排名前几位的用户常用搜索引擎主要包括百度、Google、搜狐、新浪、雅虎搜索、网易等。因此本文将应用已构建的搜索引擎评价指标体系对百度、Google简体中文、雅虎中国、搜狗搜索（搜狐）、新浪爱问搜索和网易搜索引擎六大中文搜索引擎进行实际测评。

（2）评价过程

以构建好的搜索引擎评价指标体系为调查依据，以六大搜索引擎为调查对象设计成调查问卷。为了保证方法一致和计算方便，调查问卷同样采用1～5分来表示各个搜索引擎各项指标的优劣情况，从5～1表示重要性程度依次递减。调查采用网上问卷调查方法中的E-mail法，在南京大学信息管理系硕士研究生中随机选择了12名同学，作为此次问卷调查的被调查者。对回收的问卷进行数据处理分析，同样采用基于指数标度的层次分析法来获得六大搜索引擎的排序结果。需要说明的是，此部分在确定指标权重时并未使用满分频度作为数据处理的基础，而是采用被调查者打分的均分值作为数据处理的基础。这是由于待评价的每个搜索引擎并不一定就是这类对象中最好的，由此得到的打分值中满分频度很少，故用均分值代替满分频度。

3 结果与讨论

3.1 评价指标体系的确立

经过上述一系列的调查与统计汇总，以及每项指标权重的计算，最终确立了搜索引擎评价指标体系，如表1所示。

根据上表评价指标体系中的各项指标权重值，可以看出，相对于搜索引擎，各指标的重要性排序依次为：标引范围=更新频率＞标引数量＞自然语言检索＞查准率＞词组检索＞相关性排序＞内容显示＞概念检索＞响应时间＞模糊检索＞布尔逻辑检索＞查全率＞目录式浏览检索＞多语种检索＞字段检索=多媒体检索＞界面设计＞重复率＞其他检索＞相关搜索服务=过滤服务＞个性服务=特色服务＞搜索帮助。

因此，从结果来看，搜索引擎的核心是其索引构成，即评价搜索引擎最重要的指标是索引构成，包括标引范围、更新频率和标引数量。这与已有文献的研究结果相一致，认为覆盖范围以及更新周期是评价搜索引擎最重要的指标[13]。

3.2 六大搜索引擎的评价

3.2.1 递阶层次结构的构建

根据已确立的搜索引擎评价指标体系以及选定的6个待评价的搜索引擎，依据层次分析法，构建搜索引擎评价的递阶层次结构图，如图1所示。

图1 搜索引擎评价的递阶层次结构图

3.2.2 评价结果及分析

依照图1的层次结构来构建基于指数标度的判断矩阵，并计算特征向量，进行满意一致性检验。最终得到的层次总排序结果如表2所示。

由表2，可以看到六大搜索引擎的总加权值分别为0.1937（百度）、0.2014（Google简体中文）、0.1666（雅虎中国）、0.1555（搜狗搜索）、0.1415（新浪爱问搜索）和0.1307（网易搜索引擎）。于是，可以得出其重要性排序依次为Google简体中文＞百度＞雅虎中国＞搜狗搜索＞新浪爱问搜索＞网易搜索引擎。

排名前两位的是Google简体中文和百度。从数据上看，两者性能相差不大，不分伯仲。雅虎中国排在第3位，它与前两名在数据上有了一定的差距。之后的第4名搜狗搜索、第5名新浪爱问搜索、第6名网易搜索引擎与雅虎中国在数据上也只有细微的差别。如果要将这六大搜索引擎从综合性能的角度划分为出层次的话，Google简体中文和百度为一个层次，雅虎中国、搜狗搜索、新浪爱问搜索和网易搜索引擎为另一个层次。总的来说，在6个搜索引擎中，综合评价性能最优的搜索引擎是Google简体中文。这与陈继红、青晓[14]，马彪、李恒[15]，黄德玲[16] 等人的研究结果是一致的。因此，通过与已有评价结果的比较分析，进一步验证了本文构建的评价指标体系的合理性、科学性与可操作性。

3.3 对搜索引擎评价的建议

基于本文得出的研究结果以及搜索引擎自身的发展趋势，评价搜索引擎时应注意以下问题。

（1）目前许多文献对搜索引擎的评价采取测试评价的方式，即用检索提问的处理效果来测试搜索引擎性能的优劣。如果采取此方式，那么评价所用的检索提问可以选择图书馆馆员解答的一些真实的参考提问；同时，检索提问的复杂程度应各不相同，这样才有利于全面地测试搜索引擎的检索性能。

（2）尽管目前已有了一些基本的搜索引擎评价指标，但是在具体对某一个或几个搜索引擎进行评价时，需要结合各自的特点，增添或删减部分具体的细指标，因而搜索引擎的评价指标应具有一定的灵活性[17]。

（3）中文搜索引擎与英文搜索引擎应分开进行评价。中、英文搜索引擎之间存在显著差异，其原因在于中文字词之间没有分隔符，在进行分词处理时存在大量的歧义；而英文之间有空格分隔，不容易产生歧义。中文对由普通名词组成的专有名词识别较为困难，而英文可通过对专有名词首字母的大小写转换来区别。这决定了中、英文搜索引擎的机理是不同的。

（4）评价主体和评价对象应呈现多样化。如评价主体或评价机构可以从个人和大学的信息服务机构向多元化发展，其学科背景可以从情报学、图书馆学、计算机科学等向工商管理、市场营销、经济学等扩展；评价对象可以从综合性搜索引擎向专业化搜索引擎扩展，以丰富和拓宽搜索引擎的评价研究。

（5）搜索引擎的评价研究成果应当为搜索引擎的合理选择提供依据，同时帮助广大用户更方便、准确地利用搜索引擎来检索网络信息。

（6）搜索引擎的评价影响着其未来发展趋势，而搜索引擎的发展趋势又反作用于其评价标准，二者是相互作用、相互补充的[17]。为了评价的延续性和科学性、准确性，同时纵观搜索引擎在检索技术及其效果上的发展变化，此时可以选择已有文献中的评价对象，采用新的方法或思路、新的评价标准或指标进行再次评价。

4 结论

本文结合搜索引擎的特点，采用网上特尔菲法进行专家调查确定了搜索引擎评价的各项指标，并利用基于指数标度的层次分析法确定了各项指标的权重，在此基础上构建了搜索引擎评价指标体系。接着，以构建的搜索引擎评价指标体系作为评价工具，选择百度、Coogle简体中文、雅虎中国、搜狗搜索（搜狐）、新浪爱问搜索和网易搜索6个中文搜索引擎作为评价对象，进行实证分析。结果表明综合评价性能最优的搜索引擎是Coogle简体中文。

本文的创新之处在于：（1）通过网上特尔菲法获得搜索引擎的评价指标体系，借助专家的观点克服现有研究中个人主观色彩的局限性；（2）采用基于指数标度的层次分析法获得指标权重以及实际测评的结果，使得结论更加科学、合理；（3）所有的计算过程均采用编程方法来实现，保证了计算结果的快速和准确。

但是，本文的实证分析部分，只是选取了几个常用的中文搜索引擎，尽管在对象的选取标准上有一定的依据，但未免存在局限性。在后续的研究中，可以适当选取英文搜索引擎以及专业性搜索引擎进行评价。应该认识到，随着搜索引擎技术的不断发展，其评价标准体系并非一成不变，只有适时地做出调整，才能适应搜索引擎技术的快速发展。

标签：搜索引擎论文; 评价指标体系论文; 目录搜索引擎论文; 国外搜索引擎论文; 用户研究论文; 矩阵分解论文; 权重论文;

搜索引擎评价指标体系的建立与应用_搜索引擎论文

猜你喜欢