检索语言可用性评价初探,本文主要内容关键词为:可用性论文,评价论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
检索语言是情报检索和信息管理的工具,它作为标引人员和检索用户的共同语言,建立了文献特征表达和文献需求表达之间的桥梁。在网络化、数字化的今天,检索语言的应用范围更加广泛,其质量影响着检索系统的检全率和检准率,进而影响用户的体验和满意度。
如何评价检索语言的质量是一个值得研究的问题。目前对检索语言的评价大多与检索系统评价密切相关,集中体现在检索语言对检索效果的影响评价,早期以Cranfield的检索系统评价试验为代表,后来发展起来的以TREC为代表的试验更关注检索系统本身的评价。
本文旨在从可用性评价角度讨论检索语言的评价,在总结和借鉴相关研究的基础上,构建检索语言可用性的评价体系。预调研阶段根据专家意见调整指标体系,然后邀请专家和用户对最终的评价指标进行评分,通过层次分析法确定各指标权重,由此得出结论。
1 相关研究
目前与检索语言可用性评价直接相关的研究较少。张正强总结“快、便、省”反映了检索语言的易用性[1],在降低成本、克服障碍、方便使用方面发挥作用,有利于提高“全”和“准”。本文从可用性评价和检索语言评价(非可用性评价的一般评价)两方面入手,总结并借鉴现有研究成果。
可用性概念的发展存在两条主线:来自图书馆情报学领域(集中在数字图书馆领域)和来自人机交互与工程学领域的可用性研究。戈文达、狄龙、凡浩斯、布兰德弗、汉森、杜马斯和迪克斯坦等人给出了可用性概念[2-8]。本文采用ISO 9241-11的定义:可用性是指一个产品可以被指定的用户使用,在一个指定使用情景中有效地、满意地达到制定目标的程度[9]。
表1总结了国外主要的可用性评价指标体系。现有应用中使用较多和较权威的是尼尔森的观点,包括易学性(Learnability)、交互效率(Efficiency)、易记性(Memorability)、错误率(Errors)和用户满意度(User Satisfaction)5个要素。哈特森将可用性分为有用性和易用性两个层次,有用性是易用性基础上的拓展。尼尔森和微软的评价体系都是在考虑网站应用的基础上提出的,增加了内容、导航、定制服务等新指标。国外可用性评价指标体系见表1[10]。
检索语言的概念发展到现在已经趋于稳定,该领域专家如张琪玉、曹菁、文榕生等都界定了检索语言的内涵[11-13]。笔者根据ISO的有关标准,认为检索语言是用于信息内容表示、存储和检索等过程的语言,或者是上述语言与给定检索软件所特有的命令的组合。目前检索语言的评价分为三类:检索系统评价中的检索语言评价,检索语言自身的评价,与检索语言相关的其他评价。
检索语言在检索系统中扮演重要桥梁作用。储荷婷分别阐述了四类系统的评价标准[14];兰卡斯特将检索系统的评价指标归纳为覆盖率、查全率、查准率、响应时间、用户努力和输出模式[15]。检索系统评价在理论上的讨论从系统和用户角度出发,包括查全率、查准率、非相关检出率、囊括率、漏检率、误检率等,以及涵盖率、新颖率、相对查全率、查全效果、期望查找长度、满意度、挫折度等[16]。检索系统评价试验以克兰菲尔德评价试验(Cranfield Research Project)最为著名。该试验的主持人克里文敦指出,影响检索语言质量最重要的因素是标引词的专指性和标引的穷举性,此外查全率、查准率和误检率(Fall Out Ratio)也是很重要的评价指标[17]。此外,对网络环境下检索系统的评价也有研究,韩圣龙认为网络环境下检全率和检准率存在局限性,用前X命中记录查准率来评价更好[18-20]。
检索语言自身的评价以兰卡斯特、张琪玉等人的研究为代表。兰卡斯特概括了评价叙词表的一系列指标评价,如完备性、显示方式、属分关系、词汇专指度、是否遵循国际标准等。储荷婷从同义词、同形异义词、句法、准确性、更新、成本和兼容性几个方面比较了自然语言和受控语言。张琪玉总结了与检索语言效率相关的因素。在电子和网络环境下检索语言自身的评价也有新的发展,如林晓华指出,新环境下要求情报检索语言使用更简单、检索更方便、结果更准确、信息获取更有效、语义关联更丰富、隐性知识更具体、信息组织更有序,等等[21];陈树年总结了《中图法》电子版的特点[22]。
与检索语言相关的其他评价包括信息表示和信息组织评价两方面。储荷婷将信息表示的评价指标划分为正确性、简洁性、一致性、客观性、清晰性/可读性/可用性。叶继元从印刷型文献、光盘数据库和网络信息资源三方面介绍了信息组织的实例和评价[23],对搜索引擎信息资源组织的评价包括信息采集软件的性能、收录范围与数据库容量、数据更新频率、检索功能、检索效果(响应时间、查全率、查准率、链接的可靠性)、检索结果显示、用户友好性和其他服务。
2 检索语言可用性评价体系构建
在文献调研的基础上,结合检索语言的特性和可用性评价的特点,构建了初步的检索语言可用性评价指标体系。在预调研阶段,首先,通过邮件方式发送给13位专家,收到4位专家的回复,根据专家的意见对指标体系进行调整和完善,确定最终的评价体系。然后,邀请研究专家/图书馆分类编目人员/检索用户分别对评价指标进行打分。最后,利用Matlab软件对最终数据进行层次分析,获得各个指标的权重。
2.1 构建目标和指标的选取原则
评价体系构建的目标是弥补目前对检索语言评价的片面性、缺乏性和非系统性,从可用性角度科学地评价检索语言,使得检索语言较好地实现其连接标引人员、最终用户和系统,提高检索效率的目标和使命。
指标的选取根据检索语言和可用性的特点,遵循特色性、导向性、系统性、可操作性和可持续性原则,以避免放之四海而皆准、为了评价而评价、分散不成体系等缺陷,尽量涉及检索语言可用性的各方面,客观可行,且能够适应检索语言的发展变化以及新的应用环境。
2.2 评价指标释义
根据专家意见调整初步的指标体系,最终确定了评价指标体系(见图1)。目标层是检索语言可用性(标号A),包括4个一级指标(标号B1~B4)、9个二级指标(标号C1~C9)和37个三级指标(标号D1~D37)。
图1 各指标权重分配
2.2.1 一级指标的确定 可用性评价的一级指标有两个方向:可用性角度和研究对象角度。前者如胡晓青和张建勇提出了适于数据库检索系统的可用性评价指标[24],分别是可理解性、可操作性、信息获取度、信息辨别度、出错频率、交互效率和用户主观满意度;后者如贺桂和和向建军在数据图书馆可用性评价中将一级指标确定为标识系统、组织系统、导航系统和检索系统[25]。本文一级指标的确定从可用性出发,一方面集中体现了可用性的特征,有助于界定指标的范围和下位指标的选取;另一方面,由于检索语言随着应用环境、用户、类型不同而略有差异,避免了从研究对象角度确定一级指标造成数量上不可控、难以统一的问题。
参考尼尔森的评价体系,最终确定的一级指标包括功能有用性、易用性、有效性和容错性。检索语言作为情报检索的重要工具,功能有用性是可用性评价的重要方面;将尼尔森的易学性和易记性合并,与使用简便和易更新一起,称作易用性(Hartson评价指标中的易用性指的是用户与界面的交互效率、易学性以及用户的满意度,笔者认为这种划分将易用性的范围过分扩大了)。检索语言不仅强调交互效率,而且对交互结果也有很高的要求,两者共同构成了检索语言的有效性;容错性是在尼尔森的错误率基础上,增加兼容性的考虑。
2.2.2 指标详细说明
1)功能有用性。功能有用性的二级指标包括功能的多样性(C1)和适用性(C2)。
功能多样性包括检索语言的基本功能和新功能。基本功能在学界已有定论,参考张琪玉的阐述(将检索语言的功能归纳为标引文献的情报内容、对内容相同及相关的情报加以集中或揭示其相关性、对大量情报加以系统化或组织化、标引用语和检索用语匹配、帮助用户获取有用信息),将其概括为标引文献(D1)、组织文献(D2)、检索文献(D3)的功能。随着信息化和网络化的深入发展,检索语言的新功能体现在知识发现和知识组织(D4)、逻辑推理(D5)方面。
功能适用性主要是从检索语言能否广泛应用角度说明,包括以下几个方面:适应信息机构各种相关业务环节的需要(D6)、适用于各种信息类型(D7)、适用于相关学科或专业(D8)、适用于多种类型检索系统(联机数据库、网络数据库、搜索引擎等)(D9)、满足多种检索需求(浏览、特性检索、族性检索等)(D10)、适用于不同程度的用户(专业用户或分专业用户)(D11)。
2)易用性。易用性包括易学易记(C3)、使用简便(C4)和易更新(C5)3个指标。
易学易记性的评价从编制说明(D12)、选词(D13)、句法(D14)、结构(D15)4个方面展开。编制说明的易学易记指说明文档清晰明了,帮助用户了解该检索语言的基本情况;选词的易学易记指检索语言的选词规范严谨,词义对应,用户易于理解;句法的易学易记指检索语言的句法语义符合标准,用户容易理解和掌握;结构的易学易记指结构形式简单、类目简明,用户易于掌握。
使用简便强调用户在使用检索语言过程负担小,包括6个方面:对用户的要求不高(D16);相关推荐或注释能及时帮助用户(D17);目录或导航清晰,用户可以方便找到想去的页面(D18);词汇句法等控制较好,用户不易混淆(D19);排版或界面符合用户体验(D20);用户参与度高(D21)。
易更新指检索语言的更新比较简单,无需花费大量金钱和时间,主要从更新成本(D22)、更新速度(D23)和更新难度(D24)3个指标来评价。
3)有效性。有效性是指检索语言帮助用户实现特定目标的效果(C6)和效率(C7)。检索语言的用户主要分为标引人员和检索用户。对标引人员,侧重标引效果,评价指标包括标引的网罗度(D25)、专指度(D26)、正确率(D27)和一致性(D28);对检索人员,侧重使用效率,体现在时间短和结果多两方面,评价指标包括查询时间短(D29)、响应快(D30),获得有效的词汇多(D31)、关系信息多(D32)。
4)容错性。容错性好的具体表现是在用户使用过程中检索语言出现的错误很少,同时检索语言具有一定的兼容性。检索语言的错误率(C8)主要包括方便找到相应的新词语(D33)、误组配(D34)和假联系(D35)情况少;兼容性(C9)包括与其他语言兼容(D36)以及与计算机环境(D37)兼容。
3 评价指标权重确定
3.1 操作步骤
采用层次分析法确定各指标权重的步骤如下:首先,构建同一级别指标对上级指标的两两重要性比较矩阵,共14个矩阵;其次,邀请专家进行重要性打分(1~9重要程度逐渐增加),通过电子邮件的方式将打分表发给20位专家/用户,收到12位的反馈(其中,研究专家5人,图书馆分类编目专业人员3人,信息管理专业博士生和硕士生4人);然后,在Matlab软件中求得每一个矩阵的最大特征值()、对应的特征向量值(w)、一致性指标(CI)和一致性比率(CR),其中对应的特征向量是各个指标的权重向量,一致性指标和一致性比率用于判断矩阵是否成立,最大特征值用来求得一致性指标和一致性比率;最后,对每位专家/用户的指标权重求均值,得到最终结果。
限于篇幅,在此以“检索语言可用性”指标下各一级指标的重要性比较矩阵为例。表2是4个指标两两之间重要性比较的判断矩阵,CR=0.0171<0.1,矩阵通过一致性检验。指标的权重即表格中对应的w值。
3.2 权重评定结果
图1为各指标对其所属的上级指标的权重。可以看出,一级指标权重的差异性较大,归属于同一上级指标的二、三级指标差异不明显。从重要性角度来看:①一级指标中,功能有用性和易用性比有效性和容错性更重要,其中易用性是最重要的指标。②二级指标中,对于功能有用性而言,功能的多样性比适用性略重要;对于易用性,易学易记、使用简便比易更新更重要;对于有效性,使用的效果比效率更重要;对于容错性,错误少比能兼容更重要。③对于同一个二级指标下的三级指标,大多都有一个最为突出的,例如“标引正确率”是“使用效果”最重要的指标,等等。
表3为三级指标对一级指标的权重以及层次总排序结果(三级指标的层次总排序受到所属二级指标的指标个数影响,在此不作深究)。权重范围介于0.016~0.050,有17个三级指标权重值高于平均水平(w=0.027)。首先“标引文献功能”(D1:w=0.050)最重要,其次为“结构形式简单、类目简明”(D15:w=0.046)和“编制说明清晰明了”(D12:w=0.041),二者都是用户易学易记的重要方面。容错性在一级指标的相对权重不高,但其下的“易与其他指标兼容”(D36:w=0.031),在总排序结果中显得较为重要,“获得有效的关系信息多”(D32:w=0.029)也是如此。最不重要的是“很少发生假联系情况”(D35:w=0.016),以及用户参与度高、目录或导航清晰(D21,D18:w=0.018)。
4 结束语
可用性作为一个跨学科的热点研究领域,近几年受到相关学者的关注和激烈讨论,数字图书馆、人机交互、软件工程甚至是艺术设计等领域都对其领域内相关产品的可用性进行了探讨。
本文首先回顾了可用性和检索语言评价两方面的相关研究,发现目前对检索语言的评价存在较分散、强调检索效果和依附于检索系统评价的特点。基于以上的研究成果同时根据相关专家的意见,构建了一个包含3个层级,37个子指标(三级指标)的评价体系。通过层次分析法,得到同一层次、对于总体目标层的各指标权重。
易用性是检索语言可用性评价最重要的一级指标,其次为功能有用性,而有效性和兼容性重要程度相对较低。具体而言,应该着重加强检索语言在标引文献方面的功能,编制说明清晰、结构形式简单以增强用户的易用性。在提高检索效果和效率方面,标引正确和获得大量有效的关系信息更为重要。检索语言本身要提高与其他语言的兼容性。
检索语言的可用性评价对于检索语言在网络环境下更好地发挥其功能,提升用户效率和满意度等都是有益的。本文对检索语言的可用性评价进行了粗浅的研究,未来的研究可以采用新方法扩大样本数据,调整和完善指标体系,分析不同类型用户(标引人员和检索人员)以及专家/用户的差异性,以指导实践应用。
收稿日期:2012-04-12