信息检索实验中的任务设计：真实任务与模拟任务的比较研究_信息检索论文

信息检索实验中的任务设计——真实与模拟仿真工作任务的比较研究，本文主要内容关键词为：工作任务论文,信息检索论文,真实论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

修回日期：2014-07-09 本文起止页码：5-12

DOI：10.13266/j.issn.0252-3116.2014.16.001

1 引言

信息检索系统评估能有效地促进信息检索系统理论及实践的发展，改善信息检索系统的开发和设计，是情报学研究的重要领域。当前，信息检索系统评估研究已从对传统信息检索系统的评估，发展到对数字图书馆、搜索引擎、移动搜索引擎、手机图书馆等各类型信息检索系统的评估，也由此建立了多种信息检索系统评估的理论模型或框架，包括以系统为主导的Cranfield评估模型、以用户为中心的信息检索系统评估模型以及结合这两者特点的模型，如由P.Borlund和P.Ingwersen首次提出[1]，并由P.Borlund验证和完善的交互信息检索评估模型[2]。无论从何种途径评估信息检索系统，实验法都是信息检索系统评估的主要研究方法，而任务则在实验的过程中扮演了重要角色，即引导用户在信息检索系统中搜寻信息、与信息检索系统交互，从而产生检索的结果。评估研究者基于检索的结果，如查全率、查准率、平均查准率等测算系统的绩效，或引导用户基于任务完成的过程和结果给出对系统的评价。因而，在采用实验方法评估信息检索系统的过程中，任务的设计至关重要，并极大地影响交互信息检索研究的结果。

在任务的设计上完全采用用户的真实工作任务并不可取，因为任务类型、性质差异过大，容易导致评估结果的偏差；同时，也不利于不同信息检索系统或算法绩效的比较。因而，在传统的信息检索评估实验中，设计简单的检索请求是最普遍采用的方法，至今在TREC(Text Retrieval Conference)研究中仍然广泛使用。然而，随着信息行为研究的发展，环境或情境对用户信息搜寻行为的影响逐渐成为一种共识。传统的方法忽视了环境或情境对用户搜寻行为的影响，因此，从用户导向的信息系统评估的角度来看，简单的检索请求是无法准确评价信息检索系统的绩效的。考虑到这些因素，P.Borlund和P.Ingwersen提出了“模拟仿真工作任务情境”(simulated work task situations)(以下简称“仿真工作任务”)这一概念，在实验的过程中，为用户提供一个模拟仿真的工作任务情境，引导用户在一定的任务情境中思考如何通过与系统的交互，获取有用信息，以完成这一模拟的工作任务，并基于这一过程，评估信息检索系统的绩效。通过这种方法，研究者既可收集到客观数据，如查准率、查全率等，也可收集到用户提供的与系统交互过程中的感知、体验等主观数据，从而更全面、科学地评估信息检索系统。因此，自它提出以来便被广泛应用于信息检索系统评估，并延伸至信息搜寻行为的研究中[3]。

尽管仿真工作任务设计方法已被广泛应用，然而，L.Blomgren等人在评估研究中对比分析了真实和仿真工作任务的效果，发现用户在真实工作任务情境中能更好地完成搜索任务[4]。P.Borlund和J.W.Schneider也认为目前缺乏对仿真工作任务有效性的研究[3]。因此，为进一步检验仿真工作任务取代真实工作任务开展信息系统评估研究的有效性，本研究试图在同一个数字图书馆评估研究中利用两种任务，比较分析它们的属性，并考察用户在真实和仿真工作任务的驱动下，交互行为和交互绩效是否存在显著差异。

具体而言，本研究主要探讨以下问题：①仿真工作任务和真实工作任务的属性是否存在显著差异?②仿真工作任务和真实工作任务所驱动的用户交互信息检索行为是否存在显著差异?③仿真工作任务和真实工作任务所驱动的交互检索绩效是否存在显著差异?

基于以上分析，本研究将进一步探讨在信息检索评估和信息行为研究中如何科学地设计仿真工作任务，以增强研究结果的可靠性和科学性。

2 文献综述

2.1 任务属性与信息检索行为研究

任务的不同属性会影响用户的信息搜寻行为，不同的研究已对此进行了深入探讨[5-7]，这些任务属性包括任务的复杂度、类型、阶段、结果、任务相互依赖性等。

根据K.Bystr

m和K.J

rvelin的研究，任务复杂度会极大地影响用户的信息搜寻行为[8]。D.J.Bell和I.Ruthven发现用户能区分任务复杂程度，任务所提供的有用信息、信息类型、信息数量等因素影响用户对任务复杂度的判断[9]。J.Gwizdka和I.Spence的研究表明用户较多的搜索努力、较慢的浏览速度和较低的搜索效率能够有效地预测用户事后对任务难度的感知，而客观的任务复杂度会影响用户主观上对任务难度的判断[10]。Li Yuelin和N.J.Belkin发现客观的任务复杂度几乎影响了研究对象交互信息检索行为的诸多方面，如信息源的选择、提交的查询语句数量、使用检索词的数量等[7]。以上研究表明任务复杂度是影响用户与信息系统交互的重要因素，同时它也受多种因素的影响。

除了任务复杂度，学者们也对任务的其他属性进行了研究。Li Yuelin和N.J.Belkin回顾了情报学、社会心理学、组织管理等领域对任务的研究，并在此基础上构建了任务的分面分类框架[11]。这一分类框架依任务的不同分面和子面及其属性值划分任务的类型，其中“用户对任务的感知”分面基于用户视角，明确了不同的任务属性。进一步的研究表明，任务是多维变量，在研究任务对信息搜寻的影响时应充分考虑不同分面的作用[7，12]。Liu Jingjing和N.J.Belkin研究了任务阶段和任务类型对用户信息行为的影响，以帮助改进信息检索的个性化水平[13]；任务类型影响了用户感知的任务难度和用户信息搜索行为之间的关系，应被纳入预测任务难度的要素之中[14]。此外，XieIris定义了工作任务的不同维度，如任务本质、任务阶段以及任务时间表；同时定义了搜索任务的不同维度，如任务来源、任务类型、任务灵活性等。她通过研究发现，工作任务和搜索任务的各个维度均影响用户搜索的内容和方式[15]。LiYuelin的研究也发现用户对任务不同子面的感知会不同程度地影响他们与检索系统的交互行为[16]。

2.2 仿真工作任务情境

如上所述，随着以用户为中心的情报学的发展，用户在信息检索系统评估中起到了越来越重要的作用。考虑到环境或情境对用户信息行为的影响，为有效地评价信息检索系统和研究用户信息搜寻行为，仿真工作任务得以提出并获得广泛应用[3]。L.Blomgren等人通过分别设计真实和仿真工作任务来评价信息检索系统[4]。J.Kim探讨了网络环境中如何通过任务预测用户的信息搜索行为。她区分了三种任务类型，即事实型任务、解释型任务以及探索型任务，并设计了相应的仿真工作任务，发现用户执行不同类型的任务时，在检索频率和检索策略上存在显著差异[6]。通过使用仿真工作任务，Yuan Xiaojun和N.J.Belkin分别评价了4个支持具体信息搜寻策略的交互信息检索系统[17]；同样基于仿真工作任务情境，他们又评价了一个支持多种检索搜寻策略的整合信息系统[18]。

为了使模拟仿真工作任务方法更加有效，合理的任务设计必不可少。P.Borlund等曾构建了交互信息检索评估模型，为了确保这一模型的有效性，她专门研究了仿真工作任务情境，并指出一个有效的模拟仿真工作任务必须具有以下3个主要特点：仿真工作任务提供的情境必须与实验的参加者相关，他们能准确地理解该任务；仿真工作任务的主题必须是参加者感兴趣的；虚构的情境要提供足够的环境信息以便参加者在该情境中发挥自己的想象[2]。因而，设计仿真工作任务必须充分考虑参加者的背景。Li Yuelin和N.J.Belkin曾尝试采用任务的分面分类法设计仿真工作任务[7]：首先通过半结构化的深度访谈识别目标用户群的真实工作任务，并考虑任务的不同分面对用户与交互信息检索系统之间交互的影响，然后控制工作任务中对用户检索任务影响不显著的某些分面[12]，并通过任务的客观复杂度和任务产品两个维度来构建仿真工作任务。这一方式能确保仿真工作任务最大限度地接近真实工作任务，并且符合P.Borlund提出的仿真工作任务的设计要求。尽管从研究目标来看这一方式很有效，但设计成本较高，非常耗时，因此不可能每一项研究都按照这一方式来设计仿真工作任务。

综上，文献回顾表明，不同的任务属性影响用户的信息检索行为。相比于其他方法，模拟仿真工作任务法将整个检索过程纳入考虑之中，从而能够观察用户与信息检索系统的交互，因而具有明显优势。但其适用性依然还需要更多检验，而且多数研究中的模拟仿真工作任务情境并没有按照要求来设计，这可能使研究结果出现偏差[3]。因而仿真工作任务是否能够替代真实工作任务?如何设计仿真工作任务才能使得它和目标用户群的真实工作任务相接近?除了P.Borlund提出的3项要求之外，还有其他需要注意的问题吗?这些问题都值得进一步探讨。

3 研究设计

3.1 实验设计

3.1.1 实验参加者与场所本研究通过对数字图书馆交互绩效评估的实验来展开研究。笔者采用CNKI(Chinese National Knowledge Infrastructure)作为实验研究的检索系统，它是国内广泛使用的数字图书馆，具有较高的知名度。为了避免教育程度对用户信息检索行为造成的影响，实验参加者集中于本科生群体，通过在宿舍、餐厅、教室等处发布招募通知召集而来。其中，男性占33.3％，女性占66.6％；他们来自17个不同的专业，50％的参加者来自于图书馆学专业；54.8％接受过信息检索方面的专业培训，例如学习了相关课程或者参加过相关讨论会。为了让实验参加者更加自在地开展交互信息检索，实验场所都选择了与他们平时使用CNKI相一致的宿舍或教室。在签署知情同意书的条件下，在实验使用的电脑中安装了屏幕录制专家软件(v7.5)，用于录制视频以记录参加者与CNKI交互的全过程。

3.1.2 实验任务本研究采用了两项工作任务，其中一项是为本实验设计的仿真工作任务，另一项是参加者带来的真实工作任务。为构建仿真工作任务，并考虑到P.Borlund提出的模拟仿真工作任务情境应具备的特点，笔者非正式地访谈实验参加者，询问他们感兴趣的搜索主题。在实验准备期间，全国人民代表大会即将召开，而增值税改革是会议中的一个热点问题。考虑到实验参加者的兴趣，笔者选择这一主题，并将仿真工作任务情境描述如下，以使该主题与实验参加者相关并提供给他们想象的空间。

(1)模拟仿真工作任务

·工作任务情境：假设您是一名人大代表，人大会议召开在际，您比较关注增值税改革的问题，您需完成一个提案，主要内容是提出增值税改革建议及新税制改革的方法和具体运行模式。为此，需要了解学术领域对该问题的研究及不同观点，并试图将这些观点整合到您的提案中。

·搜索任务：请尽您所能，利用CNKI系统进行搜索，将对您有用的搜索结果保存在自建的文件夹中。您有15分钟的检索时间。

(2)真实工作任务

·工作任务情境：请您选取最近需完成的论文、作业、研究项目等，为完成该论文、作业或研究项目，您需要搜索相关信息。

·搜索任务：请尽您所能，利用CNKI系统进行搜索，将对您有用的搜索结果保存在自建的文件夹中。您有15分钟的检索时间。

3.1.3 实验流程参加者首先需要阅读和签署实验参与同意书，随后填写基本信息问卷并确定其自选任务主题，阅读任务1的要求并填写预搜寻问卷，然后阅读出声思考指南，在CNKI系统中根据任务完成搜索，搜索时间为15分钟。在搜索信息的过程中，参加者需要保存有用信息。在完成任务1的搜索后，需要填写搜索后问卷。之后，重复同样的步骤完成任务2的搜索。在完成所有任务的搜索和相关问卷后，研究人员对实验对象进行短时间的访谈并结束实验。为避免实验中的学习效应(learning effects)，真实和仿真工作任务的执行顺序在实验对象中交替轮换。每次实验平均耗时1小时，2012年4月2日～13日完成所有实验。实验过程被完整地记录下来，并从中提取相关数据以进行分析。

3.2 问卷设计

本研究的问卷涉及对3个方面数据的收集，分别是参加者利用CNKI的基本情况、对两项任务属性的预判(搜索前问卷)及任务完成后的反馈(搜索后问卷)。

3.2.1 参加者利用CNKI的基本情况在基本信息问卷中，笔者对参加者使用CNKI的时间长短、熟悉程度、使用频率、检索文献水平的自评、检索效果的自评这些情况进行了解。根据参加者使用CNKI时间的长短，将其划分为经验较少者(使用少于1年)、经验一般者(使用1～3年)、经验丰富者(使用多于3年)；将参加者使用CNKI的频率划分为3个级别，分别为使用频率低(低于一周1次)、使用频率一般(一周1～2次)、使用频率高(一周等于或多于3次)；根据李克特7点量表，参加者分别评价了自己对CNKI的熟悉程度、检索水平以及检索绩效，将用户打分划分为1～3、4、5～7的3个级别。结果表明，大多数参加者都有使用CNKI的经验，但是对其熟悉程度和使用频率都处于适中的状态；大部分参加者认为他们的检索水平不高或者较低，但大多数人却认为他们的检索绩效非常好，如表1所示。

3.2.2 搜索前问卷与搜索后问卷问卷的内容主要针对仿真和真实工作任务的属性和用户对搜索过程的评估而设计。为了对两项任务进行全面比较，本研究检验的任务属性在Li Yuelin和N.J.Belkin的任务分面分类框架[11]基础上进行了扩充。在检索之前，参加者被要求完成搜索前问卷。问卷内容是在李克特7点量表的基础上，要求参加者对工作任务复杂度(主观的任务复杂度)、主题熟悉程度、类似任务的搜索经验、找到任务所需有用信息的自信度、任务难度、任务目标的明确程度、任务紧迫性、对完成任务所需方法知识的掌握程度等进行预判，这些方面被称为“搜索前任务属性”。在检索之后，参加者需要完成搜索后问卷，即对通过李克特7点量表对相关性判断的难度、确定有用信息所需的努力程度、思考和解决问题所需技能水平、完成任务所获信息的充分性等方面进行判断，这些方面被称为“搜索后任务属性”，它们与衡量任务复杂度相关[19]。

用户对任务困难程度的认知在搜索中会发生变化[20]，因此为了更准确地了解用户对任务复杂度和难度的认知，本研究在搜索前问卷和搜索后问卷中分别设置了不同的测量指标。相对于搜索前问卷中直接使用“任务复杂度”来测量这一属性，在搜索后问卷中通过上述“搜索后任务属性”的一系列指标来进行详细评测。而对于任务难度，参加者在搜索前被要求预判任务难度；在搜索后，则被要求用“与预测相符”、“比预测判断困难”、“比预测判断容易”来评价实际的任务难度。用户基于他们的实际理解完成问卷。

将基于问卷所收集的数据及从实验录像中抽取的用户交互信息搜索行为数据输入SPSS 19.0，通过单因素方差分析和T检验来验证仿真和真实工作任务属性的区别以及这种区别是否会导致两种任务中用户交互信息搜索行为及交互绩效产生显著差异。

4 研究结果

4.1 仿真和真实工作任务属性的差异分析

单因素方差分析表明仿真工作任务与真实工作任务在以下任务属性中存在显著差异，具体如表2所示。

表中数据分别为参加者评分的均值、标准差以及单因素方差分析的检测值。

结果表明参加者显然对真实工作任务更加熟悉，更加有经验，也更有信心找到满足真实工作任务所需的有用信息；同时，他们认为真实工作任务的目标更加明确。本研究中的真实工作任务与参加者的专业和课程密切相关。因此这一结果说明参加者感到关联密切或手头正在进行的任务对他们而言更熟悉、经验更丰富、也更有自信完成它。同时，会认为这一类任务难度较低且目标明确。

表3则显示了仿真和真实工作任务不存在显著差异的属性。尽管如此，从均值比较来看，真实工作任务对于参加者而言更加容易也更迫切需要完成。在仿真工作任务中，进行相关性判断的难度更大，需要更高水平的思考和解决问题的技能，也需要付出更多努力以确定有用信息。

对比表2和表3可发现，仿真和真实工作任务之间具有显著差异的所有属性都存在于搜索前的预判中，而搜索后的反馈都没有发现两者的显著差异。这或许表明两类任务之间仅在搜索前存在差异，毕竟此时仿真工作任务对参加者来说是第一次接触，而真实工作任务并非如此。此外，结果还表明，对于真实工作任务，35.7％的参加者能够在搜索前准确预测任务难度，但59.3％的人认为实际情况要比他们预想的难，仅有4.8％的人认为实际情况比预想的容易；而对于仿真工作任务，上述情况的比例依次是31％、40.5％、28.6％。更多的参加者认为完成真实工作任务的实际情况比预想的难，而仿真工作任务的比例则恰恰相反，更多的人认为实际情况比预想的容易。

4.2 仿真和真实工作任务在交互信息检索行为上的差异分析

通过测量参加者所提交的查询语句数、检索字段数、查询语句长度、单一查询语句数、浏览的结果页面数、下载文档数等指标来研究他们的交互信息检索行为，指标数据从视频记录中抽取。因为1份视频记录已损坏，所以选择其他41份记录和参加者数据进行分析。T检验表明仿真和真实工作任务在上述指标上均不存在显著差异，这说明两类任务并没有导致参加者在交互信息检索行为上的明显变化。具体如表4所示。

4.3 仿真和真实工作任务在交互检索绩效上的差异分析

评估交互绩效的主要依据是参加者做出的对搜索成功程度、挫败感水平及对检索满意度的判断。结果显示尽管参加者认为真实工作任务的检索更成功、挫败感更弱，但仿真工作任务与真实工作任务并没有表现出显著差异，而且参加者对两类任务的搜索满意度几乎相同。因此，可以认为无论是仿真工作任务还是真实工作任务都不影响参加者对交互检索绩效的评估。具体如表5所示。

为进一步了解两类任务在交互绩效上的表现，笔者又采用皮尔逊相关系数来检验仿真和真实工作任务的各属性与用户交互绩效之间的相关性。表6和表7分别列出了搜索前和搜索后两类任务的属性与交互绩效之间存在显著相关关系的方面。表6显示，对于真实工作任务而言，搜索成功程度与参加者在检索前对找到任务所需有用信息的自信度、任务难度、任务复杂度的判断显著相关；挫败感水平则与对任务主题的熟悉程度、类似任务的检索经验、对完成任务所需方法知识的掌握程度显著相关；检索满意度仅与对找到任务所需有用信息的自信度和对完成任务所需方法知识的掌握程度显著相关。对于仿真工作任务而言，仅在检索满意度上显示出了与任务难度、对完成任务所需方法知识的掌握程度之间的相关关系。可见，对搜索到任务所需有用信息的自信度和对完成任务所需方法知识的掌握程度与真实工作任务情境中的交互绩效的多个方面都紧密相关，对参加者更具影响力。任务的方法知识和任务难度同时影响仿真和真实工作任务的交互绩效，尤其是用户的搜索满意度。

表7显示在搜索后的反馈中，仿真工作任务与真实工作任务的检索成功程度都与对相关性判断的难度、完成任务所获信息的充分性显著相关，仿真工作任务的检索满意度也与这两个属性相关，而挫败感则与任何仿真工作任务属性都无相关关系。

基于以上数据分析，相对而言，笔者发现在真实工作任务情境中，更多的任务属性与用户的交互绩效存在显著相关关系，这表明真实工作任务情境中的任务属性与交互绩效之间的关联性更加密切；相比之下，仿真工作任务的各属性与用户交互绩效之间的关联性较弱，交互绩效似乎更多地与检索后对任务属性的判断相关。

5 讨论

通过开展数字图书馆评估实验，笔者发现对于研究问题1，仿真工作任务和真实工作任务在某些任务属性上确实存在显著差异，但并没有对用户的交互行为和交互绩效产生显著影响。这意味着仿真工作任务在交互信息检索评估中可以达到与真实工作任务同样的效果而不会出现显著偏差。这一发现支持了P.Borlund之前研究的结论[1-2]，再次验证了设计合理的仿真工作任务能够有效替代真实工作任务进行信息检索系统的评估研究。针对CNKI的评估而言，本研究的实验任务设计也是有效的，两类任务并未导致用户的交互信息搜索行为和绩效产生显著差异。

已有研究表明，任务属性会影响用户的信息搜寻行为[15-16]，而本研究进一步指出并不是所有的任务属性都会带来具有显著差异的影响。对于问题2和问题3，研究发现仿真和真实工作任务在任务主题的熟悉程度、搜索经验、自信度、任务难度和任务目标的明确程度上的差异，并没有导致用户交互信息检索行为和交互绩效产生显著差异。尽管这一发现与已有研究结果相矛盾，尤其是在任务难度上[20]，但该结果支持了Li Yuelin在2010年的观点，即不同的任务属性会在不同程度上影响用户的交互绩效[21]。因此，未来还需要更多研究来予以检验。

任务复杂度在现有研究中被认为是影响用户交互信息检索行为的关键因素[7-9]，然而，本研究中仿真和真实工作任务在任务复杂度这一属性上并不存在显著差异。如果同时考虑到用户在两类任务中的交互信息检索行为和交互绩效也没有显著差异，那么可以认为之所以出现这一状况，原因可能是两类任务的复杂度并无显著差异。因此在设计仿真工作任务时，有必要控制任务的某些属性，以减小仿真和真实工作任务之间的差异，如控制任务复杂度使其与真实工作任务的复杂度相似，即复杂度低、中、高的仿真工作任务应当与复杂度低、中、高的真实工作任务相对应。事实上，D.J.Bell和I.Ruthvern曾在研究中设计过复杂度不同的多项任务，但他们并没有考察这些仿真工作任务的复杂度是否与参加者的真实工作任务复杂度相对应[9]。如果能够控制仿真工作任务的某些关键属性，同时考虑P.Borlund提出的仿真工作任务设计三要求，那么就能设计更加有效的仿真工作任务用于信息检索评估和信息搜索行为研究。

在信息检索研究中，任务难度同样是一个被广泛考察的指标。有些研究将其与任务复杂度等同，而有些研究则认为两者是两个不同的构念，即其本质存在差异，用户对其的理解也不同。研究表明，两者对用户信息搜寻行为产生的影响存在显著差异，因而，研究中应区别对待。本研究支持了后者的观点，在两类任务的属性比较中，任务难度表现出了显著差异，而任务复杂度却没有；在仿真工作任务的交互绩效中，任务难度与搜索满意度之间存在显著相关关系，而任务复杂度也没有；同样，大多数参加者在搜索前和搜索后对任务难度的判断显著不同，而对任务复杂度的判断却没有表现出显著差别。这些很可能意味着任务复杂度是一个比任务难度更加稳定的指标。但这需要更多的研究来加以探讨，包括如何定义和测度它们。

此外，本研究也表明在交互信息检索研究中，对于搜索前和搜索后的数据特别是测量参加者感知的数据需要认真分析。本研究中参加者在搜索前、搜索后对任务难度的判断就截然不同，他们在检索前倾向于认为关联更紧密或手头上正在进行的任务更容易，其他任务更难，但搜索后的感知则相反，也就是说他们的感知会发生变化，这一发现支持了Liu Jingjing等人的研究结论[20]。一方面，这可能是由于参加者在检索前对任务难度的感知比较模糊，如果对任务熟悉，感知判断就会偏向容易，反之就会偏向困难。然而，一旦开始检索并从中了解更多任务信息，他们对任务难度的感知就会更清晰，做出的判断就更准确。在这种情况下，检索后获得的数据就更接近参加者真实的认知状态。另一方面，可能是参加者在检索前做出的判断符合当时的认知状态，但检索实质上也是一个学习过程，因此参加者在检索后获得了新的知识，这些知识帮助他们降低了对任务难度的感知。从这一角度来说，交互信息检索研究中需要借助辅助设备来监控实验中参加者认知状态的变化，获得更精确的数据以描述参加者的认知状态，从而便于研究者更好地达成不同的研究目标。

6 研究结论

本研究在运用实验方法评价CNKI这一数字图书馆的过程中，分别设计了一项仿真工作任务和真实工作任务，通过对参加者在搜索前、搜索后的数据收集，探讨了两类任务在属性、交互信息行为和交互绩效三方面是否存在差异。结果显示，两类任务的某些属性在用户预判上存在显著差异，但在用户反馈、交互信息搜索行为和交互绩效上均不存在显著差异。也就是说，仿真和真实工作任务的差异并不会显著影响用户与数字图书馆之间的交互，仿真工作任务可以有效替代真实工作任务用于信息检索系统评估及用户信息搜寻行为研究。而要合理设计模拟仿真工作任务情境，应该遵循：①P.Borlund所提出的指导性意见；②必须清楚了解目标用户群的真实工作任务；③控制任务的关键属性，如任务复杂度等。

本研究启示我们，除精心设计用于数据收集的问卷、访谈提纲之外，考虑到用户在搜索前、搜索后认知状态的变化，还必须针对研究目标合理使用研究数据。

本研究的意义在于进一步验证了“模拟仿真工作任务情境”这一任务设计概念在信息检索研究中的有效性，并提出如何完善这种设计的建议。实验方法是信息检索研究尤其是评估研究常用的方法。近年来，国内的学者也越来越多地使用该方法从事科学研究。然而，任务设计环节往往不受重视，简单地搜索请求依然是主流；实验过程中，针对不同用户，任务的执行顺序也往往相同，致使学习效应无法避免，结果的偏差也在所难免。本研究可帮助国内的学者认识到任务设计在实验研究中的重要性及避免学习效应的理念和方法，以开展规范的实验研究，提高研究的质量。

当然，本研究还存在一些不足：①只设计了一项仿真工作任务和真实工作任务，可能导致研究结果存在偏差；②参加者均为本科生，他们利用CNKI的频率很可能低于研究生。本研究并没有考虑参加者利用CNKI的经验，而这可能会影响到他们的交互行为和绩效。为改进研究，未来笔者将招募教育程度不同的参加者，包括本科生、硕士生、博士生等不同层级、经常使用数字图书馆的人群进行实验；将根据不同水平学生的真实工作任务来设计更多的仿真工作任务，同时也将考虑到针对真实工作任务的不同复杂度来设计对应的仿真工作任务情境。

标签：信息检索论文; 仿真软件论文; 用户研究论文; 绩效目标论文; 绩效反馈论文; 复杂度论文;

信息检索实验中的任务设计：真实任务与模拟任务的比较研究_信息检索论文

猜你喜欢