国外可用性研究进展述评,本文主要内容关键词为:述评论文,可用性论文,研究进展论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G350
收修改稿日期:2009-08-24
1 引言
可用性(Usability)作为一个具有强烈学科交叉性质的概念,近几十年来,一直受到来自情报学、图书馆学、软件工程、人机交互等诸多领域学者的关注。国内学者曾对国外数字图书馆[1]、网络广告[2]和系统工程[3]等领域的可用性研究进行了较为系统的回顾。
本文拟对国外近几十年来可用性研究的概念演变、评估指标和评估方法等几方面的研究进展进行全面回顾,并重点介绍近年来该领域的热点问题,即网站可用性研究的相关成果。
2 可用性的基本概念
可用性作为一个跨学科研究的热点领域,其学科交叉的特性使得其概念发展呈现多元化和边界模糊的特点,甚至成为“一个难以捉摸、内容宽泛并且复杂的概念”[4],而这种概念上的模糊不清又进一步导致研究实践的开展困难重重。正如文献[5]所说,可用性“既可以用来描述用户表现、用户满意度、系统易学性,也可以用来同时描述这三者,这使得精确地测量可用性变得十分困难”。因此,可用性的具体定义一直是可用性研究者所关注的焦点问题之一。
从学科发展的脉络上看,可用性概念的发展存在两条较为清晰的主线,即来自图书情报学(数字图书馆研究)领域的可用性研究和来自人机交互(HCI)与工程学领域的可用性研究[6],这两条路径的研究者对于可用性的定义和标准的理解都不同。以下分别对两类可用性概念进行介绍。
2.1 图书情报学取向的可用性概念
图书情报学取向的可用性概念其内涵与外延比计算机和工程学领域的可用性概念更宽泛一些。例如,Chowdhury[7]将可用性理解为信息服务提供信息的效率和效用,这种对可用性概念外延的扩大化,可以看做是传统图书情报学对于信息服务中用户至上理念的必然反映。Dillon[8]也认为,在数字图书馆领域,可用性主要是指用户在一个数字图书馆中找到所需信息的容易程度。
这种对于可用性概念内涵较为宽泛的理解,进一步导致了数字图书馆学取向的研究中可用性概念所关注的对象也非常广泛。例如Van House[9]就认为,数字图书馆的可用性主要依赖于三个方面:内容、功能和用户界面,其定义几乎涵盖了系统功能的各个方面。文献[10]也认为,数字图书馆可用性包括界面设计、功能设计、数据和元数据、计算机系统和网络等许多方面。文献[11]则指出,数字图书馆可用性研究应当是技术的、认知的、社会的和设计导向的几种不同视角的整合。
图书情报学界对于可用性概念的理解并不是单纯的技术取向,这与人机交互与工程学领域的研究具有较为明显的区别。文献[1]认为,这种研究视角上分野出现的原因是由于计算机或工程背景的研究者更关注作为信息系统的数字图书馆,而图书情报背景的学者则更关注作为机构的数字图书馆及其服务,笔者也较赞同这一看法。
2.2 人机交互研究取向的可用性概念
作为一个主要从人机交互研究领域中衍生出的概念,可用性的概念及其具体内容的阐释还是以人机交互取向的为多,这一取向的可用性概念关注的对象较为集中并主要与用户界面相联系[12],认为可用性指某个特定界面的有效性(Effectiveness)、效率(Efficiency)和用户满意度(Satisfaction)。文献[13]甚至认为,界面有效性和系统可用性“两个概念之间并没有明显差别”。Judy Jeng[14]指出,从人机界面的视角将可用性与界面的易用性和友好性联系起来的原因在于,可用性的理论基础就在于人机交互研究。
在这一取向的可用性定义中,引用最为广泛的来自ISO 9241-11中对产品可用性的表述[15]:一个产品可以被指定用户使用,在一个指定使用情景中有效地、有效率地、满意地达到指定目标的程度。其中,有效指用户达到指定目标的精确性和完全性;效率指用户精确完全达到目标所耗费的资源;满意度则特指用户的使用舒适度和可接受程度。可以看出,ISO的定义带有明显的用户和任务导向的色彩,并将关注点集中在用户界面的评估上。与之类似的还有ISO/IEC 9126[16]和IEEE Std 610.12[17]中的可用性定义。这种以用户为中心的理念得到了大多数可用性研究者的认同,并且出现了许多具有更加明显用户导向的定义表述。如文献[18]将可用性定义为“使用该产品的用户完成任务的方便和快捷程度”;文献[19]认为可用性是“帮助用户成功学习和使用一个系统以完成任务的属性”,都可以看作这一思想的延续。
ISO定义在被广泛引用的同时,其所存在的一些问题也一直为人所诟病。文献[20]认为ISO 9241-11的定义“并不能很好帮助人们理解到底有效性指什么”。Quesenbery[21]从三个方面对ISO 9241-11的定义提出了批评:
(1)这一定义过于关注既定的任务和目标,却忽视了用户体验中那些难以把握的东西。
(2)该定义强调效率和有效性,并将其作为交互的最重要属性,这使得在那些效率和有效性不太重要的场合中,可用性研究无法应用于产品设计。
(3)在很多情况下,“满意度”也不是一个能够满足要求的指标。
因此,他认为ISO 9241-11的定义“主要适合企业或其他与经营相关的应用环境,但在购物、信息搜寻和在线服务等领域却并不适用”。
3 可用性的评估指标
可用性作为一个非常抽象且定义模糊多样的概念,难以对其进行直接评价,因此研究者常常退而求其次,将其划分为不同属性来进行研究[22]。许多研究者根据所评价的具体系统的特征,概括出可用性评价的指标体系,并通过评估指标体系中所包含的各项具体指标来达到评估系统整体可用性的目的。关于可用性评价具体指标的几种最具有代表性的观点如表1所示。
从表1可以看出,传统信息系统的可用性评价指标较为明确,且内容相对统一。究其原因,是由于在互联网普及之前,传统信息系统的可用性所考虑的问题相对单一,基本“等同于一组互相关联的设计准则的集合”[29]。因此在前互联网时代,可用性评价指标的研究并不存在太多争议。然而近十几年来,随着互联网应用的大规模普及,传统信息系统的可用性评价越来越向网站和网络信息资源的可用性评价倾斜,并开始关注与互联网应用相关联的新准则,最明显的特点之一就是一些网站可用性指标中内容维度的引入。就评价指标体系中是否引入内容这一维度进行划分,可以将这一时期可用性评价指标的研究划分为两大类,笔者将其命名为关注内容的指标体系和关注用户的指标体系。这两类研究对于内容这一维度的看法,实际上反映出互联网时代网站可用性评价思想渊源上的某些区别。
3.1 关注内容的可用性指标体系
就研究文献的数量而言,关注内容的可用性指标体系研究是互联网时代网站可用性评价指标研究的主流思想,多数较有影响力的成果均来自于这一流派。如Nielsen[30]针对网络应用的特殊情况提出的4个新的可用性参数,即导航、响应时间、可信度(Credibility)和内容。此外,Agarwal和Venkatesh[31]提出针对网站可用性评价的微软可用性准则(Microsoft Usability Guidelines,MUG)是该领域的经典文献之一,其指标体系中包含5个维度:易用性、针对中等用户(Made for the Medium)、情感、内容和促动性(Promotion)。
受此影响,很多研究者提出了相似的观点,如Turner[32]将可用性分为导航、网页设计、内容、可存取性、多媒体使用、互动性和一致性。Palmer[29]将可用性定义为5个维度:下载延迟、导航、内容、互动性和响应性(Responsiveness)。部分学者还通过各种实证研究进一步分析了各项网站可用性指标的重要性。如Monideepa Tarafdar等人[33]分析了现有网站可用性设计的指标对于网站的影响,发现网站设计方面的因素,如信息内容、导航系统的易用性、下载速度、网站可访问性等与可用性正相关,网站安全性和定制化程度则与可用性无关。
从研究思想上看,所谓关注内容的可用性指标研究,可以看成是传统信息系统可用性评价思想在互联网时代的进一步发展。就研究者的背景而言,很多持这种观点的研究者(如Nielsen等)均拥有对传统信息系统可用性研究的丰富经验,在面对互联网时代网站这一新的研究对象时,他们可能更倾向于将网站可用性评价指标体系看作传统信息系统可用性评价指标体系的扩展——而内容恰恰是网站与一般信息系统的最大区别之一。从这个角度上说,这些学者将内容作为评价体系中的一部分引入进来,显然有其合理性。
3.2 关注用户的可用性指标体系
一些学者并不完全认同内容这一维度在互联网时代可用性指标体系中存在的必要性。较有代表性的观点如Green等人[34]发现,内容对于用户对网站的满意度和回访率的影响并不显著,因此没有必要将其包括到可用性评价体系中来,他们提出的网站可用性主要包含导航、订制与个性化、下载速度、可存取性和移动性等5方面属性。Rosen等人[35]则认为,网站可用性应当定位于用户理解和探索的需求,他们给出一个三维度可用性定义,包括一致性(友好的环境、易用的导航和清晰的设计)、复杂性(包含供用户探索的各种信息和图像)和易读性(一致和清楚的网站设计)。
就研究思想而言,这部分研究者更多从用户行为分析的角度考察网站可用性评估指标体系的构建问题,一些学者从理论层面对这一问题进行了一些探讨。如Venkatesh等人[36]将技术接受模型(Technology Acceptance Model,TAM)引入可用性研究领域,认为任务的重要性和系统的用户友好性决定了用户接受技术的程度。此外,易用性、用户友好性和客户满意度等指标也被证明对站点可用性具有决定作用[37]。Agerfalk等人[38]还提出了动作导向建模和可行性(Actability)的概念。研究者认为,系统应当是可行(Actable)的,也就是能够帮助用户完成想完成的动作(Action),因此在设计时应当时刻关注用户的特殊信息处理需求。
需要指出的是,将网站可用性指标研究划分为所谓关注内容和关注用户的两种取向,并不代表前者就不关注用户,后者也不关注内容,而是就这两类研究思想的出发点不同而言的。从具体指标的构成上看,两类研究的区别实际上并不明显。但从研究思想上看,前者将网站可用性视为传统信息系统可用性在互联网时代的延伸和发展;后者则强调互联网时代用户行为对于网站可用性的极端重要性,这种视角上的不同更应当加以注意。
4 可用性评估方法
可用性评估研究经过数十年实践,已经发展出许多成熟的评估方法。文献[14]总结的常见可用性评价方法包括可用性测试(Usability Testing)、可用性检查(Usability Inspection)、卡片分类法(Card Sorting)、类别成员期望测试(Category Membership Expectation Testing)、焦点小组讨论(Focus Groups)、问卷调查、有声思维法(Think Aloud)、网站日志分析法、认知过程走查法(Cognitive Walkthroughs)、启发式评估法(Heuristic Evaluation)、权益分析(Claims Analysis)、基于概念的表层与结构不相符分析(Concept-based Analysis of Surface and Structural Misfits,CASSM)、纸上原型(Paper Prototyping)等。就这些可用性评估方法的应用阶段而言,可以将其划分为设计过程中和设计后期的系统界面设计阶段两大类,文献[39]将这两类方法命名为格式法和综合法。从这些方法的原理上来看,又可以分为实验法和分析法两类[40],前者主要包括可用性测试法,注重用一系列过程和程序模拟实际系统的使用行为;后者则包含启发式评估法、认知过程走查法和准则回顾法等。具体而言,目前的可用性评价研究中应用最多的三种方法是可用性测试、启发式评估和认知过程走查法。
4.1 可用性测试
Holleran[22]认为,可用性测试是一种收集关于用户接口的可用性信息的方法,是发现用户在使用系统时可能出现的问题的过程。由于可用性测试直接面向实际使用系统的终端用户,因此其结果对改进产品设计往往具有重要意义。Binstock[41]指出,“将可用性转化为应用的过程的两个中心要素就是交互式设计和可用性测试,这两项工作都是为了保证用户使用软件的体验和用户的预期相符,并且在用户完成交互的过程中不出现任何不必要的障碍。”
可用性测试的参与者一般都是系统的实际用户,其数量则取决于该测试所包含的分组数、测试的时间和成本限制以及得到统计显著效果的必要性。有研究表明[42],最初的几个参与者所提供的信息最多,此后随着参与者的增多,边际效应逐渐递减。Virzi[43]发现,80%的问题是由最初的4-5个参与者发现的。Nielsen[44]也指出,5个用户就可以发现77%-85%的问题,因此他建议可用性测试的一般用户数是3-5个。然而,少量用户难以发现不同分组之间的显著差异,因此Spyridakis[45]认为,实际测试中至少应当聘请10-12名参与者。
可用性测试常常需要在特别设计的可用性实验室中进行,参与者在实验室中完成一系列基准(Benchmark)任务,这涉及一系列具体研究方法的应用。Nielsen[23]认为,有声思维法(使用户大声说出自己正在做的事情)是可用性测试的一种有效方法。通过这种方法收集的用户评价对于改善系统界面设计非常有用。然而有声思维法对于大多数人来说并不适应,并且会减慢用户使用系统的速度,因此会影响结果的可靠性。Lund[46]提出了录像法,以便于后续的访谈并记录用户所遇到的各种问题。然而观看并记录录像带也是一项非常耗时耗力的工作。另外一种技术是借助于交互日志,在完全不会妨碍用户使用系统的情况下记录用户使用系统的行为[47],但日志法的最大问题是它仅仅显示用户做什么,却无法知道用户那样做的原因[48]。此外,问卷法也是一种评估用户对于界面的主观满意度的常用方法。用户界面满意度问卷(QUIS)已经被运用在很多可用性实验中并验证其有效性[49]。其他测量方法还有软件可用性测度目录(SUMI)和系统可用性刻度(SUS)等。
4.2 启发式评估
较早使用启发式评估法进行可用性评价研究的是Nielsen[44,50,51],他使用一套相对简单、通用、有启发性的可用性原则进行可用性评估。其大致思想是:专家使用一组称为“启发式原则”的可用性规则作为指导,评定用户界面元素(如对话框、菜单、在线帮助等)是否符合这些原则。在进行启发式评估时,专家采取“角色扮演”的方法模拟典型用户使用产品的情形,从中找出潜在的问题。Nielsen[44]给出了启发式评估法最常用的10条可用性准则:
(1)系统状态的可见度
(2)系统和现实世界之间的吻合
(3)用户控制和自由
(4)一致性和标准
(5)预防错误的发生
(6)依赖识别而非记忆
(7)使用的舒适性和高效性
(8)有审美感的和内容最少的设计
(9)帮助用户识别、诊断和修复错误
(10)合理建立帮助与文档
由于启发式评估使用专家的成本较高,且专家的稀缺性又可能妨碍该方法的广泛运用,因此一些学者也考察了在启发式评估中专家的重要性。如Nielsen[50]考察了在可用性实验中不使用专家的实验效果,发现个人评估者并不能发现多少可用性问题,不同评估者所发现问题集之间相差在20%-51%之间。他们用统计分析的方法将评估者分组,最终得出结论认为任意5个评估者组成的评估小组可以发现51%-90%的可用性问题。
在另一次实验中,Nielsen[51]使用以下三组不同的评估者进行可用性实验:
(1)完全没有任何可用性工程经验的新手;
(2)可用性工程专家,但是并不具备待评系统所在专业领域的知识;
(3)同时熟悉可用性工程和所评估系统的专业知识的专家。
结果显示,当每组成员为3人时,三个组所发现的可用性问题比例分别为22%、41%和60%;当每组成员为5人时,三个组所发现的可用性问题比例为50%、80%和98%。
4.3 认知过程走查法
认知过程走查法[52]是一种要求设计者模仿实际用户使用人机界面去完成一些典型任务的可用性评估方法。走查时,评估者总是遵循系统设计者希望用户遵循的顺序执行任务,记录下走查过程中所出现的问题以便进一步改进。由于走查法不但指出出错点,而且提供了出错的原因,因此可以很好地帮助设计者提高界面质量。然而这种方法的缺点在于无法发现设计者在最初设计时忽略的潜在问题[53]。
4.4 几种评价方法的比较
一些研究者对上述几种较为典型的研究方法的应用效果进行了比较分析。如文献[42]分别比较了利用启发式评估和可用性测试进行网站可用性评价的效果,认为启发式评估适用于定性评价,而可用性测试则适用于定量评价,两种方法结合起来可以有效改进网站的可用性。文献[54]比较了启发式评估、可用性测试、应用准则(Applying Guidelines)和认知过程走查法,结果发现,启发式评估法发现问题最多。研究者同时还比较了集中评价方法发现研究问题的能力和时间成本。启发式评估法花费20小时,发现了1/3最严重的问题,但同时也发现了2/3最不严重的问题。可用性测试花费近200小时,但所发现的问题全部属于严重问题。文献[55]使用两个图形界面比较可用性测试法和认知过程走查法,结果发现,可用性测试法所发现的问题是结对走查(Team Walkthroughs)的两倍、单独走查(Individual Walkthrough)的三倍。研究者也比较了两种方法的时间成本和效果,同样发现可用性测试法花费时间较长,但其同时也发现了走查法忽略的很多严重问题。文献[56]比较了启发式评估法、认知过程走查法和可用性测试法,结果发现,启发式评估法发现问题最多(44%),其次是走查法(28%)。文献[57]比较了启发式评估法、指标回顾法和认知过程走查法。他们同时还研究了所发现的问题是否一定会对用户使用造成影响,结果发现,走查法所识别出的问题中,58%会在实际使用中产生影响,其次是启发式评估法(46%)和指标回顾法(22%)。文献[58]则比较了使用启发式评估和用户测试评估Intuitive系统界面的效果,结果发现,启发式评估发现了86个问题,用户测试发现了38个问题,并且这些问题竟“无一重合”。
5 网站可用性研究
网站可用性研究是近年来可用性研究领域的热点问题。一般认为,网站可用性的概念是从更加广义上的HCI学科的系统可用性概念衍生出来的[26],其所关注的对象和基本研究方法与传统可用性研究一脉相承。Preece[59]认为,网站的可用性就是个人用户为完成某项任务而学会使用并且与某个网站互动的简易和直觉化(Intuitive)程度,也就是用户所感知到的网站外观的品质[60]:易学、易记、易用。Shneiderman[61]指出,网站可用性本质上就是在功能性(Functionality)和网站复杂性(Complexity)之间取得平衡——功能性不足会导致网站功能不可用,而网站过于复杂又会使得界面难以使用。
5.1 网站可用性研究的意义和网站可用性现状
网站可用性研究的必要性向来是可用性研究关注的一个重点。Nielsen[62]建议,组织应当将开发系统10%的预算花在系统可用性的评价上。他在对42家通过可用性评估方法重新设计其网站的机构的调查后发现,可用性评价可以使得这些网站的流量增加150%,销售转化率(Sales Conversion Rate)增加135%。他指出对于商业网站来说,满足消费者的需要比吸引或取悦他们更加重要,如果消费者发现网站过于难用,他们就不会购物或者再次访问该网站[63]。文献[64]则指出,如果用户在一个网站上检索所需信息十分困难的话,他就会放弃这个网站,即使该网站确实提供了用户完成任务所需的信息;同时,消费者对于网站可用性的印象也会影响他们对于网站上商品的印象。
文献[65]指出,网站的可用性之所以重要,原因有以下4点:
(1)在万维网这样一个开放互联的环境下,用户切换站点非常容易,为了确保用户一直使用网站,网站必须首先满足可用的要求。文献[66]指出,对于那些检索界面不够友好且结果也没有很好组织的网站,用户常常还没有完成任务就另寻其他站点。
(2)万维网为日益广泛的信息产品和服务提供了接口,其用户包含从专家到新手多种类型,他们对系统的期望和本身所具有的技巧都大不相同,因此明确影响针对不同用户的系统可用性的因素至关重要。
(3)研究表明,较好的可用性往往会对用户行为产生积极影响,比如较低的出错率[67]和对网站的积极态度[68]。
(4)网站是用户与组织互动的接口,良好的网站可用性可以给人以一种客户至上和服务优先的印象[69]。
有研究者从另外一个角度研究差的可用性造成的经济损失。如Landauer[70]发现,全美每年因为在软件和网站设计中对可用性研究投入不足而导致的损失高达300亿美元。文献[33]引用A.T.Kearney咨询公司报告称,美国电子商务网站糟糕的可用性所导致的客户购买行为半途而废的经济损失每年高达40亿美元。Manning等人[71]则估计,大约50%的潜在购买机会都因为客户无法找到相关的产品和服务而白白流失,他们还发现大约40%的第一次购物经历不愉快的客户再也不会访问该购物网站。
一些研究者对现有网站的可用性现状进行了调研,结果表明现有的网站设计存在很多可用性问题[30]。最常见的问题是网站布局难以理解、导航系统不易使用导致用户迷失、缺乏互动性和可靠性等[26]。文献[72]设计了一个包含11项指标的网站可用性评价体系,并评估了INC500强的大公司网站,结果表明这些网站的可用性现状也并不乐观,平均每个网站仅符合5.5项指标。
5.2 网站可用性研究的理论模型
除了网站可用性研究的意义和现状的探讨之外,很多学者还深入探讨了网站可用性的理论模型的建构问题。例如,一些研究网站用户行为与认知结构的文献,在其提出的理论模型中就包含了某些可用性指标。如文献[73]提出了一个网络消费者满意度模型,其中包含了几项对在线用户满意度具有显著影响的可用性指标,比如导航和互动性等。文献[74]也提出了一个消费者满意度模型,包含导航易用性一项可用性指标。文献[75]将支持性(Supportability)作为B2C渠道满意度和偏好度模型的一部分。但是这些研究都只是引入了网站可用性指标的很小一部分,因此并不能完全解释和测度网站可用性对于在线消费者认知的影响。
鉴于此,学界提出很多网站可用性的理论模型。较有影响力的如前文所说Agarwal和Venkatesh[36]提出的微软可用性准则(MUG)模型。除此之外,较有代表性的研究还包括文献[76]基于对网站构建的分析提出的评价网站建筑质量的理论模型,其所阐述的可用性包含稳定性(Firmness)、便利性(Convenience)和愉悦性(Delight)三个维度。此外,文献[77]引入Kaplan[78]的景观偏好模型(Model of Landscape Preference Model),将用户对网站的偏好度类比为对景观的偏好,也具有一定参考意义。
尽管这些模型更好地解释了网站可用性指标的影响,但这些研究只是关注了网站可用性对于用户认知的直接影响,却没有研究可用性所造成的非直接影响,而这方面的研究正成为该领域研究的新热点。Norman[79]指出,网站设计的简单程度与网站导航系统的易用性正相关,但与互动性负相关。Nielson[30]也指出,网站导航系统的一致性对于网站具有积极作用,但会妨碍网站的互动性。文献[80]还发现,可用性好的网站会使用户对于在线店铺产生积极态度,并且提高用户的忠诚度和回访率,从而刺激网站的在线销量。此外,一些研究者还关注用户的浏览行为与网站可用性的关系,然而这一领域难以进行量化研究[81]。目前较为成熟的研究主要包括对用户点击延迟(即用户在点击超链接时会产生一个几秒钟的延迟)的研究。研究者发现,这个延迟时间是影响电子商务质量的重要因素之一[82]并且可能严重干扰网站的可用性[83]。此外,文献[84]发现网站的反馈信息可以有效增加用户对等待时间的忍耐度,减少等待的不确定性。文献[85]通过一组研究网站的颜色设置对于用户购买行为影响的实验发现,网站的感官效果对于用户的购买意向具有显著影响。
6 结语
近年来,可用性研究开始成为国内图书情报学研究的热点领域之一,本文对近几十年来可用性领域的国外研究文献进行了系统梳理,并对可用性研究的基本概念、评价体系和评价方法的发展进行了较为全面的回顾,重点回顾了网站可用性研究近年来的发展情况。希望本文的研究能为国内学术界对该领域研究进展和研究现状的把握提供有益借鉴。
标签:可用性论文; 可用性测试论文; 用户研究论文; 系统评价论文; 测试模型论文; 网站测试论文; 数字图书馆论文; 文献回顾论文;