国内外信息质量研究述评_用户研究论文

国内外信息质量研究述评,本文主要内容关键词为:述评论文,国内外论文,质量论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      信息质量研究的发展离不开信息质量国际会议(ICIQ)的推动,该会议在过去的十年中每年在MIT召开年会,并为信息质量的研究者和实践者建立了讨论论坛。而国际数据管理协会和国际数据与信息质量协会专门设置了信息质量主题的工业会议和工作室,美国计算机学会(ACM)也出版了新的期刊——Journal of Data and Information Quality,这本ACM期刊已成为信息质量研究者和实践者的主要期刊。这些举措都推动了信息质量研究的发展。对于国内外信息质量的研究,本文以信息质量的概念与内涵为切入点,对信息质量研究领域相关文献进行梳理,重点从信息质量的基本概念、信息质量评估、信息质量管理和信息质量与数据质量的关系4个方面进行文献综述。

      1 信息质量的基本概念

      1.1 信息质量的定义

      早期对信息质量定义的研究主要集中于数据的精确性维度,将其分为正确的和错误的两种。随后,Ballou等人[1]提出信息质量是一个全面的概念,并采用了质量管理专家朱兰(Juran)[2]对质量的定义——“适合于使用”(fitness for use)。这一定义抓住了质量的本质特性,它基于信息使用者角度,说明了信息在使用中的相关性是信息质量的主要方面,突破了传统上认为信息质量即为信息准确性这一理解的局限性。但由于相关性取决于用户的主观判断,且信息具有多种使用方式,导致这一定义难以量化和评价。之后,许多学者试图进一步定义信息质量,并描述其维度,但由于用户对信息质量要求的不一致,导致其定义难以统一,而且,在提高信息质量的某一维度时可能会导致另一维度质量的下降,如提高数据的及时性是以降低其准确度为代价。国内外学者从不同角度提出了信息质量的定义。

      Strong D.M.等人[3]分别基于信息生产与信息使用提出了两种信息质量的定义:(1)信息质量表示信息要“符合规范”(conforming to specifications)。这一定义得到了信息生产者和信息管理者的认同,因为它可以实现对质量的评估。在信息生产与管理中,建立成熟的规范体系可以确保信息质量,避免错误,“适合于使用”也可以通过满足具体的规范要求实现可操作化。(2)满足用户期望或超出用户期望(meeting or exceeding consumer expectations)。这一定义是对上一定义的补充,表示信息必须能够满足用户期望或超出用户期望。也即是说,信息对于某一任务中的信息用户来说,必须是有用的、增值性的。信息用户和信息产品的设计者、销售者更倾向于认可这一定义,它抓住了“适合于使用”的本质,但由于用户期望的动态变化性使该定义难以测量。从两个角度、两个方面对信息质量进行定义,较为全面,并抓住了其本质特征,该定义在信息生产与评价中可实现操作化,具有一定的实践意义。

      根据ISO 9000标准,“质量”的定义是“产品、过程或体系中与要求有关的固有特性”[4]。如果把信息看作是一种产品,则信息质量特性包括以下几种类型:(1)技术性质量特性,包括信息组织程度、信息深加工程度、信息检索的有效性等;(2)时间方面的质量特性,强调信息产品的及时性、新颖性;(3)安全方面的质量特性,强调信息产品获取与使用的安全性、可靠性;(4)信息质量的经济特性,即某一信息带来的经济效益与投入的生产成本之比;(5)心理方面的质量特性,反映了用户的主观心理感知。信息产品的个性化可针对每一个用户的“适用性”要求,提高用户对信息产品质量的感知,而信息产品的易用性可提高用户的信息产品体验。信息产品质量是一个从产生、形成到实现的过程,其中的每一个环节都直接或间接地影响信息产品质量,信息产品质量最终由过程来保证。美国质量管理专家朱兰[2]提出了“质量螺旋模型”,这一过程中,信息产品质量的形成和发展是循序渐进的螺旋式上升运动过程。

      国内学者张辑哲[5]提出信息质量包括“信息的质与量”。信息质由第一质(即信息内容的真实性、准确性、正确性和深刻性)和第二质(即信息内容及形式、物质载体的确定性、恒定性和可靠性)两个层面构成;而信息量分为信息总量和信息分量,信息总量由各信息分量构成,信息分量有异指量、同指量、相对重复量和绝对重复量四个层面构成。信息质与信息量相互影响,共同构成信息质量。这一定义从定性与定量两个方面较为全面地界定了信息质量的内涵。曹瑞昌等[6]贝则从信息的三元结构出发,提出信息质量包括信息内容质量、信息符号质量、信息表达质量和信息效用质量四个方面内容。高智勇等[7]提出信息质量应包括质和量两方面内容,即结构性信息和实得信息量,且将信息产品结构要素定义为事物+时间+空间+状态+来源+载体+表达方式,并分别从语法、语义和语用层次分析了信息质量的内涵。总之,不同学者基于不同角度给出了信息质量的定义,这些定义在特定环境下均具有一定的适用性。

      1.2 信息质量维度

      国外学者对信息质量维度的研究要早于国内研究。Ballou等人[1]最早提出信息质量是一个全面的概念,他们基于信息的多种属性将信息质量划分为四个维度——准确性(accuracy)(与事实完全相符)、完整性(completeness)(包含所有相关数据)、一致性(consistency)(数据形式上的一致)和及时性(timeliness)(数据在使用有效期内),并在Laudon[8]进行的“刑事司法系统中的数据问题”的实证研究中证明了这些维度的重要作用。这一划分突出了信息质量的内容特征,抓住了本质特性,但不够全面,缺乏普遍性,在某些特定情境中应用时需进一步完善。Richard Y W等人[9]认为信息质量是一个多维的、层次结构的概念,他们从用户使用信息的过程将信息质量维度划分为:可存取性(accessible)(适于用户的途径和适当的访问权)、可理解性(interpretable)(包括语法和语义两个层次)、有用性(useful)(可用于支持用户决策)、可信性(believable)(用户愿意使用来支持决策)。在这四个维度下,又进一步细分,如图1所示。这一划分首先是根据用户使用信息的纵向过程,从用户获取信息、理解信息、识别信息价值,最后根据信息可靠性来决定是否采纳信息以支持其决策,得出了信息质量的第一个层次维度,随后又将各个维度细化,构建了两层的质量维度层次结构。将纵向与横向相结合,较为全面地描述了信息质量,并将信息的客观质量维度与用户的信息使用过程相结合,更好地表达了用户对信息质量的主观要求。

      

      Wang.R.Y.等人[10]从用户的角度提出信息质量可分为四种类别:内在信息质量(intrinsic IQ)、情境信息质量(contextual IQ)、可存取性信息质量(accessibility IQ)和形式信息质量(representational IQ)。每一种信息质量类别又细分了多个维度,共包括15个。具体如下:(1)内在信息质量:强调信息本身具有的质量特性,更多地从信息内容角度来考察信息质量。它的维度包括信息的准确度、客观性、可信度、权威性4个维度。(2)情景信息质量:它强调面向某一任务或特定情景中的信息质量,从应用角度来考察其价值,包括相关性、增值性、及时性、完整性、数据量维度。(3)可存取性信息质量:它描述了信息在用户获取方面的质量,表示用户存取信息的难易程度,包括可存取性、安全性两个维度。(4)形式信息质量:它表示信息在外在形式上的质量,即信息的表达是否很好地反映了信息的内容,包括交互性、易于理解性(通俗性)、表达的精确性和一致性四个维度。对于后两种信息质量类型,其质量高低主要取决于所采用的信息系统,说明了信息系统对于信息质量的重要影响。这种划分方法较为全面地概括了信息质量的内涵,表明了信息质量的多维性,为信息质量管理研究奠定了基础。这一划分得到了许多研究人员的认可,并广泛应用于信息质量评价研究。Beverly等人[11]在前人研究的基础上,将信息具体化为信息产品和信息服务,并结合他们提出的信息质量定义,提出了PSP/IQ模型,即信息产品与服务质量模型。该模型从信息质量角度将信息分为四种类型:健全性信息(sound information)、可信赖性信息(dependable information)、有用性信息(useful information)和可用性信息(usable information),并通过对45位专家的调研,得出了每种类型信息的质量维度。PSP/IQ模型如表1所示,这种将信息维度的划分与信息类型相结合,更具有针对性与实际价值。

      

      Yang W.Lee等人[12]对信息质量定义与维度的各种观点进行了归纳与总结,并将其分为学者研究与实践者研究。(1)学者观点。通过对比各学者对信息质量维度划分的不同,发现主要存在两大分歧:一是是否应考虑用户信息需求,二是信息质量维度的分类难以统一。(2)实践者观点。这些实践者多是大型企业管理者,他们是基于各自企业特定的情境提出的,体现了信息质量在不同企业应用中对各质量维度的侧重。如IRI公司更强调信息质量和传递质量,AT&T公司较少考虑用户因素,而各个公司都较为侧重于信息的可存取性质量,特别是其中的易于操作方面。这一分析说明了信息所处的情境影响信息质量维度的选择。Angelica Caro等人[13]针对互联网中的门户网站定义其信息质量维度,并基于用户角度构建了门户网站信息质量模型(PDQM)。该模型有3个重要部分:Web信息质量维度(基于文献调研获取)、用户期望的信息质量和门户网站提供给用户的功能。该模型将网站功能与用户期望的信息质量维度对应起来,确定每一功能模块所达到的用户期望目标。该研究先通过文献调研,全面地概括广义上的信息质量维度,再通过问卷调研进行修改与补充,这一过程需对用户进行分类;针对某一领域或某一类信息资源,最终确定信息质量维度框架,并实现定量化描述,最终形成门户网站信息质量模型。这一研究具有实际意义,为网络信息资源质量的评估与改进奠定了基础。

      在国内信息质量维度研究中,周毅[14]提出信息质量可以从信息属性、信息含量和信息活性3个方面来衡量,信息属性指待选资源的信息性质和特征,信息含量指待选资源的学术水平和知识深浅程度,信息活性则是考虑待选资源的学术水平状态。查先进等[15]从质量评估的指标体系角度提出将信息资源质量划分为信息资源内容质量、信息资源表达形式质量、信息资源系统质量和信息资源效用质量4个方面,包括信息资源的正确性、完整性、相关性、新颖性等16个指标维度,这一划分较为具体全面。李莉等[16]在用户调研和专家访谈的基础上将科技文献数据库网站的信息资源质量分为信息资源质量和信息系统质量两大部分,其中信息资源质量包括可信赖性、文献种类跨度、时间跨度和新颖性4个维度,信息系统质量包括检索方式多样性、易理解识别性、易操作性、咨询服务等11个维度。

      不同的信息质量维度之间存在相互影响关系,如信息的准确性与及时性之间此涨彼落的逆向关系,在信息检索领域常见的查全率与查准率之间的逆向关系等。研究信息质量维度之间的关系有助于平衡信息质量各维度,尤其是从经济价值角度,寻求信息质量改进的价值收益最大化。Ballou等人[17]探讨了信息质量完整性(completeness)与一致性(consistency)之间的均衡问题,引入了表示完整性与一致性相对重要程度的变量“相对重要性”,并从经济学角度人手,分两种情况——特定预算和可变预算下分别讨论了提高信息质量的成本与收益比。

      2 信息质量评估研究

      Maffei[18]在1958年最早意识到信息质量评估的困难。信息质量难以评估,其原因有:(1)信息质量标准具有主观性特征,主要取决于用户,因此不能自动完成评估。(2)信息来源通常是自治的、无组织的,缺乏有用的质量元数据,有些信息源甚至采取措施阻止信息质量评估。(3)大规模数据使得对整个信息集进行评估成为不可能,需要采用抽样技术,这会降低评估的精确度。(4)信息来源的无组织性使得信息易于遭受内容和质量上的突变,不利于信息质量评估。目前,在信息质量评估的已有研究中,主要集中在评估力法、评估标准与工具两个方面。

      2.1 问题分析与评估方法

      对于信息质量评估的研究,早期主要集中于数据质量评估与数据质量问题方面。Codd[19]于1979年提出了一种添加数据标签的机制用于评估数据质量,并被Richard Y.Wang等人[20]所采用,于1995年提出基于数据的属性而使用质量指示器对数据质量添加标签;Paradice等人[21]于1991年提出了用于计算存储错误率的公式。这些研究主要以存储的数据为对象,而较少考虑用户对数据信息的评估与感知。在数据质量问题研究方面,Giri Kumar Tayi等人[22]进行了一系列地测试,发现信息系统用户在某一特定环境下是可以发现数据错误的。他们进一步说明,明确的错误侦查目标、管理层的指示、培训和各种激励措施均可提高错误侦查效果。然而,Dasu等人[23]认为有些数据质量维度,如准确度和完整性,是很难发现错误的,甚至是无法评估的。Wang R.Y.等人[24]对3个组织进行了数据质量项目检查,识别出了质量问题的一般模式,并发现某一类别中的数据质量问题会对另一类别中的数据质量产生影响。

      随着对信息质量认识的全面与深入,信息质量评估的研究也逐渐突破了数据质量的局限性。Naumann等人[25]于2000年发展了一种基于评估导向的信息质量标准的分类方法,他们在总结前人对信息质量标准分类的基础上,归纳出3种分类方法:语义导向的分类、过程导向的分类和目标导向的分类。在此基础上,提出了评估导向的分类方法,并从用户、信息本身和信息获取过程3方面建立了3种标准——主观标准、客观标准和过程标准。每一类标准都有不同的评估方法与技术,包括用户经验、用户抽样、持续地用户评估、数据清洗与分析等。该研究较为全面地概括了信息质量评估涉及的方方面面,建立了成熟的信息质量评估标准体系。Yang W.Lee等人[26]提出了一种信息质量评估方法称为AIMQ,用于帮助组织评估其信息质量状况,并随时监视信息质量改进过程。AIMQ包括三个要素:(1)产品—服务性能模型(PSP/IQ模型),它结合前人的研究成果,将一组固定的信息质量标准分成四个部分,构建了PSP/IQ模型;(2)评估信息质量的调查问卷,它是根据信息用户与管理者认为比较重要的信息质量维度来设计的。该问卷包括65个评估条目,涉及个人基本信息问题和开放式的评论性问题。这次调查涉及5个组织,包括261位调查对象。在每一个组织里,调查对象涵盖了所有的信息生产角色,且每一个对象都处于特定的组织情景中。(3)两种分析技术,一是对比同一个信息生产系统中不同角色之间调查结果的异同,二是对比某一组织与最优组织之间的调查结果的异同,这两种技术分别执行于信息质量标准的四个部分。同时,通过SPSS分析技术分析PSP/IQ模型中四个象限之间的相互关系和各维度之间的关系。这一研究为企业全面了解信息质量状况提供了方法,为质量管理与改进奠定了基础。该研究依赖于调查问卷得出信息质量值,这种评估方法对于某些标准来说是不可避免的。该工具被Beverly K.Kahn等人[11]用于进一步研究,即基于信息产品角度管理信息,并融入了信息服务的特征。国内学者苏颖等[27]以企业信息为研究对象提出了“信息差”的概念,并提出一种权重系数确定方法用于确定3种评价产品信息质量指标——准确性、及时性和信息价值中参变量之间的权重,对产品信息质量实现了量化评估。

      2.2 评估标准与工具

      Yang W.Lee[28]提出了信息质量评估的两种具体的标准——信息来源的稳固性和全面性,并提出了基于信息源抽样的自动化评估方法。尽管他们展示了一个评估算法,但仍然依赖于人工输入以判断信息的正确性与否。Xitong Li等人[29]基于一个具体的细节标准——信息的响应时间提出了一种预测工具,它可根据一天中的时间段和数据数量来推断互联网信息资源的响应时间,以作为信息质量评估的一个方面。Leo Pipino等人[30]提出将主观评价和客观评价相结合,并说明了建立客观数据质量尺度的3种实用形式——简单性、最大/最小操作、权重平均值。Rita Kovac等人[31]进一步提出了关于完整性、正确性、系统通用性、存储时间和波动性的规范定义,并说明如何用比率形式对它们进行测量。Beverly K.Kahn等人[11]基于信息的生产与使用过程将信息分为信息产品与信息服务,并构建了PSP/I0模型,并以医疗组织为案例进行分析。案例选择了3个大型公司,用于评估他们的信息质量,经过案例研究发现,信息质量很大程度上取决于信息系统和技术部门。他们提出以信息产品控制矩阵作为评估信息产品可信度的测量工具,并进一步描述了期货市场是如何被应用到信息质量评估中。Stuart Madnick等人[32]提出数据质量可以从可再生性和可理解性角度进行评估。Juran[2]认为,产品质量就是产品的适用性,即产品在使用时能成功地满足用户需要的程度,包括使用要求和满足程度两个方面。如果将信息看作一种信息产品,则信息质量评估可从信息产品的使用要求,如信息提供的时间、地点、方式、对象、安全性等,和信息产品对用户的满足程度,如产品的价值、性能、经济特性、环境特性、安全特性等,两个方面进行质量评估。

      国内学者周毅[14]将信息质量近似分为高、中、低3个层次,其中高质量等级的信息产品与服务包括深加工型的信息成果(如信息调研报告、可行性论证报告等)和开发型信息服务(如信息咨询、技术开发、技术引进和转让等),中等质量等级的信息产品与服务包括初步加工的信息产品(如数据库、信息刊物、专题资料汇编等二次文献)和代理型信息服务(如代查、代检、定题、定向、代译等),而低质量等级的信息产品与服务包括一般信息产品(如图书资料、样品资料等)和技术型信息服务(如打字、复印、印刷、音像服务等)。这一划分是基于信息内容加工深度这一标准进行质量评估的。

      3 信息质量管理研究

      信息质量管理研究多是将信息看作一种产品,从质量管理的视角研究如何实现信息产品质量的管理与控制。这一研究融合了用户视角与过程管理方法,为提高与改进信息质量提供保障。不同学者从不同角度、不同情境对信息质量管理进行了深入研究,涉及的内容包括基于过程管理的TDQM/TIQM(全面数据/信息质量管理)方法、信息产品质量管理、信息质量改进方法等。

      3.1 基于过程管理的TDQM/TIQM方法

      Richard Y.Wang[33]首先提出将信息生产过程看作是一个信息处理系统对源数据加工处理后生产出信息产品的过程,于是引入工程管理中的全面质量管理方法进行改进,并提出了全面数据质量管理(TDQM)方法。该方法以向信息用户提供高质量信息产品为目标,包括四个步骤:(1)信息产品定义(Define),包括产品特征定义、用户需求定义和信息生产系统定义。(2)信息产品评估(Measure),核心是建立信息质量度量体系。从数据库用户角度,信息产品评估标准大多包括错误率、最近数据情况、数据丢失率、记录的一致性等。组织可结合用户需求建立一套基于信息生产的质量指标。(3)信息产品分析(Analyse),目的是通过信息产品质量问题分析找出根源所在,可采取传统的质量控制方法如统计过程控制、模式识别、帕累托图标分析等进行问题分析。(4)信息产品改进(Improve),根据问题根源实施具体的改进措施。在改进过程中,应注意两点:一是使信息流和工作流与对应的信息生产系统保持一致;二是保持信息产品的关键属性与企业需求相一致。

      Krol等人[34]将信息质量管理框架应用于数据地图的构建,研究了如何使用有限的数据来构造数据地图。基于用户观点、以过程控制为中心,针对地理数据建立了特有的数据质量维度体系。在此基础上,遵循TDQM(全面数据质量管理)的四阶段,建立了数据地图生产的信息质量管理框架。Cinzia Cappiello等人[35]提出了用于信息质量监视、评估与改进的HIQM(Hybrid Information Quality Management,综合信息质量管理)方法,用于解决信息系统运行期间出现的数据质量问题。HIQM是对TDQM(全面数据质量管理)的扩充与完善,它增加了预警机制。预警管理是通过一个内部系统对运行阶段的数据与过程进行持续监控,并根据接收到的内外反馈识别数据质量问题,同时识别出解决问题的最合适的修复行为,进行数据错误修复。该研究是建立在TDQM的基础上,但其研究重点是解决信息系统中的数据错误问题,实现数据质量管理与控制。

      3.2 信息产品质量管理

      考虑到许多传统的产品质量控制理论可以应用到信息质量管理中,Donald Ballou等人[36]建立了信息生产模型以确定信息产品的及时性、质量、成本和价值。他所构建的数据生产地图包括五个模块——数据源模块、处理模块、存储模块、质量模块和用户模块,该方法使整个信息生产过程易于实现可视化,这样可帮助生产者识别关键阶段以提高信息质量。Ganesan Shankaranarayan等人[37]进一步深化了该研究,提出了IP-MAP模型,在上述模型的基础上增加了三个模块类型——决策模块、组织界限模块和信息系统界限模块,且将数据质量维度融入每一个模块,并添加了元数据说明。这一研究基于动态决策环境从信息产品角度提出实现信息质量管理可视化的框架,针对企业决策者无法控制决策信息来源的问题,提出了一种信息产品方法,即建立一种管理机制,系统展现信息产品生产各阶段,并对每一阶段的信息质量进行评估。当发现信息质量问题时,跟踪问题找出产生根源、产生的阶段,并进行改进,这一系统地展现信息生产过程的结构模型即是IP-MAP。它将信息产品生产流程及其数据流实现可视化,使决策者了解信息产品的来源、处理过程、生产系统、处理单元和涉及的组织与部门等信息。IP-MAP与描述数据质量的元数据、功能描述相结合,共同构成信息质量管理框架。Beverly K.Kahn等人[11]通过案例研究发现,信息质量很大程度上取决于信息系统和技术部门。技术部门可对用户建立使用说明,明确数据存储位置、显示方式、达到的精确度和完整度等信息。在数据可用性方面,技术部门可以通过提供易于使用的信息存取工具实现。技术部门需要选择和提供数据库管理系统、终端用户界面和相关性工具,便于用户更好地获取和利用数据。技术部门有责任建立信息用户与信息生产者、信息管理者之间稳定的关系。因此,通过加强信息系统与技术部门的管理可间接实现信息质量管理,提高信息产品与服务质量。国内学者李振寰[38]基于Web2.0环境探讨了信息质量管理问题,他根据信息的自然属性和社会属性特征,指出信息在自然属性上的质量缺陷问题较易判断,而社会属性上的质量问题难以确定,并指出若将信息看成产品则容易使质量管理过于关注信息的自然属性而忽视其社会属性,信息质量控制应注重差错的预防而非事后检查。

      3.3 信息质量改进方法

      在如何提高与改进信息质量的研究中,Redman[39]提出了两种提高信息质量的方法——过程管理和数据清洗,从两种方法在长期应用与短期应用的效果来看,过程管理方法在长期应用中以较低的成本消耗产生了更好的改进效果,该方法优于数据清洗方法。同样,Hongwei Zhu等人[40]认为,由于信息质量的多维性和层次结构,信息质量的改进不能脱离信息生产过程而实现,也不能脱离信息使用的情境而实现。因此,单纯地采用技术手段是不充分的。他们提出,为了保证长期的信息质量的提高,研究者应从过程和系统角度努力。Yang W.Lee[28]提出了用于高层次的改进信息质量的三步骤方法,包括进行主观与客观的数据质量评价、对比评价结果、识别差异及其根源所在。Richard Y.Wang[41]认为,数据质量策略应包括6个要素——数据情境、存储问题、数据流、工作流、管理人员和持续的监视。Beverly K.Kahn等人[11]描述了目前的市场营销技术是如何用于构建信息质量策略,提出一种方法用于开发、执行和监视这种策略,并提出了一种用于结构化数据分析、数据概述和交易规则的方法以进行信息质量管理。Ted Friedman[42]提出了一种改进数据质量的策略方法,并论述了成功的信息质量改进应分别体现在组织变化、过程变化、持续监控和质量改进等方面。

      国内学者宋立荣[43]针对共享系统中的信息质量水平进行了研究,提出了信息质量约束理论。他认为,信息质量约束的根本在于对劣质信息的过滤,而不是增加优质信息的合格率,强调了一种信息过滤观念。在信息质量改进过程中,会有这样一种情况——努力提高信息质量的某一方面时,却恶化了另一方面的信息质量。因此,研究信息质量维度之间的关系有助于平衡信息质量各维度,尤其是从经济价值角度,寻求信息质量改进的价值收益最大化。

      4 数据质量与信息质量

      数据不同于信息。马费成教授[44]提出“数据+背景=信息”,其中背景是接收者针对特定数据的特定准备,即当接收者了解数据符号序列的含义或指向性目标时,便可获取一组数据载荷的信息,即将数据转化为信息。由此看出,数据是事实的简单体现,信息是数据传递的内容。

      4.1 数据质量

      数据质量的提出源于信息系统领域,因此我们将数据范围界定为数据库、数据仓库等存储实体中存储的结构化或半结构化数据。它通常是信息系统中生成信息的原材料,数据质量主要从其存储格式、来源描述、数据编码等外在的表现形式上来考察,大多由数据操作人员(数据录入者、管理者)、数据库设计者等生产者负责完成。数据质量的衡量通常包括准确性、一致性、及时性、完整性等方面,且可通过技术手段如数据清洗提高质量。

      国外对于数据质量的研究最早可追溯到1958年,Maffei最早意识到数据质量问题及数据质量评估的困难。后来随着计算机的发展,数据质量问题日益突出。在数据质量研究中,主要针对信息系统中结构化数据的质量问题,其研究内容主要集中在数据质量的定义与维度、数据质量问题的解决、“数据歧义”的消除等方面。针对数据质量问题,这些研究大多采用技术手段,以数据为导向,解决质量问题。早期研究认为数据质量即为数据的准确性,将其分为正确的和错误的两种,多指数据生产过程中形成的质量,这一观点抓住了数据质量的本质特征,但较为狭隘。Redman[45]从三个层次来定义数据质量——概念层次、数据值层次和形式层次。概念层次的数据质量包括数据细节、视图一致性、构成要素、健壮性和灵活性;数据值层次包括数据的准确性、完整性、通用性和数据值的一致性;数据形式层次包括数据的适宜性、可理解性和获取的方便性。这一观点是完全基于数据库中的数据提出的,具有很强的针对性和可操作性,且较为全面,为数据质量管理奠定了理论基础。

      总之,国内外对数据质量的研究主要集中在以下几个方面:(1)数据质量问题研究。包括质量问题产生根源的分析、用户如何更好地发现数据错误、引入数据质量情境解决数据歧义、增加“质量指示器”和数据清洗实现数据质量控制等。(2)数据质量评估研究。包括从技术手段和用户角度两方面,技术手段如添加数据标签进行数据质量的实时评估,用户角度则通过问卷调研对数据质量维度进行评估等。(3)信息产品质量研究。将信息看作是一种产品,从数据加工、生产和使用的全过程来研究如何控制与改进信息产品质量。这些研究主要从生产过程角度,采用技术手段、基于信息系统中数据库的微观层次,对数据的外部质量特征进行控制,更多地着眼于信息系统与数据组织方面。研究范围集中于从数据生产者到数据平台之间的数据生产质量问题,是一种依据标准控制的“符合性”数据生产质量管理方式。

      4.2 信息质量

      由于信息不同于数据,因此信息质量与数据质量研究的侧重点、层次、角度、手段均不相同。信息质量的界定多从用户角度考虑,将信息界定为由信息系统输出,被用户获取,可用于决策或满足用户需求。信息侧重于其内容的价值与有效性,因此,信息质量主要指信息的内容质量及其对用户的价值,或满足用户需求的程度。信息质量研究大多是将信息看作一种产品或服务,基于生产过程管理而实现质量控制。

      Klein[46]认为数据质量和信息质量是一个多维的概念,依据研究者自己的观点而呈现出不同的特征;Johannsen[47]认为在图书馆和信息服务研究中信息质量的侧重点是“质量管理”;Redman等人[39]认为使用“数据质量”主要是与信息产品的精度有关,如数据库。张博和宋立荣[48]指出高质量数据不一定是高质量的信息,信息用户可能仍无法得到有价值的信息,因此应首先关注用户需求,使信息生产形成一个完整的从“信息用户—信息管理者—数据生产者”的一种以需求为标准的“适用性”数据生产质量管理方式,而信息共享平台系统则充当了信息的“质量代理人”角色。刘剑勇[49]指出我国数据与信息质量下降的现象,分析了其原因及制约因素,以及信息加工和传播过程中质量控制的重要性,并给出了改进质量的建议。

      总之,国内外对于信息质量的研究重点集中在两个方面,一是基于系统层面上,信息质量研究关注于信息系统输出的信息产品质量,它受输入的数据原材料质量、信息系统处理质量影响,对于信息产品质量的要求,主要取决于信息系统的用户需求;二是基于用户角度,信息质量研究以满足用户需求为目的,提供与用户质量需求相适应的信息。此时,信息质量具有相对性,更加关注信息的内容价值和效用价值,依据用户需求的“适用性”进行质量管理,信息质量不同于数据质量的一大特点就是二者的生产和使用过程不同。

      5 结语

      从上述国内外信息质量研究的主要内容与成果来看,国外研究多是以质量问题和实际应用为导向,与信息实践结合紧密,针对信息管理过程中存在的问题展开研究,具有较高的实践意义。而国内研究更多地侧重于理论探索,具有一定的理论深度。在以后的研究中,可将理论与实践相结合,进一步推动信息质量理论发展、解决信息质量问题。

标签:;  ;  ;  ;  ;  ;  ;  

国内外信息质量研究述评_用户研究论文
下载Doc文档

猜你喜欢