从数据质量到信息质量的发展,本文主要内容关键词为:质量论文,数据论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G203 文献标识码:A 文章编号:1007-7634(2010)02-0182-05
由于“数据质量”和“信息质量”概念在外延、内涵上的高度重叠性和强关联性使得二者定义和界定较为模糊,信息质量研究者常常感到不知所云,而且在现实中也经常不加区别,互为通用。这加大对相关文献分析研究的难度,造成对数据质量和信息质量概念定义、界定的混乱和指标体系之间的交叉。另一方面,这种不加区分往往造成实践应用中对数据质量概念的外延不断拓展,甚至出现不断扩大趋势。对数据质量和信息质量定义的不统一,导致人们对数据质量和信息质量理解的多样性,造成所采用分析方法、控制手段的无所适从,难以提出有效的解决方法,因此,对二者的区分界定非常必要,如果信息质量和数据质量之间不加区别,则“信息系统的设计者们往往更注重数据质量,特别是数据的正确率、完整性、一致性等,因为这些指标直观明了,可以用许多技术手段加以控制,而就信息对于用户所特有的属性则认识不够或考虑不周,造成用户对信息质量的不满”[1]。
通过对众多文献的研究,本文尝试从二者定义、联系和区别等方面进行分析。
1 数据质量和信息质量的定义
1.1数据质量的定义
在不同时期,数据质量有不同的概念和标准,在过去,提高数据质量就是提高数据的准确性,它主要指在数据生产过程中形成的“质量”,如精度、一致性、完整性等,也称本征质量,如周东认为[2]数据质量“是由从数据的一致性、准确性到相关性等一系列的参数决定”;陈远等认为[3]“数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述”。但是随着数据资源的积累与广泛应用,质量含义的不断延伸,数据质量的概念有所扩展,对它的认识也从狭义向广义转变,要求从数据提供者、生产者和用户等多个角度来确定衡量数据质量的标准,准确性不再是衡量数据质量的唯一标准,而对用户要求的满意程度已成为衡量数据质量的重要指标,如向上[4]认为高质量数据就是指那些适合用户使用的数据,Strong等[5]认为数据质量就是“数据是适合使用的”。
数据质量概念认识主要包括以下两个方面:一是注重从面向实践方面来衡量数据质量[4-8],即从用户角度来判定,强调用户的满意度,还有就是从数据生产者和管理者来考虑;二是注重从面向系统的角度来评价,认为数据质量是一个综合性概念[9],是一个多维度的概念,包括数据本身也是多维度的。需要从多角度来衡量其基本质量要素,如适用性、准确性、适时性、完整性、一致性和可比性等多角度来评价数据的好坏[2-3,7,10]。
对于什么是数据质量这个问题的回答其实是定义了数据质量管理的范围。从众多文献对数据质量的定义来看,目前对数据质量含义的解释和理解仍存在一定的分歧,对于数据质量应涵盖哪几个方面,还没有一个统一的标准,不同的分析者、不同的机构提供了不同的答案。数据质量定义的不统一,导致人们对数据质量理解的多样性,难以提出有效的解决方法。
1.2信息质量的定义
信息质量目前也还没有公认的标准定义[11]。目前,对信息质量的定义,多从三方面来认识:
一是理论上抽象的定义,从用户角度来定义,即从朱兰博士的“Fit to use”的质量概念引申的定义。认为信息质量是对信息用户使用的满足程度[11-16]。信息质量是对信息产品满足信息消费者需要程度的衡量[11]。
二是注意到“信息”本身的多样性特征,从其基本要素特征出发来进一步把握IQ特征:如:曹瑞昌等[17]从信息的三元结构出发认为信息质量=信息内容质量+信息集合质量+信息表达质量+信息效用质量;Martin J.Eppler[18]认为信息质量为基于内容的信息质量(完整性、准确性、清晰度、简洁性、一致性、正确性等)和基于媒介的信息质量(方便性、及时性、安全性、可获得性等)。
三是从IQ的多维特征出发来认识IQ[12,19]:信息质量是一个多维度的概念,对它的认识多采用对它众多质量维度的选择和标准判断,这是有别于传统的质量管理办法。例如,Wang和Strong[6]通过识别出4类共15个对信息用户有用的信息质量维度来认识IQ。即:固有信息质量(包括:正确性、客观性、可信性、可靠性)、关联信息质量(包括相关性、增值性、及时性、完整性、适量性)、表达信息质量(包括可释性、易懂性、简洁性、一致性)和访问信息质量(包括可访问性、安全性)4大类。
从诸多定义可以看到,大多对IQ的定义是依据研究者的主观直觉、经验判断、行业领域和对文献资料汇总分析得到的,没有通用的定义,也很少能联系到实际中去。可见,IQ并不是一个绝对的概念,依据不同的主体以及相同主体不同的需求,常表现出不同的重要性[20]。信息质量常与用户需求相联系的,具有很强的“场景”特点。
2 从数据质量到信息质量的发展历程
信息质量的研究起于较早的数据质量研究,是数据质量的必然延伸,是随着计算机技术的发展而不断得到提高,是对信息管理单纯依赖技术的升华认识。早期数据质量研究往往从技术角度注重数据的准确性,并且依附于产品质量管理。20世纪40年代,随着计算机的出现,信息技术被迅速地利用于数据管理中,使得数据的准确性大大提高,人们生产和处理数据的能力大大增强。与此同时,数据的质量问题也日益受到人们的重视。20世纪70年代,人们开始研究如何高效存取大批量数据的问题,数据库技术应运而生,它在一定程度上改善了数据质量,拓展了人们对数据质量的理解,除了考虑准确性之外还应考虑完整性、一致性和及时性等。在实践中,人们发现数据库技术虽然有着严格的理论基础,但单单依靠这些理论仍不能进一步提高数据质量。于是人们进一步探索基于数据库技术如何进行有效的测量、分析和改进数据质量等问题。这一阶段是以技术手段来提高数据质量,多是从技术角度和对数据外部质量特性指标评估等方面进行研究,并不是真正“质量”意义上的数据质量探索,而且这一时期的数据质量研究多是在微观层次上着眼于个别的信息系统和数据组织方面[21]。
这之后,随着信息社会的飞速发展,信息已经成为一项事关社会发展的重要因素,对于相应社会活动的再继续和决策等已从IT附属品上升到支持决策的一种重要的战略资源,如何提高信息质量已经成为社会广泛关注的重要内容。社会的发展与进步已经和高质量的信息资源息息相关。这个时候之所以重视“信息”概念,是因为人们不仅关注数据本身,更关注数据的语义内容。例如:虽然像数据库等信息技术逐步应用,为在低成本下获得信息,提高数据质量,获取高附加值信息成为可能,可以在技术上提供符合标准的高质量数据,但用户仍感到无法得到有价值的信息,所谓“高质量”的数据但不一定是高质量信息。那种纯技术的数据质量解决办法逐渐暴露出许多问题和缺陷,已经无法满足于信息社会多方面、多层次角度来把握信息的质量问题,人们开始逐步拓展、加深了对信息质量的认识,信息质量管理开始形成一个独立的研究领域。依据Larry P.English的看法[22],从管理的角度对信息质量进行研究始于20世纪90年代初。
从管理的角度来认识信息质量问题主要基于这样两方面的动力:一是互联网和WWW技术的出现拓展了信息生产、流动的渠道,人类产生信息的速度以指数形式增长,加速步入信息社会。尤其是随着信息技术广泛应用,信息对管理提升起到越来越重要的作用,组织的产品、服务以及决策、管理对信息的依赖大大增强,将会有力提升组织的竞争力,而信息管理阶段纯粹的技术手段已不能实现对信息的有效控制和利用;二是信息质量良莠不齐的现象日益严重,并且严重影响着组织的正常运作。劣质信息常常导致管理者决策失误,冗余信息猛增、用户满意度下降等恶性问题,造成经济损失和成本居高不下,促使管理层以及研究人员从管理角度来重新来认识、提高信息质量。
总之,从数据质量到信息质量的发展历程来看,这方面研究内容已经从单纯对信息、数据的监测控制、质量评测发展到对数据、信息产生全过程的全面信息质量管理和持续改进。
3 数据质量和信息质量的联系与区别
在多数文献方法研究中,经常不明确区分数据质量、信息系统质量和信息质量,时常把明显属于信息系统质量的评价指标也归纳在信息质量的评价指标内,从而造成理解的混乱和指标体系归属的交叉不清。因此有必要对上述概念进行区别和界定。
3.1数据质量和信息质量的区别
对数据质量和信息质量概念界定,目前存在两种看法:一是认为[15]二者只是前后延续关系,在数据生产者到系统之间是数据质量的问题,在系统到信息用户之间是信息质量问题,因此常用DQ解释系统建设中的质量问题(如图1所示);二是认为[1]二者是包含关系,数据质量是信息质量的基础(如图2所示)。信息质量是一个包含数据质量、信息系统质量的大概念,一部分数据直接影响IQ(这部分数据在信息系统中只经过简单的传递,并不进行处理和变换),另一部分数据(在信息系统中进行一定的处理和变换的数据)的质量则是通过信息系统间接影响IQ。数据质量和信息系统的质量两者相互作用共同决定了信息的质量。
图1 数据质量、信息质量和信息系统质量之间的延续关系
图2 数据质量、信息质量和信息系统质量之间的包含关系
通过对众多文献的研究方法、研究目的、研究背景的分析,本文认为二者的区别主要在以下三方面:
(1)DQ和IQ所要解决问题的侧重点不同。数据质量侧重于从技术方面注重关键环节标准检查控制,从信息的形式方面对信息的外部特征进行把握,处理的是一些不能解释的特征(像数字、数据库等),关注的是与信息系统有关的质量,而信息质量则更系统全面,关注从生产——加工——用户的过程控制,处理一些用于分析、评价或其他解释性数据,侧重从内在信息价值上保证用户满意度,这也是信息质量管理的根本目标,如表1所示。
(2)DQ和IQ关注的对象不同。DQ是面向系统的,是从系统角度关注数据的质量问题[23],关注较多的是对数据生产者到数据平台之间的数据生产、数据质量问题,注重DQ的形式上的标准化,关注形式上的质量特征(如:格式化、及时性、精确性、一致性、数据量、完整性等);而IQ是面向信息用户的,是从用户角度关注信息的质量问题,强调用户对IQ的质量特征的认同,研究范围更广泛,不仅包括DQ内容,还注重信息的内容特征,关注形式上的质量特征(如准确性、相关性、可获得性、有用性、可读性、可靠性、重要性、真实性等等)。
(3)DQ和IQ所反映的质量观念不同。从质量的定义和质量管理的基本原则来看,不同的质量管理观念引起不同管理办法。DQ是一种依据标准控制的“符合性”数据生产质量管理方式,是向信息用户提供符合标准规定的数据为目标。研究方向为“数据生产者→数据管理者→信息用户”,是一种任务驱动的管理方式。在实际运行中,常出现数据生产者所提供的认为“符合”的数据和用户认为相“符合”数据存在很大的“数字鸿沟”现象,符合标准的数据不一定是用户所适用的、所理解的“信息”,即所谓“高质量”的数据但不一定是高质量信息,信息用户仍无法得到有价值的信息。
IQ则是一种依据用户需求的“适用性”质量管理方式,研究范围包括了信息(数据)生命流程的整个完整过程,使信息生产形成一个完整的从“信息用户→信息管理者→数据生产者”,它是将用户的质量要求传递到“数据生产者”,使其在原始数据“一次开发”过程中就注重按照相应用户信息质量要求规范其数据生产。
3.2数据质量和信息质量的联系
对二者相互联系,可从“纵向”和“横向”概念关系认识。从“纵向”概念关系看,DQ与IQ在层次上的相对区别,存在递进关系,反映了人们认知的深化过程,前者是后者的基础和前提,后者是前者的抽象与升华。比如,数据质量侧重于从技术方面注重关键环节标准检查控制,从信息的形式方面对信息的外部特征进行把握,关注的是与信息系统有关的质量;而信息质量则关注信息生产的过程控制,关注的是与信息用户有关的质量问题,侧重从内在信息价值上保证用户满意度。
从“横向”概念关系看,则可以把DQ看成是IQ的一个子集,存在包含关系。从质量管理角度来看,严格意义上的DQ应包含在IQ的范围内,它反映信息固有的一些质量特征。IQ最终是要由数据质量和信息系统质量来保证的。过去,数据生产者在进行“数据质量”研究时,只是从自己的工作角度出发了解信息系统中信息资源的客观状况,通过专业化、技术性的指标和方法得到一系列精确的数据质量控制规范和标准。通过这些规范和标准,数据生产者也可以构建一个系统的质量管理体系结构。然而如果这一系列规范和标准脱离了用户的评判和需要,则数据生产者所提供的认为“符合”的数据就不一定是用户所适用的、所理解的“信息”,就无法实现信息价值。“数据质量”的控制规范和标准只有和“信息质量”所得出的结论相结合时才是具有实践指导意义的,才能更好地为信息资源建设提供控制依据,才能更好地为用户服务,全面提升用户的满意度。
4 如何认识和理解数据质量和信息质量之间的区别与联系
(1)认识DQ和IQ的区别和联系首先在于对过程的认识:DQ多考虑的是从数据源到数据管理者这一前期生产过程的质量问题,是一种“符合性”数据生产质量管理方式。而IQ则以用户需求为中心分析信息(数据)生产过程,是一种“适用性”质量管理方式。从DQ向IQ转变的过程也是质量观念从“符合性”质量管理向“适用性”质量管理转变的过程,从“数据质量”到“信息质量”的转变是一个从以数据生产开发者为主体、站在信息系统角度审视信息资源,到以用户为主体、站在用户的角度审视信息资源的信息管理理念的转变过程。
(2)认识DQ和IQ的区别要界定二者的适用范围:从数据质量这一概念来看,传统上更多关注的是数据的外在特征的标准规范,但由于数据来源广泛、类型繁杂、形式多样,很难从中抽取共同的、较完整的质量特征指标来分析其质量问题。若一味通过数据质量概念的外延扩展来寻求问题的解决,则会造成一些分析方法、控制手段的无所适从。而用“信息质量”概念将通过数据(信息)的内在质量特征—信息质量维度的筛选,从信息的形式、内容和效用三个层次分析IQ的内在结构,以进一步揭示信息共享中的IQ问题和基本质量管理规律,并从关注用户信息需求入手,建立适用性的信息质量管理理念。
(3)“理解”是区分DQ和IQ的关键,信息就是那些能够引导人们去思考和理解的数据。理解应该被看做是从数据到信息的一种连续过程。从长远看,信息用户更关心的是信息的价值,而不仅仅是数据。各种信息系统建设的目的都是要向用户提供的有价值的信息,它不仅仅是基础数据,而且还包括基于“一次开发”基础上的“二次开发、三次开发”加工的信息,因此信息质量将是其中非常重要的一部分,必须要理解用户的信息质量需求,要以用户需求作为信息质量管理的标准。正是由于我们在真正能够理解的信息与认为应该理解的数据之间存在着持续增大的鸿沟,而使得信息价值难以得到实现,信息质量更应得到重视。
(4)区分DQ和IQ的另一个方法是看它的背景,对数据背景的理解是提升“数据”价值的关键,要是没有背景追溯,信息就没有生存的土壤。质量的可追溯性是质量管理的基本要求,如果仅仅根据追溯信息(数据)形式上的变化踪迹是不能揭示信息(数据)的价值的,信息(数据)中所包含的语境不仅与数据的环境有关(来自何处?通信的目的何在?布局如何?),还与传播者的背景和意图有关系,信息质量的体现也正是在于对数据背景的可追溯性了解。
因此,对信息质量的研究,既要防止将DQ概念盲目扩大化,又不能将DQ完全排除,对DQ的一些研究成果和实践方法、手段将对IQ(尤其质量控制环节)的提高具有十分重要的意义。