图书馆数据服务中数据质量影响因素模型的构建,本文主要内容关键词为:数据论文,模型论文,图书馆论文,因素论文,质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 导言
21世纪的科研方式已经进入了e-Science时代,科研工作越来越需要对海量数据进行分析和利用。早在上世纪70年代,国外一些高校纷纷开展数据服务,1972年耶鲁大学图书馆开展了“社科数据存档”服务,目的是提供社科文献数字数据及相关的电子文件。早期图书馆数据服务集中于社会领域,为了满足用户日益增长的需求,其服务范畴也不断扩大。相对电子资源服务,数据服务具有很高的复杂性,对图书馆馆员素质的要求进一步提高,很多图书馆因此专门设立了数据馆员的职位。数据质量是图书馆开展数据服务的关键。结合数字生命周期理论,可以构建相对完善的数据质量影响因素模型,以期帮助数据图书馆馆员明确自己的角色,并提高数据质量与数据服务水平。
1 图书馆数据服务及其特点
1.1 图书馆数据服务的概念
数据服务并不是一个全新的概念。1945年,埃尔莫·罗佩尔按照美国的学术传统将自20世纪30年代中期开始积累起来的调查数据赠给了威廉斯敦学院。后来,数据的价值越来越受到重视,数据藏品也不断增加,威廉斯顿图书馆渐渐形成了一个由专人负责管理独立单元,1957年这些数据向公众开放[1]。数据服务蕴含大量商机,Knovel公司正在对一些精品数据进行数字化并对外提供参考服务,Nature出版集团也把对在线文章的数据支持作为提供给用户的增值产品[2]。目前,国外一些高校图书馆纷纷开展数据服务,以满足师生对数据的需求。
广义上讲,图书馆数据服务属于图书馆参考咨询服务的一种,它的目标是为海量数据信息提供导航。国外很多大学图书馆都把数字数据产品作为馆藏建设和参考咨询工作的重要内容。为了提高数据服务水平,美国一些大学图书馆纷纷加入专业数据协会或者数据联盟,并参与制定数据的标准,以及公开自己的数据资源。国外大学数据服务日趋完善,目前威廉斯顿大学图书馆提供了丰富的数据资源[3],比如其对内开放的资源E-Resources包括AP Images和ACM Digital Library等。从其发展历程来看数据服务是高校图书馆未来发展的重要趋势。
1.2 图书馆数据服务特点
作为公益性事业单位,图书馆与公司企业的数据服务在目的以及方式上都有很大不同,明确图书馆数据服务的特点有利于提高其服务水平。其具体特点包括:
第一,图书馆数据服务是公益性的。图书馆不以商业利益为目的,因而倾向于提供全面的而不是针对某一特定学科领域的数据服务。虽然高校图书馆数据服务开始于社会科学领域[4],但是向全社会提供多领域数据服务是其未来发展方向。数据服务公司以营利作为目的,提供的服务集中于盈利空间较大的某一领域。
第二,图书馆数据服务的对象群体相对复杂。图书馆的服务对象是整个社会,用户群体十分复杂,这使得图书馆应该站在宏观层面统筹建设数据资源,形成一个全面协调的动态资源体系,以满足不同学科、不同层次用户的需求。数据公司服务对象相对单一,比如Knovel公司的服务对象一般包括世界五百强企业以及一些顶尖大学的工程领域人员[5]。
第三,数据服务使得馆员角色以及工作方式等发生变化。数据服务馆员除了提供数据资源的查找咨询服务外,还要积极参与到数据资源标准制定、数据资源整合、数据分析等工作之中[6]。目前,数据图书馆员的主要职责有:数据查询服务、用户指导服务、技术支持服务、数据的搜集开发以及管理服务、数据保存以及共享服务等。数据馆员跟传统图书馆馆员相比参与性更强,不仅是数据资源的管理者同时也是数据资源的建设者。
2 基于数据生命周期理论的数据服务与传统资源服务比较
2.1 数据生命周期理论
数据对象从一个数字加工环境到另外一个数字加工环境的过程有点像生物的一个生命周期[7],因此人们把数据对象类似的过程形象地称作为数字生命周期。后来,有些学者开始研究数字生命周期理论,Ann Green搜集并整理了关于生命周期的不同观点,他认为数字生命周期是指对数字资源保存或长期保存,提供获取,实现数字资源的开发与利用以支持科研应用[8]。师荣华与刘细文[9]总结了关于数字生命周期的不同观点,提出“科研生命周期是数字生命周期的来源”的观点,并把数字生命周期划分为:数据加工和知识抽取两个层次。在数据加工方面,学界对生命周期的一些具体环节已经达到了共识,比如包括:数据收集、数据处理、数据发现等。本文认为,基于科研生命周期的数字生命周期并不能完全适用于图书馆数据服务,因为图书馆数据服务涉及的数据生命周期与科研生命周期不同。首先,对于图书馆数据服务,虽然数字馆员参与到科研数据的生产环节,但提供高质量的服务是图书馆数字服务的宗旨;其次,图书馆数据服务的生命周期属于一种管理过程,管理过程与科研过程也存在很大不同。图书馆数据服务涉及数据资源的整个体系,管理对象比较复杂。另外,图书馆数据服务是新出现的一种服务形式,应该从基础工作开始,诸如数据深度加工以及知识挖掘抽取等工作可以在数据服务发展成熟以后再着重开展。
在已经存在的数据周期理论基础上,本文尝试建立一个图书馆数据服务相关的数字生命周期模型,如图1所示。
图1 数据生命周期
图书馆数据服务涉及的数据生命周期包括四个基本环节:数据收集、数据处理、数据存储、数据提供。数据收集,主要指图书馆通过从公开的数据源获取数据以及向相关单位购买数据产品等方式来收集数据。收集到的数据存在诸如格式不统一、标准不一致、可用性差异大等现象,那么对数据加工是必不可少的一步。对数据进行统计分析以及深度加工是数据处理的高级阶段,广义上讲它们都属于数据处理,由图1中虚线箭头表示。经处理以后的数据要进行存储,包括简单的存储,以及建立数据仓库以及长期存储等。对数据的一切操作都是为了把数据提供给用户使用,数据提供是最后的环节。不过图书馆会根据用户反馈重新调整自己的数据服务,进入下一轮的数据服务等过程,也就是说进入了下一个数据生命周期。通过这个数据生命周期,可以相对充分地考虑数据质量的影响因素。
2.2 图书馆数据服务与电子资源服务的比较
图书馆数据服务和电子服务都包括如下四个环节:收集、处理、存储与服务。尽管如此,数据服务和电子资源服务之间具有显著差异,数据服务需要数据馆员更多地参与到其建设与维护之中,对数字馆员业务素质也提出了较高的要求,分析两者之间的差别有助于理清数据质量的影响因素。两者之间的差别包括如下几点:
第一,图书馆数据资源是一个全面的协调的体系,具有客观性以及动态性特征。数据作为一种重要的资源,主要包括科研过程中产生的大量原始数据,具有重要的参考价值。相对于电子资源,对数字资源的收集过程中,需要数据馆员能够对数据的客观性具有一定的鉴别能力,并且能够分析数据的内在一致性。科研过程中原始数据不断增加与更新,这要求数据馆员能够动态地跟踪数据源,以保证数据资源的协调性与动态性。
第二,从不同的信息源获取的数据资源格式标准不一。数据馆员需要对获取的数据资源进行加工整理,统一不同数据的格式和标准,以形成统一的数据资源。数据馆员还应积极加入相应的国际组织,参与数据国际标准的制定,以提高数据资源的标准化及可用性水平。另外,不同信息源产生的数据格式不尽相同,如何将获取的不同格式的海量数据进行统一存储也是数据馆员需要考虑的问题之一。
第三,内在禀赋上数据资源不同于电子资源,数据资源难以根据图书分类法进行组织管理。因此,在组织数据资源以及提供检索服务等方面都需要数据馆员进行统筹安排,并提供科学指导。
图书馆数据服务和电子资源服务的差别有利于数据影响因素的鉴别。跟公司数据服务不同,图书馆并不直接生产数据,而是从社会上不同数据源中获取数据,但是这些数据五花八门,标准不一,而数据质量将直接决定着图书馆数据服务的质量。数据作为一种资源,它具有自己的生命周期。结合生命周期理论和图书馆数据服务的特征有助于全面分析数据质量的影响因素。
3 基于数据生命周期的质量影响因素模型构建
3.1 数据质量影响因素模型
在对图书馆数据服务特征进行分析的基础上,以数据资源的生命周期为主线,并将影响数据质量的因素分为主观影响因素和客观影响因素两大类。另外需要指出的是还存在一些宏观环境方面的影响因素,比如法律法规等社会环境因素也会对数据服务以及数据质量有所影响。
图书馆数据服务中数据质量影响因素的主观部分主要是指图书馆馆员对数据质量的影响。通过前文的分析可知,图书馆馆员在提供数据服务过程中,相对于其他服务来说会更多地参与到数据资源的生产与建设之中,数据资源建设过程中涉及大量图书馆馆员的智力工作,因此数据馆员在很大程度上决定了数据质量。数据质量的客观影响因素主要涉及数据资源在整个生命周期中的内在特征,比如数据的可靠性、易用性等,影响数据资源的内在禀赋。数据资源质量直接受主客观两方面因素的影响。另外,数据质量也受到一些宏观环境因素的影响,但是这些影响相对间接。
与电子资源服务相比,数据馆员的主观因素对数据服务质量影响更大,其主观影响主要体现于其智力因素对数据资源的影响。比如,数据馆员是否能够挑选权威性高的数据源,这些数据源是否提供数据更新等,数据资源获取过程体现了数据馆员的鉴别能力。在数据资源的加工阶段,是否能够将来自不同标准格式的数据整合在一起,提供统一的标准和格式,该过程体现了数据馆员的数据处理能力。在数据资源的存储过程中,是否能够适当地考虑不同数据资源之间的关系,进行统一存储以便于检索,该过程体现了数据馆员的资源组织能力。而数据提供过程体现了数据馆员对数据资源的熟悉程度。在整个数据生命周期过程中,都体现了数据馆员主观因素的重要影响,其业务水平以及信息素养至关重要性。由于数据服务发展程度不同,不同图书馆可以根据各自特点以数据生命周期为主线,通过分析数据馆员在各阶段参与的活动获取数据质量的主观影响因素,并结合数据质量影响因素模型提取主观影响因素的指标。利用这些指标形成馆员素质评价表,可以聘请专家对馆员进行评分(比如利用李克特量表(Likert scale))。通过数据服务薄弱环节的识别,对馆员进行相关培训,最终提高数据服务质量。
以数据生命周期为主线将数据质量的影响因素进行展开,可以相对直观全面地了解整个数据生命周期的影响因素。建立图书馆数据质量影响因素模型,有助于从整体上把握数据资源的运转流程,可以为后期的数字资源评价提供参考,更好地提供数据服务。模型具体如图2所示。
图2 基于生命周期的数据质量影响因素模型
图2是本文构建的基于生命周期数据质量影响因素模型。该模型以数据生命周期为主线,并且按照主观影响因素和客观影响因素两大类进行建模。主客观影响因素又被分为两大类:一级主客观影响因素;二级主客观影响因素。数据生命周期中的每一个阶段都进行主客观两方面影响因素进行展开。比如数据搜集阶段涉及的主客观质量影响因素主要有:客观方面包含的数据质量一级影响因素有数据的科学性和易用性等。科学性这个一级影响因素下面又包括数据的权威性、完备性、精确度等影响因素。易用性这个一级影响因素下包含格式、规范、名称等影响因素,这些因素都直接影响着数据的最终质量。国外有很多机构提供了易用性非常高的数据,比如,这些服务机构不仅将数据公布在网络上,还提供电子表格形式的数据提供下载,用户可以直接下载和使用相应数据。
3.2 数据质量影响因素模型的理论依据及应用
数据资源质量直接决定着图书馆数据服务的质量,因此充分分析数据质量影响因素对数据服务至关重要。前文基于数据生命周期理论重新梳理数据资源的每个生命周期环节,数据资源生命周期理论作为纵向主线,横向上从主客观两方面进行展开,并建立二级数据质量影响因素模型。在数据获取阶段,主观数据影响因素方面包括馆员的信息素养与数据资源获取能力等一级影响因素,而数据获取能力方面又包含对数据源的把握能力、熟悉程度等二级影响因素。数据源在很大程度上决定数据质量,目前图书馆获取数据资源的主要途径包括国际组织的公开数据比如国际货币基金组织(IMF)、经合组织(OECD)等,统计部门公布的数据,数据供应商以及数据协会等机构,这就要求图书馆馆员能够充分了解这些数据源的特点,如数据的标准、易用性、准确性等因素。馆员对数据源的选择,对数据质量有很大的影响。在数据生命周期的其他阶段,馆员也会影响最终数据产品的质量,比如馆员是否能够将来自不同数据源的数据整合成标准统一,馆员的工作将在很大程度上决定数据最终产品的质量。
在该模型的应用过程中,需要指出的是本文并非提供一个普适的模型,而是提供一个参考框架模型,具体使用过程中应该根据图书馆的不同情况而定,不同图书馆可以扩充或者简化该模型,以灵活地服务于图书馆数据服务。该模型有助于图书馆分析自身数据质量的主要影响因素,有的放矢地提升数据资源及服务质量。
另外,数据质量影响因素模型可以作为数据资源质量的评价参考,该模型具有内在的等级结构,十分适合定量或者定性的方法对数据资源进行质量评价,比如通过层次分析法对数据资源质量进行分析等。但是本模型提供的只是一个理论框架,并未提供具体的定量及定性的评价标准。具体评价过程中需要对不同图书馆作进一步研究,但这也在一定程度上提高了该模型的灵活性。
4 意义
第一,以数据生命周期为主线,从主客观两方面分级分析数据质量影响因素提供了一种思路,有助于从整体层面对数据质量因素进行分析,有助于掌握数据的主要影响因素。通过合理组织数据影响因素体系可以清晰地梳理影响因素间的关系。第二,基于生命周期的数据质量影响因素模型可以作为一种共享机制,不同领域人员都可以按照该模型结构分析数据质量的影响因素,通过合作一起完善该模型。第三,该模型还可以作为数据质量评价的参考。评价人员可以根据此模型评价数据质量的优劣,比如对不同因素赋予一定的权值,然后进行打分或者量化,最后计算出数据资源的整体质量参数。最后,掌握数据质量影响因素的最终目的,就是了解这些因素如何影响数据质量,并采取相应措施提升数据质量。本文还提供了一些思路,比如如何从整体上把握数据资源质量影响因素以及与数据资源质量之间的关系,如何组建一个数据资源体系等。希望该模型的建立能有利于提升图书馆数据服务水平。
5 总结
本文首先介绍了数据服务的概念,分析了图书馆数据服务所具有的新特征,然后综合数据生命周期理论,提出了适合于图书馆数据服务的数据生命周期模型,并以此模型为基础,结合图书馆数据服务的新特征构建了基于生命周期的数据质量影响因素模型。该模型能够对数据资源质量影响因素的分析提供帮助,希望该模型可以提供不同的思路,以期有益于图书馆全面提升数据产品质量以及数据服务水平。
[收稿日期]2012-12-30