面向第四范式的科学数据监督体系研究_大数据论文

面向科研第四范式的科学数据监管体系研究,本文主要内容关键词为:范式论文,科研论文,监管体系论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      分类号:G273

      DOI:10.13266/j.issn.0252-3116.2015.016.002

      修回日期:2015-07-11 本文起止页码:11-17

      1 引言

      e-Science环境下,数据密集型科学发现成为科学研究的第四范式[1]。科学研究的第四范式是一种数据密集型范式,这种研究范式的一个显著特征是以数据考察为基础,也即是从科学数据中发现理论与知识。科研第四范式中,科学数据日益成为科学发现的核心。随着科学研究领域的拓展以及精密仪器的广泛使用,科学数据呈现出爆炸般增长的趋势,尤其在一些尖端科研领域,如基因组学、天文学、生态学、高能物理等领域,科学数据增长速度更为迅猛,目前已经要以PB计量。高通量的科研大数据对常规的数据采集、管理与分析工具形成巨大的挑战。为此,需要采取一系列数据监管工具和监管手段来支持科研数据从采集、验证到管理、保存、共享和利用等的整个流程。目前,国内外学术界和企业实践已经开展了广泛的科学数据监管理论研究和实践探索,取得了不少重大突破。近年来,科学数据监管也成为图书馆、情报学界重点关注的热点,陆续产生了科学数据管理、科学数据质量评估、科学数据成熟度评价等模型及体系构架。然而,多数研究从技术视角出发,关注数据处理过程,对于相关的其他内外部管理要素缺乏足够的重视。本文在梳理国内外科研数据监管相关研究的基础上,从管理的视角构建科学数据的监管体系,并详细解析每个管理职能模块的构成,包括输入、输出和主要管理活动,为促进我国科研机构、图书馆及企业开展数据监管提供理论和实践参考。

      2 相关研究

      数据监管不是一个新名词,但长期以来对数据监管都没有一个统一的定义。2004年,英国联合信息系统委员会(Joint Information Systems Committee,JISC)对数据监管给出了一个明确的定义:数据监管是为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动,对于动态数据集而言,数据监管意味着需进行持续性补充和更新,以使数据符合用户需求[2]。该定义明确了数据监管的目标、过程和意义,得到了普遍的承认。此后,数据监管作为一个专有名词进入人们的视野,研究者们从各个方面对其展开了研究,涉及数据监管的定义[3-4]、数据监管的模式[5]、数据监管的发展战略[6]、数据监管的内容[7]、数据监管成熟度[8-10]及数据监管的技术平台建设[11-12]等。值得注意的是,近年来国内图书馆学情报学界对于数据监管的研究表现出强烈的兴趣,主要从高校数据监管或图书馆数据监管的视角出发,研究内容涵盖了科学数据共享[19]、科学数据组织[20]、科学数据服务[21]、科学数据整合[22]以及科学数据政策[23]等多个领域;同时由于理解不同,出现了对“data curation”不同的翻译,如“数据策管”[13]、“数据监护”[14]、“数据监管”[15]、“数据存管”[16]、“数据管护”[17]或者“数据管理”[18]等。其中,数据监管体系是当前研究中的一个重要组成部分。数据监管体系是将具体的数据监管过程概念化,构建出抽象的体系框架,有助于全面把握数据监管的内容。从目前的研究来看,所构建的数据监管体系(或者参考模型)主要有两类。

      2.1 基于数据生命周期的数据监管参考模型

      数据生命周期是指数据从产生到删除的一系列阶段。划分数据生命周期的目的是便于对数据进行细化管理,采取分解的策略将数据管理划分为若干个阶段,这些阶段共同组成了数据的生命周期。基于生命周期的数据监管模型以数据处理的过程为基线,详细地分解各阶段所要完成的数据监管工作。比较典型的参考模型有英国数据监管中心(Digital Curation Center,DCC)提出的数据监管模型,DCC将数据监管生命周期划分为概念化、创造或接收、评估与选择、吸收、保存行为、储存、访问、使用与重用、转换等阶段。每个阶段定义了详细的操作步骤[24]。国内学者胡良霖等将科学数据生命期划分为数据采集、数据输入、数据存储与处理和数据服务4个阶段,详细描述了各个阶段需要做的数据管理任务;王芳教授等则在对国内外数据监管的调查中,将数据生命阶段划分为战略规划、数据收集、数据处理、数据保存、数据利用、服务质量评价6个阶段,分别介绍了每个阶段的研究成果[17]。还有其他一些基于数据生命周期的模型,如美国加州大学针对传感数据提出的数据生命周期模型[25]、牛津大学的机构数据监管基础设施模型[26]、国际性开放档案信息参考模型[27]等。这些模型虽然在内容、阶段划分、表现形式等方面存在诸多差异,但其基本思路都是一致的,并且由于与数据管理的工作过程结合比较紧密,具有较强的实践指导意义。

      2.2 基于主题的数据监管模型

      主题是指某一实体的信息集成,如关于客户、商品的所有信息都属于同一主题。这类参考模型按照数据监管职能为主题,将数据监管体系划分为若干个主题,然后针对每一个主题进行深入的描述,包括每一个职能所涵盖的工作范畴、所遵循的规范和使用的工具。具有代表性的是国际数据管理协会发布的数据管理知识体系。国际数据管理协会长期致力于企业信息和数据管理的研究、实践及相关知识体系的整理,于2006年开始着手数据管理知识体系(Data Management Body of Knowledge,DMBOK)的构建,目前该体系已经到3.0版本。DMBOK将数据监管的职能划分为10个——数据治理、数据构架管理、数据开发、数据操作管理、数据安全管理、数据质量管理、主数据和参考数据管理、数据仓库和商务智能管理、文件和内容管理和元数据管理,并且详细定义了数据管理中用的词汇、概念、方法、工具以及主要的环境元素[28]。目前该知识体系逐渐成为数据管理行业的标准,国际数据管理协会在多个国家成立了分会,中国是其中的一员。与之类似的有IBM的数据治理模型[29]。基于主题的数据监管体系从职能的角度来细分数据监管的工作,使人们对数据监管有了更为系统的认识,有助于了解数据监管的整体,从而做好规划和准备工作。

      如前所述,基于数据生命周期的数据监管模型以数据管理过程为主线,与实践工作结合得较为紧密,然而,同一类数据监管工作分布在不同的数据监管阶段,比如数据质量管理工作,贯穿于整个数据生命周期,但分散在各个阶段的工作并不相同,不利于整体把控。同时,由于不同学者划分的阶段各不相同,也给理解数据监管工作带来了混乱。基于主题的数据监管体系以数据监管职能为主线,有利于集中描述同一类工作。然而,当前研究涉及的主题比较凌乱,没有突出数据监管职能的主次,同时虽然每个主题的内容自成体系,但与数据监管过程结合不够紧密,不利于指导数据监管实践。另外,不管是基于数据生命周期还是基于主题的数据监管模型,其关注点在于数据本身,从技术的角度涉及数据监管的各个阶段或各个方面,却忽略了执行数据监管所必要的内外部资源的支持。实际上,数据监管是一个技术与管理相结合的持续改善过程,受到技术、流程、人力、机制以及内外部环境等多方面因素的制约。基于此,本文拟从管理的视角,将数据监管所需要的辅助支持要素纳入到数据监管体系之中,以数据监管主题的形式对数据监管工作进行归类,并按数据生命周期将各主题串联起来,形成一个主次分明的数据监管体系参考模型。

      3 科研数据监管的知识体系框架

      从科研第四范式的过程来看,数据密集型科学研究由数据的采集、管理和分析3个基本活动组成[30],与一般的数据管理与应用并无太大的差别。然而,科研数据海啸式的暴涨对数据密集型科学研究带来了巨大挑战:领域科学家通常采用的小数据管理方法难以胜任。科学数据监管势必作为一项艰巨的任务独立出来,由数据科学家采用专业数据监管工具和手段进行系统化的管理。需要注意的是,科学数据监管不是一个单纯的技术问题,而是一个技术与管理相结合的持续完善的管理过程。它既需要持续利用元数据管理、主数据管理、数据质量管理等一系列IT技术来保证数据监管工作有序运转,也需要通过组织架构、政策制度、数据标准、监督及考核等管理措施来提高数据监管工作的效率和效用。

      3.1 科学数据监管的基本框架

      国际数据管理协会将数据管理的职能划分为十大类:数据治理、数据构架管理、数据开发、数据操作管理、数据安全管理、数据质量管理、主数据和参考数据管理、数据仓库和商务智能管理、文件和内容管理和元数据管理。然而,它更多的是从技术的视角对数据管理工作进行界定,关注数据本身,而忽略了相关的支持。本文从管理的视角,既关注数据处理过程,也将相关支持要素纳入到数据监管范畴中。本文对国际数据管理协会提出的数据管理知识体系进行了归类和精简,将数据监管的管理职能划分为核心管理职能、辅助管理职能。核心管理职能是与数据监管有直接关联的管理活动,包括数据监管范围管理、数据规划管理、数据操作管理以及数据质量管理。辅助管理职能是为了保证实现数据生命周期各项职能以及满足或超越科研人员对数据的期望所进行的管理活动,包括数据科学家管理、数据规范管理、数据安全管理和数据绩效管理。两大职能组作用于数据生命周期管理,经过集成、综合、优化,为科学数据提供高质量的服务。其基本结构如图1所示。

      

      图1 科学数据的监管体系构架

      从图1中可以看出,数据监管的驱动力来自科研工作人员对科学数据的期望,包括重复科学试验、验证科学过程、数据探索发现等。科学监管的目标是满足或超出科研工作人员对科学数据的期望,获得更多更好的科研成果。这个过程需要运用各种知识、技能、工具和技术,其中知识是指数据监管知识,包括数据处理知识、管理知识及社会环境知识;技能是指数据监管中积累的经验、技巧;工具和技术是指信息技术平台、数据处理方法、数据管理方法、人际管理方法等。这些知识、技能、工具和技术共同作用于数据生命周期的每一个阶段、每一个过程,获得数据监管的成功。

      3.2 核心管理职能

      核心管理域是指在科学数据监管中最重要的、具有鲜明特色的个性化的管理过程,是科学数据得以保存、共享、利用和创新的关键所在。科学数据的核心管理域由数据范围管理、数据规划管理、数据操作管理和数据质量管理4个管理过程构成。表1归纳了每个管理过程的主要输入、输出、管理活动。

      

      3.2.1 数据监管范围管理 数据监管首先要明白要监管哪些数据、监管的对象是什么。数据范围管理解决的是“做什么”的问题。数据范围管理是在调查科研机构、科研人员以及科研数据管理者对科研数据管理的期望和要求的基础之上,确定数据监管的对象及其管理工作的过程。主要的管理活动包括需求调查、定义数据监管范围、审核数据监管范围、控制数据监管范围。数据范围管理是其他数据管理工作的前提条件,如果数据范围界定不清楚,出现疏忽、遗漏、错误、主次不清等混乱局面,将导致不能为科研活动提供合格的科学数据。在进行数据范围管理的过程中,需要注意:①数据范围分解必须是基于实际的科研数据业务流程。数据范围管理是其他数据管理工作的基础,它可以帮助数据管理人员明确需要管理的数据,排除不需要管理的数据。臆想的、杜撰的需求无法指导数据管理的实践。②数据范围分解的数据项不能出现重复。重复的数据项意味着资源的重复配置,也不利于安排其他的管理工作。③最终用户尽早参与。最终用户包括科研人员、管理人员、各级领导以及信息技术人员。一方面需要他们提供完整的业务资料,另一方面最终的管理工作由他们去完成,参与到数据范围管理过程中有助于每个用户了解自己的职责。

      3.2.2 数据规划管理 数据规划解决的是科学数据管理的“如何做”问题。数据规划管理是根据科学数据战略和业务战略,制定科学数据蓝图和数据标准的规划活动。主要的管理活动包括数据监管方案设计、数据构架规划、数据监管流程设计、数据模型设计、数据资源配置等。数据规划管理是科研机构进行系统、完整、标准、规范的数据资产管理的基础工程,需要遵循以下几条原则:①价值驱动的原则。科研机构的资源和资金都有限,需要将主要的资源配置到重点关注的领域,选择科学价值比较高的数据或者能够快速产生价值的数据进行重点管理,先建立起这些数据管理的模型和技术构架,然后逐渐推广到其他领域。②渐进的原则。数据规划不是一蹴而就的过程,而是一个渐进明细、不断深化的过程,需要不断地调整、优化,后一阶段的实施规划需要根据前一阶段的效果做出必要的变化,最终才能形成一个全局最优的规划方案。③灵活性原则。随着科研大数据的发展,数据内容、数据类型快速演变,与之相对应的数据标准、格式、工具、方法等也会产生很大变化,因此,在数据规划管理中要能与时俱进,及时反映这些变化。④统一性原则。在组织内需要使用统一的数据构架、数据标准、数据监管流程,使用标准的数据接口和数据传输机制,以便从多元的结构化数据源建立起整合能力。

      3.2.3 数据操作管理 数据操作管理解决的是“怎么做”的问题,即采取什么措施去实现科学数据监管的职能。数据操作管理是对科学数据的获取、传输、处理、存储、维护、使用、存档、消除等数据处理进行详细的定义,明确每个数据处理的实施过程以及管理活动要采用的技术、方法和工具。主要的管理活动包括分解数据处理步骤、定义数据处理实施要求、制定数据处理实施路线图、制作数据处理词典。

      其中一项重要的工作就是完成数据处理词典的定义。数据的获取、传输、处理、存储、维护、使用、存档、消除等过程是科学数据监管最底层、最基本,同时也是直接关系着数据监管成败的数据处理活动。要规范地完成每一个最基本的数据处理活动,需要对它们有一个全面、详细和明确的规定,这些规定构成了数据处理词典。数据处理词典里要记录数据处理的编号、流程、要求、参考的技术文献、依据的标准规范、投入的资源、需要的时间与成本、采用的方法、工具、执行者、与其他数据处理任务之间的关系等。数据处理词典的详细描述,可以降低数据监管的学习成本,提高数据监管的规范性和有序性。

      3.2.4 数据质量管理 科学活动是一项精密探索的活动,对于数据的质量要求更为严格,略有瑕疵就可能导致科研发现的错失。数据质量管理就是对数据生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,目的在于提高科学数据的质量。数据质量管理活动主要包括数据质量规划、数据质量保证、数据质量审查和数据质量控制等。与一般信息生成系统相比较,科学数据具有类型多样、学科复杂等特点,因此,对科学数据质量管理要遵循全面质量管理的思想,形成一套科学严密高效的质量体系:①全面质量管理。将质量管理PDCA循环与科学数据管理过程相结合,同时贯彻全面质量管理的思想,将科学数据质量管理相关的政策、标准、法规以及人力资源等因素纳入数据质量管理范畴。②全员参与。数据质量管理不是一个部门的事,需要组织的高层、中层和基层全员参与。高层负责数据质量管理战略和质量方针,中层管理者规划和干预质量管理过程,基层员工负责数据质量管理方案实施。③持续改进。数据错误检测和修正是数据质量管理的核心功能,然而,检测和修正错误不是最重要的,重要的是发现错误后能够追踪可能发生错误的过程,找出错误的根本原因,并做出过程改进的措施和方案,避免发生同样的数据错误,持续地改进科学数据的质量。④重视预防。重视科学数据的质量预防,体现了现代质量管理的事前预防的基本理念,通过不断的循环,逐步改进科学数据质量的规划和预防措施,确保在数据生产过程中少出现质量问题。

      3.3 辅助管理职能

      辅助管理域是指在科学数据监管过程中不直接参与数据处理过程,但为核心管理过程提供必要的支持职能的管理活动。同样,本文将辅助管理域划分为4个部分:数据科学家管理、数据规范管理、数据安全管理和数据评价管理。表2是辅助管理域中各个管理过程的输入、输出以及管理活动的列表。

      

      3.3.1 数据科学家管理 本文的数据科学家是指专业从事科学数据管理的人员,主要职责是监管科学数据的定义、质量、访问和保留,包括定义业务数据的名称、识别和解决数据问题、定义数据质量需求和度量指标、定义数据安全和访问规则等。数据科学家管理是运用现代化的人力资源管理方法,组建适合科学数据监管的数据管理人员组织结构,并采取一系列科学规划、开发培训、合理调配、适当激励等措施,组建、开发和管理数据科学家团队。主要的管理活动是设计组织结构、组建数据科学家团队、建设数据科学家团队(包括教育和培训)、管理数据科学家团队。

      数据科学家管理首要的一个管理活动就是构建适合数据监管的组织结构。数据监管专业性强,同时任务复杂,从组织形式上来看,适宜采用团队的管理模式来组织,在团队设置多种数据监管职务和角色,包括首席信息官、数据架构师、数据集成专家等。同时,需要整合科研机构中其他技术人员、管理人员,构建多层级的数据管理组织机构,协同数据科学家制定数据管理的制度和规程。如在国际数据管理协会的数据管理知识体系中,数据管理制度相关机构包括数据治理委员会、数据管理制度指导委员会、数据管理制度团队等多个层级。

      3.3.2 数据规范管理 数据规范管理是指在科学数据管理过程中将涉及的标准、规范和文档进行收集管理的过程。数据标准和规范包括数据质量ISO标准、元数据标准、数据安全标准、数据建模标准、数据构架标准、数据模型、代码设计标准、行业术语标准以及组织的规章制度、管理规范等。数据规范管理的主要管理活动是规范收集、规范分类、关联和索引以及规范数据建设。

      在e-Science环境下,协同已经成为数据密集型科学活动的基本特征之一,科学研究活动通常需要若干个科研机构相互协作才能完成,科学数据经常在这些机构之间相互流动,因此,需要有标准化的规范来统一科学数据的交流过程,减少科学交流中存在的障碍。通过科学数据规范管理,可以统一数据定义,确保具有一致性、规范性和完整性的科研数据在科学联盟范围内有序流动,同时,完整的标准规范也使得科学数据管理有了可以遵循的可靠依据。

      3.3.3 数据安全管理 数据安全管理是对科学数据管理中存在的安全问题进行管理的过程。数据安全包括物理安全、数据内容安全、共享网络安全以及管理制度安全。数据安全管理的主要管理活动包括科学数据安全管理的计划、安全隐患识别、安全问题的定性定量评估、安全威胁的应对措施以及安全威胁控制等。

      大数据时代,数据安全管理面临着更多的风险,除了加强数据访问权限控制、用户ID和密码管理、用户数据访问监控及日志保持记录、安全标准的数据访问权限设置、数据安全审计等数据库安全管理工作之外,也需要防范新的信息技术带来的安全威胁,如无线网、蓝牙以及其他不需要物理的、强制性侵入的安全威胁。另外,数据安全管理不能等发生了问题才去弥补,而是要以预防为主,及时进行数据安全评估,不断发现数据管理系统中存在的完全隐患,提前提出有针对性的数据安全解决方法,提高数据安全管理的水平,减少因安全问题带来的损失。

      3.3.4 数据绩效管理 数据绩效管理是指对数据及数据监管过程、监管组织进行评价的一系列管理活动,包括数据价值评价、数据质量评价、数据监管绩效评价以及数据管理成熟度评价等。从管理过程来看,主要的管理活动由数据评价管理计划(包括评价周期、评价指标、评价人员等)、实施评价措施(包括绩效信息采集、评价数据处理、运行评价算法等)、结果分析与应对措施5个连续的过程组成。

      科学数据绩效管理是科学数据监管一个重要的支持环节,虽然不直接参与到数据的分析、处理、清洗和使用等数据生命周期的各个环节,但是在数据监管的各个过程中,必须通过各种评价和评估活动,了解数据监管的状态。其中,科学数据价值评价主要从成本效益的角度来衡量数据保存和管理的意义,是组织制定数据监管战略和选择数据监管方案的重要依据之一。数据质量评价是对应用系统的整体或部分数据质量进行评估的方法和过程,帮助数据用户了解应用系统的数据质量水平。数据监管绩效评价是对数据监管模型的实施效果进行审核,衡量数据监管取得的成绩,为进一步完善数据监管方案提供度量的基准。数据管理成熟度是一个组织的数据监管能力的表现,有助于组织持续提升和完善组织自身数据监管能力。

      4 数据生命周期与管理职能的集成

      数据监管职能的划分,是从管理的视角来归纳所要做的数据监管活动,这种划分方法有利于系统化地理解和学习相关职能的管理任务。然而,从实践的角度来看,基于职能的划分不能直接作用于数据监管实践,因为职能是同一类管理活动的集成,而这些管理活动分散在不同的数据监管过程之中。数据生命周期是对数据监管的过程进行细分,因其与数据监管过程结合得比较紧密,从而得到广泛的认可。因此,本文将数据监管职能与数据生命周期相结合,将数据监管的各项管理活动明确分配到数据生命周期的各个阶段,以便更好地理解和指导数据监管的实践。如前所述,对于数据生命周期的阶段划分各不相同,本文比较认同王芳教授提出的六阶段划分方法[17],并以该六阶段数据生命周期为基础,构建数据生命周期-管理职能的关联矩阵。如表3所示。

      

      纵轴上:①数据质量管理贯穿了整个数据生命周期,这与科学活动的特性有着密切的关联。科学活动是一项精密探索的活动,对于数据的质量要求更为严格,略有瑕疵就可能导致科研发现的错失。然而从目前的研究现状来看,对于科学数据质量管理方面的研究较为欠缺,亟须在这方面加强深入研究。②数据科学家在数据监管中起着很重要的作用,贯穿于数据生命周期的大部分阶段。在大数据时代,数据科学家的作用越来越重要,需要注意对数据科学家的教育和培训。甚至可以采取人才租借或者众包的方式,从外部获取智力支持。③数据规范管理同样贯穿多个生命周期,这与数据质量管理有关联,同时,也与e-Science协同式科研环境有关联,需要加强对标准和规范的管理,采用标准的数据处理、存储机制,设置通用的接口,促进科学数据无障碍的交流。

      横轴上:①战略规划涉及的知识域最多,这说明数据监管需要做好预先规划,不管是数据质量还是数据安全,都需要做好预防性的工作,减少数据资产的浪费。②数据保存、数据利用和数据服务涉及的知识域也比较多,这与大数据带来的冲击有关联。科研大数据给科学研究带来了巨大的价值,数据成为资产,然而又带来了冲击:如何保存、开发这些宝贵的数据资产,挖掘其蕴含的价值,是数据密集型科学活动面临的最现实的问题。

      5 结语

      本文根据科学数据的特性以及数据监管的主要要素,对国际数据管理协会划分的数据管理知识体系进行了归类和精简,从管理视角归纳整理和构建了一个科学数据监管体系构架,将数据监管的管理职能划分为两大类:核心管理职能和辅助管理职能。与DMBOK不同的是,本文所提出模型不仅考虑了数据生命周期的数据管理职能,而且认为数据监管是一个技术与管理相结合的持续改进过程,将战略规划、标准规范、组织人才等外部要素纳入数据监管知识体系,构成该体系的辅助管理职能,更加全面地描述了数据监管的管理职能。同时,从更高的层次——管理视角来构建数据监管的知识体系,有利于科研机构组织从总体上来布局科学数据的监管工作。然而,由于数据监管的复杂性,本文的研究尚有很多不足之处,今后的研究工作将对每个监管职能进行深化细致的研究,提出更加具体、更加系统的科学数据监管方案。

      作者贡献说明:

      吴金红:提出研究思路及论文撰写、定稿、修改;

      陈勇跃:审阅并提出论文修改意见。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

面向第四范式的科学数据监督体系研究_大数据论文
下载Doc文档

猜你喜欢