数据管理框架研究_大数据论文

研究数据管理框架研究,本文主要内容关键词为:数据管理论文,框架论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 前言

研究数据是研究人员在工作过程中的产品以及研究出版物,亦包括用于验证科学研究过程的原始数据和必要的元数据。随着数据密集型研究的发展,研究数据的创建、获取、处理分析、重用以及长期保存对科学研究具有越来越重要的意义,良好的研究数据管理能确保数据有效的共享、验证和重用,提高研究的有效产出。

但是随着大量有价值的数据在研究过程中不断产生,当前的研究数据管理面临着巨大的挑战:丰富多样的数据类型和格式,机构范围内缺少相应的数据创建、存储和管理的政策及基础设施,缺少研究数据管理及长期保存的经费,研究人员缺乏相关的意识、必要的技能和可用的工具的支持①。

为提高机构研究数据管理的有效性,为科研人员提供更好的服务,不少机构根据各自的需求和目标,开始研究和开发研究数据管理框架。本文结合几个国外机构所构建的比较有特色的研究数据管理框架,分析对比研究机构如何构建有效的研究数据管理框架,为国内开展研究数据管理实践提供参考。

2 国外研究数据管理框架分析

2.1 基于研究人员需求构建的研究数据管理框架

2008年牛津大学开始考虑构建研究数据管理基础设施,并且启动了“Scoping Digital Repository Services for Research Data Management’”项目②。该项目是牛津大学的一个跨机构的合作项目,共11个服务单位参与,验证早期从项目中捕获的研究人员的需求,以帮助确定为存储、分发和长期保存牛津大学产生的研究数据所需提供的服务或计划提供的服务,其支持研究人员与他们的数据管理职责。

该项目参考了DCC(Digital Curation Center)长期保存生命周期模型,在获取研究人员的服务需求后,结合来自牛津大学服务单位和UK Research Data Service以及DCC成员提供的一些反馈,提出了数据管理和长期保存服务框架。

该框架分为五层③(见图1),自底向上,依次包括:

商业模型层(Business model):即是指研究数据费用模型,涵盖了研究数据管理各方面的费用问题,例如:机构仓储的人员与设备、长期保存(摄入、存档、获取)费用、规划和服务费用等,为研究数据管理可行性研究提供基础。

政策层(Policy):指机构政策和程序,主要是研究数据管理相关政策。牛津大学结合自身实际情况,发布各自研究管理政策。政策的制定受多方限制,需要遵守国家或国际政策,满足研究资助机构对数据获取等方面的要求以及符合政府要求公开获取公共资金创建的研究数据的趋势。其次,发布的政策需要明确研究数据管理活动中各个角色承担的责任,指明研究数据管理相关概念及环境,并要为落实政策提供战略、业务等计划和指导。相关的政策可以分多个类别。

基础设施和工具层(Infrastructure and tools):IT基础设施和工具包括进行研究数据管理所需的硬件和软件。例如,内部和外部的网络连接、仓储系统、数据出版环境、数据捕获、元数据存储以及费用计算工具等。

支持层(Support):主要是基础设施和支持层之上的各种服务之间的接口层,可以集成本地基础设施和调用组合外部的服务等。

服务层:提供支持和建议,以帮助研究人员编写自己的数据管理和共享计划;协助研究人员解决在创建、共享和使用数据时相关的法律和道德问题;帮助提供最好格式和最佳实践;提供安全存储包括基础设施;提供元数据工具和支持;提供研究人员定位研究数据和访问研究数据服务以及工具;提供软件和计算资源,允许分析和可视化研究数据以及培训研究人员;提供技术和方法,限制共享研究数据的范围;支持清理和准备数据,使其能达到数据出版的标准;提供研究数据出版和发布的基础设施;评估研究数据的价值及保存策略;提供长期保存服务;为数据添加价值。

图1 数据管理和长期保存服务框架

2.2 ANDS的研究数据管理框架

澳大利亚国家数据服务(ANDS)是由澳大利亚政府通过国家合作研究基础设施战略计划(National Collaborative Research Infrastructure Strategy Program)和教育投资基金(EIF)超级科学项目(Education Investment Fund Super Science Initiative)支持建立,旨在支持在隐私、版权和技术的限制范围内尽可能多地获取公共资助的研究数据。ANDS在研究数据管理方面从政策和实践角度都做了很多探索,提出了研究数据管理框架,发布了《研究数据管理框架:能力成熟度指南》④,为机构评估当前研究数据管理所达到的水平和未来需要关注的方面提供指南。

ANDS的研究数据管理框架主要包括四部分:机构政策和计划,IT基础设施(硬件和软件),支持服务(人员和建议),管理元数据⑤。

机构的政策和计划是指包含如下方面与数据相关的政策和计划:研究数据管理;研究数据的所有权与储存;访问数据库和档案库;伴随一个研究项目的材料和研究数据的保留;与其他研究机构的合作研究项目;伦理及行动守则,资金需求和有关的立法框架;数据共享与再利用;研究数据安全可靠的处理;知识产权,版权及专利以及记录管理。政策和计划必须强调数据相关的问题,应及时更新且广泛宣传,并且包括履约措施。

IT基础设施(硬件和软件)是指提供充足的IT基础设施,以支持如下功能:数据和元数据的存储,为双方的合作与归档;标示符管理,身份验证和访问;内部和外部的网络连接;访问特定学科的工具以支持分析;软件开发;可视化;协作环境以及高性能计算。

支持服务(人员与建议)是指培训工作人员和能力,包括研究人员及支持人员的培训;数据管理规划,包括相关标准;发现和访问;数据的安全机制;数据共享与再利用;数据保管;藏品鉴定,数字资源长期保存支持及可持续性以及意识、推广和营销。

管理元数据是指与元数据相关的活动,包括数据集标识;相关的元数据标准的实施;按学科要求创建元数据记录;按数字资源长期保存要求创建元数据记录;澳大利亚研究数据——集合,各缔约方,活动,服务,创建元数据记录集合;与澳大利亚研究数据和其他门户网站的元数据共享,以支持所有权、保留期限、访问规则等的记录;出版和使用统计信息。

以下这些要素适用于所有上述四部分:适当定义的角色和责任,以及适当的法律支持和权威;为机构使用而定义和颁布的标准;持续而充足的资源——财务、人员和设备;有适当技能的研究人员,研究办公室工作人员,信息专家和技术支持人员。

2.3 基于生命周期的研究数据管理框架

澳洲Griffith大学针对政府资助机构要求大学提高研究输出成果获取的需求,为帮助大学提高研究管理能力,开发了一个研究数据管理框架⑥,该框架为大学与国家的设施匹配,并集成本地和外部服务到整个解决方案中提供了可能,满足了大学给研究社区提供一个经济、一致和无缝的服务目标。

该研究数据管理框架基于研究数据的生命周期,审视了研究数据在整个生命周期中的移动:数据的发现和收集、清理和处理、分析和计算以及最后的出版、长期保存和再利用,采用分层的方法来设计开发必要组件,为研究创建一个有效、可持续的研究数据管理服务,确保它可以无缝地与当前澳大利亚国家方案协作。框架自顶向下,分为研究活动层、管理层、业务应用层、内容管理层、分发服务层以及存储和网络层(见图2)。

图2 Griffith大学研究数据管理框架

2.3.1 管理层(Governance Layer)

该层包括政策、指导方针、框架、行动守则等内容,主要是大学研究数据管理的政策。大学的研究数据管理行为范围是由大学的政策、工具和外部的政策所共同支配的,因此在遵守澳大利亚研究行为责任(the Australian Code for the Responsible Conduct of Research)的基础上,还要制定机构相关的战略、业务和实施规划方案,以及相关的管理责任体系和协调管理机制。

大学研究数据管理政策制定和实施的一个关键部分是必须清楚地认识大学内主要群体的作用和责任,亦需要考虑研究数据联合的长期保存,同时还需要考虑一些有关良好的规划企业的IT和信息架构的问题。

2.3.2 应用层(Enterprise Application Layer)

该层包括企业系统如研究信息系统、HR系统。该层容易忽视的两个应用:一是一整套收集研究数据的标准应用,例如针对特定领域的网上调查工具、实验室工作流技术、电子实验室的书等;二是关于数字资源长期保存的应用。

2.3.3 内容管理层(Content Management Layer)

基于诸多考虑,该框架将内容管理层从业务应用层剥离,主要包括描述、组织、发现和再利用元数据,制定促进一致的数据标准(包括长期保存元数据)和文档格式;评估内容对象的管理需求;唯一标识符的管理,开发一致的方法来处理长期的生命周期管理。

2.3.4 分发服务层(Delivery Services Layer)

随着越来越多的对象被存储在仓储中,需要以适当的方法在适当的环境中分发这些对象。分发服务层独立的目的是可以从内容和存储方面提供相当独立的服务,服务可以被外包,使产品可以被集成。

2.3.5 存储和网络层(Storage and Network Layer)

该层包括本地的、机构的、外部的、云存储。存储和网络层需要进行分开设计,特别需要有一个集成的存储层来包括云或国家存储服务。在某些情况下本地存储可能是一种更可行的选择(如实验室)。该层要考虑如何获得研究人员的需求和数据周围的约束,如隐私、道德或访问限制,同时还要考虑将技术生命周期解决方案纳入到整体解决方案。

2.4 其他

Wollongong大学的研究管理框架中包括了三方面的内容:管理、IT系统以及人员和专家(见图3)。

图3 Wollongong大学数据管理框架⑦

在Keele University的研究数据管理规划中,包括8个主要内容:有合适的系统为研究数据提供存储、备份和访问服务;有相应的策略保证研究数据的持有、存档和共享;提供工具和技术指南;建立高层管理组织;建立底层管理团队;构建有利于研究数据管理的系统和环境(氛围与意识);提供足够的培训和指导;确保所需的资金和资源;提供长期保存和共享的机制(见图4)。

图4 Keele University研究数据管理组件⑧

3 研究数据管理框架的比较分析

上述几个研究数据管理框架各有特色,同时针对不同的应用需求提出对应的解决方案。牛津大学项目提出的框架主要关注机构对研究人员的研究数据管理需求提供服务,服务内容真实而全面,该框架以层次结构呈现,下层支持上层,下层与相应上层之间是单向支持关系,结构清晰。ANDS提出的研究数据管理框架,阐述了从国家层面进行研究数据管理所需遵循的原则和涵盖的内容范围,该框架主要以平行结构的形式呈现,框架结构简单。 Griffith大学提出的基于研究周期的研究数据管理框架,针对大学进行研究数据管理提出了具体的框架,有效地结合了研究周期,内容具体而细致,可以为其他大学构建研究数据管理框架提供有效参考,该框架将研究周期和各个层之间以双向支持关系相关联,结构合理。

尽管各个框架的应用需求和框架结构不尽相同,但是这些框架明确地包含了研究数据管理所涉及的4个关键部分:政策、基础设施、元数据管理和服务,这也是研究数据管理框架的共同内容。政策部分,主要包含研究数据管理相关的机构的、国家的、费用等方面政策;基础设施部分,主要包含研究数据管理相应的IT软硬件设施;元数据管理,主要包含数据的描述性、管理性和长期保存元数据以及数据持久标识符等;服务,主要是针对研究人员的需求或研究过程,机构提供的具体的研究数据管理服务,主要是培训服务。表1是几个研究数据管理框架具体的组成对比信息。

从上述分析不难看出,有效构建研究数据管理框架需要考虑以下方面:

(1)机构数据管理框架应遵循国家和政府的法律和监管框架。

(2)该框架应支持机构在整个数据生命周期的管理。

(3)不同的机构或项目对于RDMI(Research Data Management Infrastructure)有不同的需求,有些侧重 TB级数据集的大规模存储;有些则关注机密数据的安全保障;还有一些重视与公众和其他成员广泛地分享数据。但是有一些跨学科领域的共同需求:元数据管理、培训和支持、基础设施(主要指安全存储)、机构策略。

(4)在机构层面,需要在建立和公布政策和程序,并提供必不可少的基础设施和服务的同时,还要了解不同群体在研究数据管理中的角色和作用,对于数据管理和保存相关的成本和效益有清醒的认识。

(5)良好数据管理依赖于多方参与者。有效的数据管理的最佳途径是通过团队合作以及研究人员、研究管理部门、信息专家和技术支持人员之间的协作。

4 结语

研究数据管理框架是管理数据资源的组织结构,它清晰地表达了研究数据管理各个层面的内容,以及各层面之间的关系,是机构进行研究数据管理项目的基础,能为机构实施研究数据管理活动提供良好的指导。

需要注意的是,本文谈到研究数据时,没有加以过多的限定,但是在不同的领域,研究数据对于研究人员来讲,意义非比寻常,数据集有着截然不同的构成,了解这点对于参与不同研究领域的数据管理是必要的。

另外机构在设计和实现研究数据管理框架时,需要关注两个基本原则:首先,研究人员需要在研究数据管理发展中始终处于核心位置,了解科研人员的要求,并保持他们的参与,这对于更好地支持研究数据管理以及任何机构活动的长期成功和可持续发展是至关重要的⑨。其次,关注机构内部和外部的服务提供者(商)之间的合作,可以在数据生命周期的每个阶段从其获得适当的支持。

随着研究数据在科研活动中发挥越来越重要的作用,更多的研究数据管理项目被启动,如赫尔大学⑩的历史学数据管理计划项目(History DMP Project),加利福尼亚大学数字图书馆(CDL)的面向Excel的数字内容管理项目(DCXL),英国创作艺术大学的视觉艺术数据服务(VADS)中心的KAPTUR项目。国内已经有相关机构开始关注到研究数据管理上的需求,并开始进行存储管理,如中科院的IR GRID和科学数据存储,但从总体看缺乏系统化、全面的研究和管理行动。各国都在积极探索不同学科领域的研究数据管理的最佳实践,国内的相关机构采取怎样的行动来响应研究数据管理的需求,已经成为当前面临的一个重要实践问题。

注释:

①Structured and Comprehensive Approach to Data Management and the Data Management Book of Knowledge (DMBOK).http://www.slideshare.net/alanmcsweeney/datainformationandknowledgemanagementframeworkandthedatamanagementbookofknowledgedmbok3366885,2012-07-24

②Developing Infrastructure for Research Data Management at the University of Oxford.http://www.ariadne.ac.uk/issue65/wilsonet-al,2012-07-24

③Research Data Management Services:Findings of the Consultation with Service Providers Scoping Digital Repository Services for Research Data Management Executive Summary.http://www.ict.ox.ac.uk/odit/projects/digitalrepository/docs/ConsultationWithOxfordServiceProviders-ExecutiveSummary.pdf,2012-07-24

④Research Data Management Framework:Capability Maturity Guide.http://ands.org.au/guides/dmframework/dmfcapability maturity guide.html,2012-07-24

⑤Creating a Data Management Framework.http://www.ands.org.au/guides/dmframework/datamanagementframework.html,2012-07-24

⑥Malcolm Wolski,Joanna Richardson.A Framework for University Research Data Management.http://www98.griffith.edu.au/ dspace/bitstream/handle/10072/39672/69936_1.pdf? sequence=1,2012-07-24

⑦SMART Data Management Framework.http://smart.uow.edu.au/data-management/index.html,2012-07-24

⑧DRAFT Research Data Management Roadmap.http://www.keele.ac.uk/researchsupport/researchdatamanagement/,2012-07-24

⑨James A.J.Wilson,Luis Martinez-Uribe,Michael A.Fraser & Paul Jeffreys.An Institutional Approach to Developing Research Data Management Infrastructure.The International Journal of Digital Curation,2011(2):2-14

⑩History DMP Project at Hull.http://hydraproject.org/2011/history-dmp-project-at-hull/,2012-07-24

标签:;  ;  ;  ;  

数据管理框架研究_大数据论文
下载Doc文档

猜你喜欢