国外数据管理计划服务工具比较研究_数据管理论文

国外数据管理计划服务工具的对比研究,本文主要内容关键词为:数据管理论文,国外论文,计划论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      修回日期:2014-09-22

      中图分类号G350 文献标识码A 文章编号1002-1965(2014)12-0203-04

      DOI 10.3969/j.issn.1002-1965.2014.12.038

      0 引言

      数据管理计划(Data Management Plan,DMP)是概要介绍研究过程及研究项目完成后数据处理方式的正式文件[1]。在科研项目运行前,制定全面系统的数据管理计划会对数据的规范收集、传播与共享、长期保存及增值重用等方面产生重大影响。制定数据管理计划的影响因素大致可以分为两种:外部政策要求和内部科研需要。

      科研数据管理与共享离不开政策上的指导和规范,政策一般来源于政府、基金机构、科研机构、期刊和出版商等[2],其中基金机构的政策往往占主要地位,它在国家政策和科研机构制度的实施过程中起到衔接作用。目前英国、美国、澳大利亚等国家的许多科研基金机构要求项目申请者在提交申请时需附带相应的数据管理计划,以保证科研过程中产生的数据能得到有效管理,科研人员便有了撰写数据管理规划(DMP)的任务需求。

      科研项目中产生的大量数据也需要管理,数据管理计划能够对各项数据管理工作进行指导说明,但是制定一份高质量的数据管理计划对于刚接触数据管理工作的科研人员来说不太容易,基于以上两种因素,英、美两国的科研人员通过分析项目各阶段的数据管理活动,在原有撰写数据管理计划的基础上开发了两种在线生成数据管理计划的辅助工具DMPOnline和DMPTool,使得制定数据管理计划的过程更加快捷、规范。本文对现有两种工具的特点进行分析,为我国开发类似工具提供参考。

      1 数据管理计划

      早在2004年,经济合作与发展组织成员国的科技部长签署了一个宣言,提倡所有获公共资金支持得到的科学研究数据都应该能被公众获取,并于2007年又发表了《公共资助科学数据开放获取的原则和指南》。随后,美国、英国等一些重要基金机构也提出了数据开放政策指南[3],如美国国家科学基金会、美国国立卫生研究院、美国国家航空航天局、英国研究理事会等均要求受资助的项目提交科学研究的数据管理计划。

      由于基金机构政策和科研机构制度的不同,再加上学科领域背景的差异,会导致数据管理计划在形式和内容上发生一些变化,但计划的实质是不会变的,都是关于数据采集方式与数据类型、数据质量控制与元数据标准、数据安全存储与备份、数据共享方式与数据产权、数据长期保存与重用等。

      数据管理计划是一份集中记录所有数据管理活动的文件,它能够提高数据管理工作的可见度[4]。数据管理计划可以帮助科研人员尽早对数据管理工作进行规划,明确数据管理的内容和各方人员的职责。在不考虑学科背景和基金机构政策差异的条件下,一份完整的数据管理计划应包括以下内容[5]:a.行政数据:DMP版本信息;基金机构信息;项目信息;研究人员信息;基金机构及科研机构内部关于数据管理、共享、安全的其他特殊要求。b.数据收集:数据来源及形式;收集数据的方式。c.说明文档和元数据:解释数据含义的相关文档和元数据。d.伦理与法律许可:怎样处理涉及的道德、伦理问题;怎样解决版权和知识产权问题。e.存储和备份:存储和备份数据的方式;设置数据访问和安全问题。f.选择与保存:哪些数据需要保存、共享和限制;对数据的长期保存计划。g.数据共享:怎样共享数据;共享数据的权限设置。h.责任和资源:安排负责数据管理的人员;实施计划需要的软、硬件资源。

      总的来讲,数据管理计划是数据管理工作的纲领性文件,对于每一项科学研究都是不可或缺的,它能够为研究中的数据管理工作提供指导,使各项数据管理工作都遵循良好的规范,制定一份高质量的数据管理计划是提高研究工作效率的前提。

      2 两种在线生成数据管理计划的工具

      2007年,Liz Lyon博士在报告中指出[6]:“英国公共基金机构的每一项申请资助的研究项目都应该在申请时提交一份数据管理计划,用于同行评审”。在2009年,DCC(Digital Curation Centre)组织分析了英国大部分基金机构对数据管理的要求[7],并且针对这些要求给出了详细解析,接着DCC根据这些内容整理出一个通用而且较全面的数据管理计划要求清单,并且还发布在网站上进行公共咨询,根据反馈意见不断完善清单,目前已经更新到4.4版本[8]。但由于这份数据管理计划要求清单过于冗长,尤其对刚开始接触数据管理工作的科研人员来说很难理解,为了解决这一问题,DCC推出一个在线生成数据管理计划的工具DMPOnline。2010年12月份,美国的一些科研单位也为了满足基金机构对数据管理计划的需要,集合图书馆员、IT工程师和科研人员,与DMPOnline小组进行合作,共同开发了DMPTool工具[9]。

      使用DMPOnline和DMPTool工具时,用户只需要通过回答一些问题就可以完成数据管理计划的制订,这些问题一般是根据基金机构的数据管理要求整理而来,会涉及项目申请、项目实施中,项目结束三个阶段的数据管理活动。

      国外的一些高校图书馆和数据存储中心同样也辅助研究人员制定相关的数据管理计划,并提供统一的数据管理计划模板和数据管理工具。比如,英国的爱丁堡大学图书馆建立了数据仓库,通过用户指南或者在线指导,帮助用户管理、保存和共享数据;Dryad是国际数据存储中心,它向研究人员提供生物学和生态学领域的数据管理、存储服务。这些机构虽然都向研究人员提供数据管理服务,并辅助其制定相关的数据管理计划,但针对在线生成数据管理计划的工具,通过文献阅读和网络搜索,仅发现DMPOnline和DMPTool,目前使用这两种工具的用户范围很广,具有一定的代表意义,因此详细介绍两种工具的特点。

      2.1 DMPOnline 格拉斯哥大学的人文技术信息研究所(Humanities Advanced Technology and Information Institute)负责开发DMPOnline工具。这个工具是以DCC数据管理生命周期模型为基础框架[10],采用Ruby语言进行开发,通过Apache网络服务运行在UbuntuGNU/Linux服务器上,使用MySQL数据库存储数据,开发过程中所使用的技术都是免费开源的[11]。

      2010年4月,在伦敦召开的JISC(Joint Information Systems Committee)会议上发布了DMPOnline工具。科研人员通过使用该工具可以很方便地创建一份同时满足基金机构和自身科研机构需要的数据管理计划,但必须先邮箱注册成为用户才能使用DMPOnline。

      当成为DMPOnline的用户后,就可以免费创建各种数据管理计划。如果用户所处的基金机构和科研机构对数据管理没有明确要求时,一般可以选择DCC提供的通用数据管理计划版本,然后在此基础上根据自身需要修改计划。如果用户所处的基金机构和科研机构对数据管理有要求,就需要选择对应基金机构和科研机构(基金机构信息如表1,共涉及166所科研机构)的模板,另外还可以选择是否参考DCC广泛收集而来的指导建议。最后通过回答问题来创建数据管理计划,这些问题都是经过DCC整理,与基金机构、科研机构的数据管理要求等价对应。

      

      使用DMPOnline创建的数据管理计划分为四个部分:总体描述计划、制订计划细节、设置计划共享权限、导出计划。制订计划细节是最主要的部分,用户根据基金机构、科研机构的数据管理要求和DCC提供的建议填写计划内容。下面对以上四部分内容进行详细解释,如表2。

      总的来说,DMPOnline工具能够帮助数据管理人员创建、维护和导出数据管理计划,辅助数据管理人员定义数据管理活动中的角色和职责,识别整个数据管理生命周期中潜在的风险。目前DMPOnline更新到第四个版本,DCC组织也在大力推广DMPOnline的使用,促进其与科研机构内部系统的整合,从而使数据管理计划得到切实执行,最终有效开展数据管理工作。

      

      

      2.2 DMPTool DMPTool是加利福尼亚大学数字图书馆监管中心开设的一项服务工具。2010年12月,国际数字管理会议在芝加哥召开,美国的一些科研机构学习DMPOnline小组的经验,开始研发符合自身特色的工具。这个开发项目起初由DataONE实践小组负责测试,并在每年一度的生态社会会议上提供给7000名科研人员访问接口,进一步的测试和发布都是由弗吉尼亚大学图书馆的用户体验小组领导多家机构进行。2011年8月发布DMPTool的测试版本,正式版本于同年11月在巴尔地摩的秋季数字图书馆联盟论坛上发布,DMPTool的开发受到多个组织机构的支持,分工明确,部分机构负责内容的整理和工作流程的安排,部分机构负责编码。2014年5月发布了DMPTool的第二个版本,目前有115所科研机构和超过9100位个人用户正在使用该工具。

      DMPTool的使用同样需要先进行邮箱注册,后续使用也是免费。用户在登录DMPTool之前,需要先选择所属科研机构,接着就是创建数据管理计划,用户可以选择原有已创建的计划作为参考模板,也可以创建新计划,在创建新计划时,需要选择对应的基金机构(基金机构如表3),也就是确定对应基金机构的数据管理要求模板。最后就是用户根据提示回答问题,在完成计划后,还可以发送给DMPConsult小组,由他们检查并补充一些修改建议。

      使用DMPTool创建的数据管理计划分为三个部分:计划概述、计划细节、计划预览,如表4。在填写计划细节时,也会有相关建议,这些建议都是根据对应基金机构的数据管理要求整理而来。

      

      2.3 两种工具的综合分析 英国开发了DMPOnline,美国在前者的基础上开发了DMPTool,两种工具都是为了简化数据管理计划的制订过程,但在开发路线、服务方式、需求建议来源三个方面有着一些异同点,如表5。

      

      3 总结与思考

      本文通过介绍数据管理计划以及对比分析两种在线生成数据管理计划的工具,一方面可以加深国内科研活动中各个利益相关者对数据管理计划的理解,提高国内科研机构管理与共享科学数据的意识,另一方面也可以促进国内科研资助机构相关政策的建立和完善。

      DMPOnline和DMPTool的出现使得计划参与者不必成为数据管理方面的专家就可以制定较完善的数据管理计划,对这两种工具的推广可以帮助基金机构和科研机构发展有效的数据共享实践,优点体现在两个层次:在宏观方面,满足了基金机构或者政府机构的政策要求,提高了研究团体的科学数据共享意识;在微观方面,帮助科研团体制定了一个有效的数据管理计划,满足自身的数据管理工作需要。当这两种工具的功能不断被完善,最终是可以和科研机构的内部系统进行整合,共同促进科学数据资源的共享。

      我国的科研资助机构也发布了一些数据管理与共享方面的类似政策,例如,2003年我国发布了《国家科技计划项目科学数据汇交暂行办法(草案)》,要求国家科技计划项目在项目申报时应当附带呈送科学数据汇交计划等材料,但执行情况并不理想,甚至有些国家基金项目申请就没有提交科学数据汇交计划的规定[12,13],因此我国科研基金资助机构还需制定更完善的数据管理与共享政策。2014年5月19号,国家自然科学基金委员会和中国科学院分别发布了关于受资助项目科研论文实行开放获取的政策声明,对推动科学数据共享产生了积极影响。

      但是,这些政策没有要求在科研项目或科技计划申请阶段提交数据管理计划,导致了我国大部分科研人员缺乏对科学数据管理的意识,科研项目中产生的大量数据便得不到有效管理、保存、共享,科学数据资源的价值就无法得到充分发挥,不利于科研成果的继承和创新,降低了科研效率。我国科研资助机构有必要学习国外优秀经验,在项目申请阶段明确要求申请者必须提交相应的数据管理计划,在项目中期和结束时对计划实施情况进行监督、考核,并给出明确的奖惩措施,只有这样,才能有效推动科学数据管理与共享工作的开展。我国也应当根据国内科研活动组织和管理的特点,开发配套的数据管理规划工具,帮助科研机构及科研人员制定数据管理计划。

标签:;  ;  ;  ;  

国外数据管理计划服务工具比较研究_数据管理论文
下载Doc文档

猜你喜欢