美国和美国制定数据管理计划的政策、内容和工具_大数据论文

美国和美国制定数据管理计划的政策、内容和工具_大数据论文

英美两国制定数据管理计划的政策、内容与工具,本文主要内容关键词为:数据管理论文,两国论文,英美论文,政策论文,计划论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       中图分类号:G203 文献标识码:A

       DOI:10.11968/tsygb.1003-6938.2015070

       自2001年的“布达佩斯开放存取计划”以来,科研成果的开放存取运动发展势头迅猛。OECD(经济合作与发展组织)先后在2004年、2006年发布了《开放存取公共资助研究数据的宣言》和《开放存取公共资助研究数据的原则和指南》。这两份文件进一步促使通过公共资金资助的科研产生的研究数据公开获取以及研究数据管理事业的快速发展。

       在当前E-Science科研环境下,科研越来越趋向于基于大规模的数据驱动,数字化的研究数据已经成为科研的基础信息设施,并成为证实或驳斥学术成果的最有力的客观证据。科学研究数据的长期保存与共享具有重大的科学价值、经济价值和社会价值,已经成为当前科技创新能力的重要基础。基金组织和研究机构普遍意识到,要充分发挥研究成果的价值和知识潜力,只有通过广泛传播和开放存取,并促进新型研究范式的产生。

       随着数据密集型科研的发展,研究数据的创建、获取、处理分析、重用以及长期保存对科学研究具有越来越重要的意义。良好的研究数据管理能确保数据有效的共享、验证和重用,提高科学研究的有效产出。随着人们对研究数据的共享与长期保存重要性认识的不断提高,制定研究数据管理计划已经逐渐成为科研过程不可或缺的重要组成部分。

       1 数据管理计划的内涵与意义

       数据管理计划(Data Management Plan,DMP)是一份正式文档,概括描述了研究者在科研过程中以及结束后对整个研究数据生命周期的管理过程[1]。DMP对研究数据的产生、管理到长期保存都进行清晰的描述,包括:数据概况、数据组织、元数据方案、数据保存、数据使用以及伦理与法律相关事项等说明。

       DMP是一份各参与方认可、可执行、集中概括了所有数据管理活动有关事项的文档,提高了数据管理的透明度。项目负责人(Principal Investigator,PI)在基金申请前期对数据管理的工作任务和各方职责进行确定,以确保数据管理的参与人员能依据DMP进行有效的沟通和合作,保证整个管理团队遵循统一的数据管理流程和规范,促进工作的一致性、规范化和高效率。

       DMP的制定确保了研究数据的长期保存和共享,从以下几个方面促进了科研的进步与发展[2]:①具有数据引证和以数据分析为基础的研究成果有更强的可信度和影响力;②为研究成果提供以数据为基础的证明;③符合基金管理机构的数据管理政策,包括版权遵守和道德准则的规范约束;④确保研究数据的长期保存和重复利用;⑤便于数据的共享,推动跨学科研究和基于已有数据的创新性研究。

       2 英美两国主要基金会的DMP需求概况

       英国研究理事会(Research Councils UK,RCUK)作为英国9家主要基金管理机构的战略合作伙伴,所制定的数据管理政策共同原则,为各个基金会的数据政策制定提供了总体框架[3]。RCUK的数据管理共同原则要求在充分尊重数据创建者知识产权和智力劳动的前提下,从制度上保证研究数据的合理合法开放存取和长期保存利用,以提高公共研究基金的使用效益。

       2005年以来,英国主要的基金会都已经发布了主张数据管理与共享的数据政策。Sarah Jones在2009年的报告详细解读了英国各基金会对于出版物和研究数据的政策规定和技术支持等方面的情况[4]。英国数字监护中心(Digital Curation Centre,DCC)以网页的形式将该报告的主要成果进行展示,并依据数据政策变化随时更新[5]。从DCC收集的信息来看,英国的主要基金会都已经要求基金申请附带提交DMP[6]。Sarah Jones在2012年对各基金会的DMP要求内容进行了最新汇总和简要概括[7]。基金会要求DMP对研究数据的收集、产生、管理、分享和保存进行概括说明。DMP用来证明研究者对数据整个生命周期的管理能力,从而满足资助者的数据政策。杨淑娟与陈家翠对英国的基金会数据政策和DMP要求进行了总体概括和详细说明[8]。

       自2011年1月开始,美国国家自然科学基金委员会(National Science Foundation,NSF)要求基金申请书必须附带DMP,以说明将怎样遵循NSF研究成果传播和共享方针。主要包括研究过程将产生的资源和数据类型、所采用的数据格式和内容标准、获取和共享方针(即隐私政策、保密性、安全性、知识产权及其他权限要求的相关规定)、衍生产品的重用和再传播政策和规定、研究数据和成果存档及长期保存计划等内容[9]。2013年初,奥巴马政府的科技政策办公室要求联邦政府资助的基金管理机构,必须制定研究数据的管理政策,以确保数据的长期保存与利用[10]。此后,美国的国立卫生研究院、疾控与预防中心、能源部、国防部、农业部和太空总署等主要科研资助机构都在项目申请指南中明确规定基金申请者必须提交DMP[11]。加州大学数据监护中心(University of California Curation Center,UC3)的DMPTool网站上收集了美国主要基金会的DMP内容要求的模板文档,以供基金申请人参考[12]。

       3 数据管理计划的主要内容

       综合英国各基金会的要求和实践经验,英国数字监护中心DCC从2009年开始发布DMP的内容建议清单,目前公布的是2013年的第四版,列举了DMP应包含的8部分主要内容[13]。美国政治与社会研究校际联盟(ICPSR)作为全球规模最大的社会科学研究联盟机构,比较了包括NSF、ANU、DCC和MIT等几个重要研究机构的DMP建议内容。提出了撰写DMP的内容框架及包含的核心元素,具有很高的参考价值[14-15]。基于以上两个重要的DMP内容框架,本章对部分核心内容进行说明和分析。

       3.1 数据类型与格式

       DMP需要对数据进行总体描述,包括预计产生的内容、数量、类型等,以便评审人了解数据的基本特征并评估可能发生的信息暴露风险。DMP应该简要描述采集数据的标准、方法和格式。数据类型一般包括文本、图像、音视频等通用的文件类型或特定学科的专用数据类型。从利于数据长期保存的角度要求:①使用非专利的、开放性的标准格式,以利于在不同的平台和应用程序间进行互操作;②使用非加密的、未压缩的文件格式;③使用符合特定学科领域标准的数据格式,便于学术交流[16-17]。DMP还应该陈述与研究课题相关的现有公开数据集的调查概况,不能满足研究需求的原因,以及新旧数据集之间的差异及可能的关联。

       3.2 元数据与文档记录

       元数据被称为“关于数据的数据”,是用于数据重复利用和分析的重要通讯形式,所以元数据必须完整、准确,提供足够的必要信息。元数据包括描述性元数据、结构性元数据、技术性元数据等类型,既有人工记录的元数据,也有机器自动生成的元数据。元数据的标准选用和方案制定非常关键,直接决定了研究数据的可利用程度,并帮助用户了解数据的产生以及收集过程。为帮助研究者选择元数据标准,DCC收集了包括生物学、地球科学、物理、社科与人文以及通用型的元数据标准、扩展标准、用例和软件工具[18]。Jenn Riley将105种常用的元数据标准,从资源类型、应用领域、功能和用途四个维度,以可视化彩图的形式进行重要性评估,帮助研究人员进行元数据标准的选择和比较[19]。

       文档记录(Documentation)是数据管理中一项重要的辅助工作,对数据进行清晰、详细的描述以及注释,其目的是使数据易于使用和分享,可以被其他用户理解和解释[20]。文档记录的内容一般包括:数据报告、用户指南、实验室手册、操作流程等相关文档;还有数据集结构的文件说明、数据收集的软件工具、方法与过程记录等[21]。高效率管理数据,需要对数据文件进行科学的组织,主要包括:文件结构的规划、文件命名规则制定以及版本控制。Katherine分析了文件组织的层级结构方法和标签式方法的利与弊,建议可取长补短,采用混合式的组织方法,制定文件命名系统,并提出文件命名的最佳实践经验和规范并给出了具体操作实例[22]。

       3.3 短期的数据存储与安全

       依据前期确定的数据管理生命周期各阶段负责人及职责内容,利用Wiki等协同工作软件与版本控制系统,控制数据质量并协调、同步工作流程及进度,实施可靠的数据管理。研究过程中产生的临时数据,一般存放在本地的存储器,根据数据规模和存储要求的不同,可存放在个人PC、实验室服务器、图书馆或者IT部门建立的存储服务系统等不同地点。

       数字化数据有丢失和损坏的风险,DMP应详细说明数据备份和恢复方案。数据备份策略包括:内容选择、介质、地点、方法、频率、备份保存的时长以及对备份数据的正确性验证等[23]。应该至少在3个不同的地理位置进行数据备份,主备份通常驻留在工作PC;第二份拷贝应该在外接的移动硬盘或者家用计算机上;第三份备份可选择本地的数据存储系统或者在线的云存储系统。DMP还应该介绍数据的保护措施,包括密码机制、防病毒软件和防火墙设施、用户使用权限设置等。数据安全还包括对敏感性数据的安全存储方法、加密传输与使用,加密和解密软件的使用等。

       3.4 数据长期保存

       有研究表明,通过仓储系统分享数据比通过期刊等方式明显具有传播的广泛性,研究数据的分享能够显著提升科研成果的影响力并促进科技创新[24]。研究数据的长期保存与共享是DMP中的关键性内容,基金申请人应对此作出明确和具有说服力的证据来表明,研究结果数据是可长期存取及利用的。因此,选择何种数据长期保存的基础设施,应提出令人信服的观点和事实。是选择安全性更高的本地数据仓储系统还是选择开放性更强的第三方学科数据仓储?像ICPSR这种在社会科学领域具有高知名度和超大规模用户的数据仓储系统,不仅能够显著增加数据集的显示度,而且在数据的规范程度和安全性上都有可靠的保障。目前全球最有影响力的两个研究数据仓储目录及检索系统Databib和re3data.org宣布将在2015年完成合并[25]。这两个规模最大的索引系统收集了囊括各个学科的1000余个数据仓储系统,为研究者快速发现、存取和利用数据集提供了重要的参考功能。

       3.5 伦理道德和版权事项

       出于学术成果保护或者商业利益考虑,研究数据可能不会在项目完成后就立即公开。基金会通常要求在DMP中承诺尽快公开数据或者出版数据文档的时间表。DMP必须对数据封闭期和限制使用规则进行充分的说明。在数据利用的伦理方面,所有涉及人的数据或资料研究都需要遵守道德规范和权益的保护。为保护调查对象的隐私,应该将原始数据进行匿名化处理并签署关于数据使用与共享的“知情同意协议”(informed consent)[26]。UKDS(UK Data Service)在数据匿名化的操作指南里对身份保密、定量数据、定性数据、地理信息、声像文件处理给出了非常实用的建议[27]。

       在撰写DMP的初期,就应该对数据的所有权进行明确的定义和区分,避免后续使用过程中可能产生的纠纷。通常由数据生产者、项目负责人PI以及研究人员所属机构共同享有数据的版权和知识产权。在数据长期保存阶段,PI可授权仓储系统享有数据存储、转换和传播的权利。研究过程中如果使用第三方数据或者利用专利设备产生的数据,需要遵守相关的数据保存和分享权利的限制性规则,并进行简要说明。

       3.6 数据管理成本规划

       为了帮助研究人员更好地规划与测算数据管理成本,UKDS制定了数据管理活动成本核算的内容清单[28]。这个清单的部分内容可包含在DMP中,帮助DMP制定者更好的填写“成本”(Costs)部分的内容。这个清单按照研究数据管理的生命周期,详细地罗列了各个管理步骤可能发生的成本,包括人员与技能准备、时间消耗、软件工具、硬件基础设施、仪器设备、专业知识需求、支持与培训以及可能需要产生的外包服务(例如数据的存储与备份、格式化处理等)等费用。

       4 撰写数据管理计划的主要工具

       英国的DMPonline和美国的DMPTool是当前主要的在线生成DMP的工具,用户范围很广,具有典型的代表意义,因此通过介绍这两种工具,可以了解DMP撰写工具的发展状况。

       4.1 DMPonline

       英国数字监护中心DCC与基金会及高校合作,2010年初推出了在线DMP创建工具——DMPonline[29]。DMPonline内置了英国基金会和部分大学的DMP内容需求模版文档,用户可按照其提供的模板及流程在线创建、编辑、分享、输出或者删除DMP文档。DMPonline在每个填写流程都提供了详细的指导信息及链接,帮助用户填写和完善内容。用户可以利用DMPonline的分享功能,授权其他用户查阅和编辑DMP文档,并将最后完成的内容以PDF、DOCX、XML、CSV等格式输出。

       Martin Donnelly等人介绍了DMPonline的起因及早期发展的情况[30]。2009年,DCC的Jones通过研究英国各基金会的数据政策发现,项目申请书必须附带DMP已经成为普遍要求。DMPonline项目组以DCC的数据监护生命周期模型为框架,在分析和综合了多个基金会的DMP内容要求之后,形成了撰写DMP内容的建议清单。从长期发展的角度考虑,DMPonline的开发完全使用开源软件,包括开发语言Ruby on Rails、Apache Web server、MySQL数据库软件和Ubuntu操作系统。

       项目组在2012年秋季,以爱丁堡大学的用户为研究对象,采用软件使用分析、调查与意见反馈、焦点小组讨论、用户访谈、启发式评估等方法,对软件进行评估和可用性测试[31]。软件的可用性测试重点评估从3.0版本升级到4.0(beta)版本以后所带来的积极变化和影响。可用性测试证明,在重新修订了DMPonline的数据模型、改进了填写流程和重新设计了用户界面之后,4.0版本相比前一版本,具有明显的改进效果。DCC从一开始就认识到开放性和用户群体支持的重要性,将软件源代码放在GitHub上,鼓励更多人下载和进行功能开发。DCC期望未来DMPonline能够增加更多的社交元素,并通过开放接口与更多的研究信息管理系统集成。

       4.2 DMPTool

       2011年年初,受英国DMPonline的启发,由美国加州大学数据监护中心(UC3)牵头,联合8家著名的科研机构(其中也包括DCC)作为发起人,共同开发了DMP在线撰写工具DMPTool[32]。自2011年10月发布第一版以来,DMPTool获得了科研机构和图情领域的广泛关注,并赢得了2011年的美国国会图书馆十佳“数字保存进步奖”[33]。截止到2014年12月,超过800家机构的9000余名用户使用了DMPTool。

       在斯隆基金会的支持下,2014年发布的DMPTool第二版采用开源软件框架,依靠用户社区支持,并以充分满足研究者、图书馆、基金会和院校等各方面的利益为宗旨[34]。通过新设计的管理界面,学院能够提供个性化的帮助信息、资源,以及针对特定学科的DMP模版文档,DMPTool创建了一个协同式的工作环境,允许多人对同一份DMP进行编辑、讨论和定稿。用户可以将完成的DMP分享给其他人进行评阅,听取专家或者数据馆员的意见,以完善DMP的内容。

       DMPTool的主要目标包括:促进数据管理、分享与长期保存的基础设施的建设,让更多的高校开始利用DMPTool;努力培育并繁荣DMPTool用户及开发者社区,保持DMPTool项目的透明度并促进社区的参与度;加强与各方机构的合作,进一步增加DMP模版文档并整合各级服务资源;尽可能提供数据全生命周期的管理服务。

       4.3 DMP撰写工具的未来发展

       对于这两种当前最主要的DMP在线撰写工具,国内外都有研究者进行介绍,并从不同角度进行对比、讨论。王凯等人对DMPonline和DMPTool进行了介绍,并从开发路线、服务方式和需求建议来源等方面进行了对比分析[35]。Andrew与Martin从使用案例、组织架构、文化特征、发展进程等方面对DMPonline和DMPTool进行了分析和比较[36]。DMPonline作为一项国家层面的服务,主要由DCC和爱丁堡大学运营管理,服务于英国整个高等教育事业。DMPTool项目更开放,积极的欢迎各类型研究机构参与到项目建设,并以充分满足各基金会的DMP内容要求为首要考虑事项。

       两个项目的管理者都认识到未来的发展要注重可持续发展的模式,寻求更多的合作伙伴,努力繁荣用户与开发者社区,开发新的功能和更开放的系统接口。尽管两个工具的发展路径有所差异,但共同目标和愿景都是发展成为一个集成式(integrative)的DMP撰写工具,通过保持与基金管理机构和政策制定者的联系和沟通,促进数据管理的最佳实践,持续培养数据分享的文化并整合各学科、各类型基金会、各层次高校及科研机构的资源,乃至发展成为国际型的数据管理工具。

       5 思考与建议

       通过介绍制定DMP的内容与工具,一方面可加深国内科研活动中各相关方对DMP的理解,对我国研究数据长期保存与共享的发展产生积极影响;另一方面可为促进国内高校图书馆研究并开展数据管理服务提供借鉴。

       5.1 DMP是一份动态的指导性文档

       一份完善的DMP既充分满足资金资助机构要求,同时兼具合理性和可执行性。DMP应简洁明了但内容完整,能完全证明基金申请人充分理解该领域数据的研究现状。DMP中应该明确指定数据管理流程不同阶段的负责人和职责内容。随着项目研究的深入,DMP的内容是可以被修订的,以符合数据管理与分享的实际需求,但总体上应保持原先的框架和内容。在数据长期保存与分享等关键问题上,需要兑现原先的承诺。

       5.2 图书馆主动提供撰写DMP的咨询服务

       为了制定可执行的DMP,研究者对研究过程中所涉及的数据环境总体上有比较清晰的认识,其中包括专门的学科知识、技术现状、领域软件应用以及获取和分析数据的方法等。但佐治亚理工大学的一项研究表明,尽管研究人员对数据管理表现出了浓厚的兴趣,但仍有接近一半(47%)的人没有为数据管理制订计划,因为他们缺乏足够的相关知识和必要的指导[37]。图书馆长期以来担负着学术资源管理与服务的重任,面对数据资源管理这个新生事物,有着天然的技术优势和舍我其谁的使命感。因此,图书馆应该发挥传统的学科优势,迅速掌握数据管理相关技能,主动提供撰写DMP的咨询服务,帮助科研人员了解制定DMP的重要性与促进科研发展的必要性。

       5.3 以DMP为突破口,逐步推出多种数据服务

       在英美等发达国家,近几年来已经有不少高水平大学图书馆提供研究数据管理服务,高校的IT部门也建立了数据仓储系统并提供相应的支持工作[38-39]。目前已经开展的数据管理服务类型主要包括:DMP撰写的咨询与指导、数据素养的技能培训、研究数据搜索与获取、元数据咨询与数据处理、数据存储服务等。休斯敦大学的一份调查发现:帮助研究人员撰写DMP、申请基金项目以及研究数据的搜索与获取是研究者最需要的数据服务类型[40]。国内高校图书馆应从培养科研人员的数据素养为出发点,以DMP为突破口,提供研究数据管理的咨询服务与技能培训。在完善DMP服务的基础上,逐步推出其他数据管理服务。从已有经验来看,研究数据管理服务应在学校高层领导的统一协调下,由图书馆牵头,联合学院、实验室、科研部门以及IT服务部门,共同推进实施才能取得良好效果。

       收稿日期:2015-03-25

标签:;  ;  ;  ;  ;  ;  ;  ;  

美国和美国制定数据管理计划的政策、内容和工具_大数据论文
下载Doc文档

猜你喜欢