高校科研数据管理解决方案--以牛津大学为例_数据管理论文

高校研究数据管理解决方案——以牛津大学为例,本文主要内容关键词为:牛津大学论文,数据管理论文,为例论文,解决方案论文,高校论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       研究数据是专指数字化的科学研究数据,即科学研究中通过测算、计量、观察、访谈、调查、实验、建模等方法获得或产生的数据[1]。近年来,随着数字化科研(e-Science)的发展,数据在科学研究中的作用越来越重要。各国政府非常注重研究数据的保存和共享。20世纪90年代,美国政府将“完全与开放”的数据共享政策作为联邦政府在信息时代的一项基本国策。我国在2002年启动了“科学数据共享工程”,中国科学院在“十一五”期间开展“数据应用环境建设与服务项目”,全面推动研究数据的共享和最大化利用。

       理想状态下,既然政府及国家层面已建立了数据管理与共享的数据仓储或数据中心等基础设施,高校则可享用政府及国家的数据管理基础设施,不必再投入巨大的资源开展数据管理。但现实情况是,高校仍在不断探索自身的数据管理解决方案,推动本机构的数据管理与共享,其中的原因主要有:(1)两者管理的数据不同。政府及国家层面的数据保存与共享主要针对国家层面的跨国合作或国际联盟的超大型科研项目(如人类基因组计划)。而在高等院校,通常以一位或几位学者负责的小型科研项目更为多见,高校机构需要侧重对这些研究数据进行有效的管理和利用。(2)并非所有的学科都有其数据仓储或数据中心。对于科研人员的小型分散的数据产出,不一定都能找到供其数据存储的仓储或中心。(3)机构资产管理的需要。作为科研产出的数据与科学文献一样是机构的重要资产。高校有义务提供研究数据的存储、监管、传播与长期保存。(4)科研人员的需求。科研人员在项目伊始即需要考虑数据管理问题,而高校自身的数据管理服务更能契合科研人员的需求,实现项目启动伊始,数据管理服务也随之启动。而国家级或学科领域的数据中心则更注重项目结束后的数据管理与传播服务。

       基于以上因素,高校积极开展研究数据管理活动。国内已有不少研究国外数据管理服务的文献。如马建玲等[2]介绍了麻省理工学院、耶鲁大学、弗吉尼亚大学、明尼苏达大学4所美国高校图书馆的数据管理服务;王婉[3]选取澳大利亚国立大学、莫纳什大学、悉尼大学3所高校图书馆作为样本分析其科研数据管理服务;陈大庆[4]调研30所英国、美国、澳大利亚高校开展的数据管理服务。这些文献提及了国外多所高校的数据管理服务方式与模式,但较少聚焦于某个高校并完整介绍该案例的数据管理服务的全过程。本文详细剖析英国牛津大学的数据管理服务,试图呈现一个高校对于数据管理的整体思考与布局及其解决方案。之所以选择牛津大学,主要是基于其在研究数据管理方面积累了丰富的经验,制定了大学层面的数据管理政策,为科研人员制定数据管理计划提供支持与服务,提供数据管理咨询与培训,建设数据管理的基础设施,形成了特色的整合性数据管理框架。其在开展数据管理服务过程中所遇到的问题与挑战也将可能是国内高校需要面临与思考的,本研究希望能为国内高校开展数据管理服务提供建设性的思路与方案。

       1 牛津大学开展数据管理的背景

       牛津大学的数据管理服务是在一系列内外部因素的推动下展开的。英国科研资助机构的强制性数据政策要求研究人员在提交资助申请时需包含数据管理与共享计划,这就加强了牛津大学数据管理责任的履行。牛津大学在2011~2012年度的科研经费总额为5.378亿英镑,其中4.088亿英镑来源于外部科研资助机构的支持,而惠康基金(Wellcome Trust)、英国研究理事会(Research Council UK,RCUK)及欧盟委员会是牛津大学最主要的科研资助来源[5]。惠康基金在2010年8月发布新的数据政策,英国研究理事会在2011年4月发布了《RUCK数据政策通用原则》,旗下的工程和自然科学研究理事会(Engineering and Physical Sciences Research Council,EPSRC)和科学与技术设施理事会(Science and Technology Facilities Council,STFC)分别在2011年5月和9月发布了数据政策[6]。为获得科研资助,牛津大学着手开展数据管理服务,帮助科研人员制定符合科研资助机构所需求的数据管理计划。

       此外,英国艺术与人文数据服务项目(Arts and Humanities Data Service,AHDS)于2008年停止服务,一定程度上引发英国各高校对国家级数据中心的可持续发展前景的担忧,对牛津大学开始考虑建立本地数据管理与存储的决定产生了一定影响。

       基于以上外部因素,同时考虑到本校研究数据还未得到有效管理与利用的情况下,牛津大学意识到e-Science环境下提供研究数据管理的重要性和必要性,开展了一系列的数据管理项目。

       2 牛津大学的数据管理实践与探索

       牛津大学通过开展一系列项目致力于建设机构的研究数据管理基础设施。这些项目的内容涉及数据管理相关的培训、软件工具、服务规划及政策(见表1)。项目有的针对特定学科领域的数据管理,有的则从更广泛的机构层面研究一般性的数据管理问题,项目参与人员包含研究服务部、IT服务部、计算服务部、博德利图书馆(Bodleian Libraries)以及院系研究人员,这些项目相互关联、逐层推进,最终形成一个整合的数据管理解决方案。

      

       2.1 形成初步的数据管理服务框架

       SDRSRD、EIDCSR、SUDAMIH项目的开展是牛津大学数据管理的初步探索。SDRSRD提出了一个初步的数据管理服务框架,EIDCSR、SUDAMIH则逐步完善框架中的各项要素。

       (1)SDRSRD

       牛津大学从2008年开始即着手考虑研究数据管理基础设施的建设。2008年,IT服务部、研究服务部、计算服务部、数字研究中心及博德利图书馆合作开展“研究数据存储服务”(Scoping Digital Repository Services for Research Data,SDRSRD)[7]项目,旨在了解科研人员对底层数据管理基础设施的需求,联合机构内相关利益群体在牛津大学内建立一个联合的数据存储库。

       项目首先调查了来自牛津大学不同学科的37个科研人员在数据收集、处理与出版等方面的数据管理行为,了解到科研人员最希望获得的数据管理服务主要有:①支持服务。科研人员希望获得涉及数据生命周期全过程管理的咨询与帮助,如支持数据管理计划的制订、提供数据创建的最佳格式及数据安全存储、数据出版等方面的指导与咨询。②基础设施。数据的可持续长期保存是所有学科实现数据管理的共同需求,对于没有专门数据存储库的学科领域,建设数据管理基础设施的需求更加迫切。科研人员希望能有一个安全且友好的解决方案以支持大规模数据的存储及满足不同系统及人员对数据的共享需求。③资金支持。科研人员希望能有一个持续稳定的资金以支持数据管理。

       项目在调研的基础上还召开了一个由46人参与的数据管理工作会议,辅助确定科研人员的数据管理需求。结合调查与工作会议,项目确定牛津大学机构范围内不同服务单位的角色及可以采取的行动,形成一个初步的数据管理和长期保存服务的框架(见表2)。该框架自底向上,依次包括:①商业模式层,即数据管理各方面的费用模型;②政策层,指机构的数据管理政策;③基础设施和工具层,指进行数据管理所需的硬件和软件工具;④支持层,主要是基础设施和支持层之上的各种服务之间的接口层;⑤服务层,针对科研人员的需求或研究过程提供具体的数据管理服务,包括辅助制定数据管理计划等13项服务。

      

       (2)EIDCSR

       由计算服务部发起的“在研究项目中嵌入数据管理服务”(Embedding Institutional Data Curation Services in Research Project,EIDCSR)项目[9]。开始实施与推进“研究数据存储服务”项目所确定的数据管理服务框架中的各项要素,包括探索嵌入研究项目的数据管理服务、制定数据管理政策及研究可持续的成本模式等。EIDCSR以3D心脏项目小组(3D Heart Project)为例,调研项目小组的科研人员的需求,探索对3D图片数据集进行存档与检索的工具及软件。项目以都柏林核心元数据为基础描述3D图片数据集,使用层级式文档服务器(由计算服务部设计的长期文档存储系统)存储图片,层级式文档服务器还同时抓取及记录图片的元数据,并添加至图书馆的数字资产管理系统,进而实现对3D图片的元数据的浏览与检索。这样即形成了利用计算服务部的层级式文档服务器保存数据集,而图书馆的数字资产管理系统则实现元数据的检索与浏览机制,两个系统之间则通过唯一标识符实现互联。该数据管理机制尽管最初源于对3D心脏项目小组所产生的图片数据集的管理,但EIDCSR项目希望推广至其他学科。

       制定牛津大学的数据管理政策框架与实施战略是EIDCSR项目的另一目标。数据管理政策草案由研究服务办公室负责制定,并在后来的DaMaRO项目中得以完善,最终于2012年7月推出[10]。政策涉及研究数据管理的价值与意义、对数据的要求、研究人员的责任、大学的责任、政策的维护机构等。政策的制定对于界定机构的任务及数据管理相关利益者之间的职责与义务,协调各方参与数据管理具有重要作用,同时也为整个机构的数据管理提供了行动框架。

       研究数据管理的成本模式,探索可持续的数据管理运行模式是EIDCSR项目的第三个目标。EIDCSR项目依托JISC的“保证数据管理的安全”(Keeping Research Data Safe,KRDS)项目,研究3D心脏项目在数据创建、本地管理与数据监管方面的成本,并研究牛津大学未来开展安全存储与元数据管理服务的成本[11]。

       EIDCSR项目还在制定数据管理政策的基础上提出建立数据管理服务网站的计划,并于2010年11月正式启动数据管理服务网站。该网站[12]由研究服务部、计算服务部及博德利图书馆合作建设,为研究人员提供数据管理方面的信息,包括科研资助机构对数据管理的要求、本校提供的服务、数据管理计划制定指南、数据管理领域的新闻、工具及培训等。

       (3)SUDAMIH、VIDaaS

       “人文科学数据管理基础设施支持”(Supporting Data Management Infrastructure for the Humanities,SUDAMIH)项目[13],与EIDCSR项目互为补充,旨在了解人文领域科学家数据管理行为与需求,主要有两大目标:一是建立“数据库即服务系统”(Database as a Service,DaaS),使科研人员可以基于网络界面创建与编辑关系型数据库,并以多种格式展现查询结果。二是开发数据管理培训教程,加强科研人员的数据管理意识与行为。尽管项目最初以人文领域为对象展开行动,但其最终目的是希望项目成果能够应用于更广泛的学科领域。

       SUDAMIH项目所研发的DaaS在后续的VIDaaS(Virtual Infrastructure with Database as a Service)[14]项目中其用户界面与功能得以不断完善。DaaS也是牛津大学在线研究数据库服务(Online Research Database Service,ORDS)的底层数据库。ORDS于2013年2月启动,允许用户在线编辑、检索及共享其所创建的关系型数据库。

       2.2 建立两层存储体系

       ADMIRAL和DataFlow项目促成了牛津大学数据管理两层存储体系的建立。两层存储体系指科研人员层面及机构层面。ADMIRAL(A Data Management Infrastructure for Research Activities in the Life Sciences)[15]项目为生命科学科研人员建立两层的数据管理基础设施:一是建立DataStage,满足科研人员在本地的数据管理需求,实现科研过程中数据的随时随地存储(包括数据收集、组织、元数据标注、安全存储及自动备份);二是建设DataBank(2009年开始建立),实现机构范围内的数据长期保存。ADMIRAL的后续工作由英国联合信息系统委员会(JISC)的DataFlow项目[16]继续完成(如改进登录系统、增加SWORD协议等),并推广至整个英国的高等教育机构。

       之所以建立数据管理的两层存储体系主要是考虑如下两个方面因素:(1)满足科研人员对本地数据管理的需求。以往科研人员在科研过程中所产生的研究数据在本地层面都未得到很好的管理,导致数据丢失,他们希望能够基于其日常的研究行为实现研究数据的备份、存储、浏览与访问控制。(2)方便机构的数据管理。为科研人员建立本地的数据管理,可为研究数据提交至机构或学科的数据仓储提供便利,如可简化数据提交至机构仓储过程中的数据选择与自动提交流程。

       ADMIRAL所构建的数据管理两层存储体系的基本思路如图1所示。

      

       图1

      数据管理两层存储体系[17]

       图1中的文件管理系统DataStage实现科研人员本地的数据存储,其提供的功能类似计算机的硬盘,使用一个可共享的区域映射至科研人员的私人存储空间,科研人员只需点击“Save to DataStage”,数据即保存至DataStage,任何文件都可保存且自动备份。DataStage基于开源组件开发,其操作系统基于Ubuntu Linux,文件共享软件采用Samba,网络检索使用ApacheWeb Server,认证登录采用OpenLDAP,为每个研究团队的文件存储所搭建的虚拟机器托管系统采用的是VMWare ESXi4。DataStage作为本地私有的文件存档与共享系统比普通的外部硬盘存储具有如下优势:(1)可每日实现数据备份至学校的其他管理设施与系统;(2)可通过网络浏览器检索数据;(3)方便科研人员与外部合作者实现数据共享。

       在数据提交至DataStage过程中,使用SHUFFL(网络标注工具)作为主要的前端程序以允许用户创建数据集的元数据或注释。SHUFFL提供简单易用的基于网络的数据输入及信息管理环节,其可视化的输入界面类似物理的信息处理卡片,便于用户创建数据集的相关元数据,SHUFFL还可将数据存储为RDF。

       科研人员完成本地数据的存储后,图书馆选择可供机构长期保存的数据集,使用加州数字图书馆的文档封装规范BagIt对数据集进行封装与压缩,利用SWORD协议(数据存储库之间交换信息的协议)将所封装的数据集及其RDF元数据声明提交至DataBank中,实现数据从本地存储过度至机构范围内的长期保存。

       2.3 形成整合性的数据管理框架

       DaMaRO(The Data Management Rollout at Oxford)项目在牛津大学的数据管理探索中具有重要地位与作用。它综合前期各个项目的研究成果,形成一个整合性的数据管理框架与机制(见图2),包括数据管理政策、数据管理培训、数据管理可持续发展规划、数据管理技术架构与服务。该框架与SDRSRD项目所形成的初步框架相比,在层次结构及内容上进行了一定的调整,突出了政策的指导作用及技术的联通作用。

      

       图2 牛津大学数据管理基础设施架构[18]

       图2中,数据管理基础设施的整体架构是:政策处于最顶层,其次是培训及可持续发展。而技术与服务架构处于最底层,支持数据生命周期的管理与服务,包括数据创建—数据存储—数据发现。该数据管理框架与机制的核心是DataFinder,它连接了技术架构中的各个独立模块,因而成为整个技术架构的核心。也正是因为DataFinder的联通性使得整个数据管理基础设施架构具有了将内部与外部的各种系统连接的特点,可以说,整个架构是模块化与联合化的,组件可随时添加、移除或替代。

       DataFinder提供研究数据集注册、发现、定位与获取服务。它整合并收集牛津大学目前多个数据存储库及其他外部来源的元数据,包括DataStage(本地数据文档管理系统)、DataBank(数据存储库)、ViDaaS(科学研究数据库系统)等及其他外部的数据存储系统,如Colwiz(研发合作平台或研究管理网络)。为方便科研人员手工著录元数据,DataFinder参考DataCite的5个强制性核心元数据和欧洲现行研究信息系统的通用研究信息格式(Common European Research Information Format,CERIF),为这些系统确定基本的元数据字段,并提供元数据上传及元数据自动收割平台。DataFinder基于SWORD和OAI-PMH协议从DataStage、Data-Bank、VIDaaS、Colwiz等系统摄取数据集及其元数据,所收集的元数据将被存储及索引,通过一个可检索的平台被发现与获取。DataFinder还为各数据集分配DOI,便于数据的引用,并可使用DataCite2RDF将元数据发布为关联数据,因而DataFinder是一个具有语义的数据集目录。最后,DataFinder还可实现数据集与牛津大学已有的存储研究出版物的机构库(ORA)实现关联。可以说,DataFinder证实了在牛津大学实现内外部系统互操作的可能性。未来,DaMaRO还将继续在政策、培训、可持续性商业模式及技术方面完善所形成的整合性数据管理框架,使其更加整合与灵活以应对不断变化的科研人员的需求。

       3 牛津大学数据管理的经验总结及启示

       牛津大学从2008年开始至今致力于数据管理基础设施的建设,最终整合一系列服务以支撑数据管理全过程。两层存储体系、数据管理服务框架和DataFinder是牛津大学数据管理解决方案的最大亮点及特色。两层存储体系解决了科研人员及机构两个层面的数据管理需求,而数据管理服务框架则整合牛津大学的各项服务,明确了数据管理政策、数据管理培训、数据管理可持续发展规划、数据管理技术架构等要素在数据管理过程中的作用。DataFinder是牛津大学数据管理基础设施的核心组成部分,其从技术层面解决机构内外部系统的连接,实现数据的发现与整合。DataFinder被设计成为一个具有层次性的工具,它既可以作为一个机构的数据发现工具,也可作为一个区域乃至整个国家的数据发现工具。在这些特色化的数据管理解决方案的形成过程中,牛津大学所积累的宝贵经验值得国内高校深思。

       3.1 提供整合性的数据管理服务

       完整而有序的服务代表了一个机构的数据管理水平。牛津大学通过建立数据管理框架规范及指导数据管理的具体实践,从SDRSRD项目初步提出数据管理框架,之后各项目逐步完善框架中的各要素,最终由DaMaRO项目整合牛津大学已有的数据管理工具与服务,形成一个增强型的数据管理框架。该框架以层次结构呈现,顶层的数据管理政策从制度层面保证数据管理各项服务的开展,底层的技术架构则支撑数据管理各项服务的顺利推进。所提供的服务基于科研人员的研究数据管理需求,服务内容真实而全面,覆盖数据管理生命周期。如Oxford DMPonline为科研人员提供数据管理计划的制订工具,ORDS及Datastage提供数据创建、存储与检索方面的服务,DataBank提供机构范围内的数据存储服务,DataFinder提供数据发现与检索服务。

       3.2 注重数据管理的可持续发展

       在资金有限的情况下,保证数据管理基础设施的可持续发展则更显重要。牛津大学在2012年7月成立研究数据管理工作小组(由研究服务部、IT服务部及博德利图书馆组成),探索机构数据管理基础设施建设的可持续性投入的经营模式。从表1可看出,牛津大学形成了两种资金来源:一是由高校自身投入,二是由科研资助机构投入。其中,科研资助机构的基金资助在牛津大学数据管理基础设施的建设中起到了关键性作用。SUDAMIH、EIDCSR、DaMaRO等都是在JISC的资助下展开的一系列项目[19]。JISC第二阶段的“管理研究数据项目”继续投入460万英镑资助英国高等教育机构的研究数据管理基础设施的建设、研究数据管理计划的制订及整合性研究数据管理计划工具的研发。此外,英国高等教育拨款委员会的“大学现代化基金”(Universities Modernisation Fund,UMF)也资助了牛津大学部分数据管理基础设施的建设。

       尽管牛津大学的数据管理基础设施建设资金基本源于科研资助机构,但其也警醒地意识到科研资助机构不会永久持续的支持,探索经济适用的成本模式才是明智之举。为此,牛津大学采用了开源的思路,其数据管理软件及工具基本建立在开源的架构与技术之上,如DataStage、DaaS等轻量级应用都是利用开源技术所开发。牛津大学使用开源技术所开发的软件,不需要过多的后续投入,并以开源许可方式发布,提供给其他机构免费利用。这为机构间的合作创造了条件,便于各机构基于同一应用建立开源社区,共同开发与完善数据管理基础设施,降低开发成本,实现经济可持续发展。此外,牛津大学还通过将数据管理培训嵌入至已有成熟稳定资金支持来源的培训中以节约数据管理培训成本。另外,牛津大学采取分而治之的策略管理成本。其数据管理框架由各个不同组件组成,各组件在科研生命周期中被不同的科研人员所使用,因而各部分的成本应由使用最多且受益最大的部门来承担。最后,考虑到所开发的数据管理工具及服务也是其他研究密集型高校所感兴趣的,牛津大学尝试与商业性公司洽谈,将其工具与服务推广至全国或国际层面,以规模效应降低建设成本[20]。

       3.3 注重了解科研人员的需求

       科研人员的需求及行为是高校提供数据管理服务的驱动力。牛津大学在开展数据管理服务时非常注重对科研人员的数据管理需求及行为的了解。其开展了针对具体项目/学科的调查。如在“研究数据存储服务”项目(SDRSRD)中调查了不同学科的37个科研人员的数据管理需求;在“在研究项目中嵌入数据管理服务”项目(EIDCSR)中通过对3个科研小组成员的调查,了解他们在数据存储、数据可视化及共享的工具、元数据等方面的需求;在开展“人文科学数据管理基础设施支持”项目(SUDAMIH)时调研了32个科研人员,了解其数据管理行为及需求、阻碍数据管理的因素。此外,牛津大学还开展了针对全校各学科的全面性调查。其于2012年11月在全校范围内调查科研人员对研究数据管理行为与态度,并计划未来将需求调研作为常态性服务。这些需求调查对于牛津大学制定数据管理政策、选择数据管理工具的类型、确定数据基础设施建设的投入力度、数据管理培训的侧重点、数据管理服务的内容等都具有重要作用。

       3.4 注重合作

       数据管理是一个需要多个部门相互协作的工作。牛津大学的研究服务部、IT服务部、计算服务部、博德利图书馆及各院系科研人员在数据管理政策、数据管理培训与教育、数据管理服务网站、IT基础设施、数据管理平台建设、数据管理计划制定等各个方面进行了广泛合作。EIDCSR、SUDAMIH、ADMIRAL、DaMaRO等项目的开展都是校内各部门协同的成果。在合作框架指导下,各部门结合自身优势与特点履行其职责。如研究服务部主要负责本校数据管理政策的制定,计算服务部及IT服务部负责开发科研人员层面的数据存储工具ORDS及DataStage,图书馆承担DataBank和DataFinder的建设。良好的校内部门合作弥补了个体能力的不足,增强了高校整体数据管理水平及对科研的支撑能力。

       3.5 注重服务宣传

       牛津大学通过调查了解到很多科研人员并不了解本校正在建设的研究数据管理基础设施,如很多科研人员未听说过DataStage,超过80%的科研人员并未关注本校已经运行了两年的数据管理服务网站,近一半的科研人员不了解本校的集中数据存储服务。这一方面显示出科研人员通常更加关注其所在学科领域的发展,而不太关注其所在高校为他们提供的服务,另一方面,也突显了数据管理服务宣传的重要性及紧迫性。因此,在各种数据管理基础设施建设完成后,高校有关部门应通过院系走访、重点用户访谈、座谈会、培训等多种方式向科研人员进行宣传与推广,并听取反馈意见。宣传与推广应以嵌入或合作的方式介入学科或学院的各项科研活动,以适合科研人员的方式帮助其了解本校的数据管理服务。

       长期以来,高校小型科研项目所产生的研究数据分散在各个科研人员或课题组中,未能得到良好的组织、保存、共享与再利用,这对科研是一个损失。牛津大学以科研人员为中心,基于跨机构合作机制,探索机构范围内的数据管理解决方案,真正发挥研究数据的最大价值。国内高校也应结合本校实际,综合考虑科研人员的需求,采用合适的模式建设数据管理基础设施,加强校级层面研究数据管理的设计与规划。

       收稿日期:2014-09-17

标签:;  ;  ;  ;  ;  

高校科研数据管理解决方案--以牛津大学为例_数据管理论文
下载Doc文档

猜你喜欢