生命周期视角下的科学数据监管工具研究及启示,本文主要内容关键词为:视角论文,生命周期论文,启示论文,科学论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 在这个信息高速发展的时代,计算机和网络技术在科学研究中的地位越来越重要,网络环境改变了科研人员相互交流的方式,科研信息化(e-science)已成为科研人员的主要科研环境[1]。在这个科研信息化的环境中,随着大量科学数据的产生,带来的问题不仅仅是缺乏关于收集、存储、管理以及共享科学数据的工具和软件,而且对科研人员的数据监管能力也提出了相应的挑战,如何高效监管和利用这些科学数据成为当前的研究热点。文章阐述了科学数据监管的内涵以及科学数据生命周期划分的大致阶段,重点调研了基于此阶段的科学数据监管工具,旨在引发和推动国内图书馆界尽快开展相应的研究和实践,国内图书馆必须抓住契机,选择运用合适的科学数据监管工具,充分发挥图书馆在科学数据服务方面的优势,进一步提升服务能力。 2 科学数据监管的内涵 科学数据监管的实质是对科学活动过程中产生的科学数据进行管理,实现数据的收集、管理、存储以及再利用等,最大限度地发挥科学数据的价值。目前关于科学数据监管的内涵,国内外都有很多说法。崔宇红指出,科学领域中的数据管理是对馆藏和数据库中的科学数据进行选择、验证、注释、组织、存储和长期保存的一系列活动和方法[2]。而英国联合信息系统委员会(Joint Information Systems Committee,JISC)的界定是:“为确保数据当前使用之目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动”[3]。本文暂且选取英国联合信息系统委员会的定义,认为数据监管对科学数据的管理是从数据产生就开始对其开展数据监管工作,并且数据监管工作贯穿科学数据的整个生命周期过程中。 3 科学数据的生命周期 随着科学数据监管的发展,基于生命周期的科学数据监管也开始进入研究人员的视野,JimGray指出数据密集型科学研究的完整生命周期包括数据获取、管理、分析和可视化四个过程[2]。针对科学数据监管的生命周期,国外学者有不同的看法。英国数据监护中心将科学数据监管的生命周期分成四个阶段:①描述信息内容,并且把它表示出来;②建立相关的存储科学数据计划;③观察和参与科研活动,参与工具和可用软件的开发;④数据监护和保存[4]。英国Data Archive项目把数据生命周期分成6个阶段:①数据创建:包括设计研究计划、计划数据管理、收集数据、获取和创造元数据等;②数据处理阶段:包括数据输入,数据翻译,数据检验以及数据的管理和存储等;③分析数据:包括解释数据和导出数据等;④保存数据:包括检查和储存数据,创建元数据和相应文档等;⑤提供数据的访问:包括发布、共享数据,对数据进行访问控制,建立版权等;⑥重用数据:包括紧跟研究成果,对于研究结果的审查等[5]。对比借鉴国外学者的不同观点,本文将科学数据监管生命周期分为四个阶段:①计划阶段;②收集、管理阶段;③存储、分析阶段;④共享、发布以及出版利用阶段。 科研活动过程包括科研活动初期、科研活动中期和科研活动后期。数据监管的生命周期源于科学研究过程的生命周期[6]。因此,本文以科研活动过程为依据,对科学数据生命周期进行划分,包括:①科研活动初期:计划阶段;②科研活动中期:收集、管理阶段,存储、分析阶段;③科研活动后期:共享、发布以及出版利用阶段。针对生命周期不同阶段的情形,进行科学数据监管工具研究,希望为我国高校图书馆的科学数据监管提供相应借鉴。 4 生命周期视角下的科学数据监管工具研究 目前有关国外科学数据监管工具的研究,大多会考虑科学数据的生命周期,在生命周期的不同阶段采用相应的科学数据监管工具。根据这一特点,本文从数据生命周期的角度出发,调研分析国外的数据监管工具,通过对这些监管工具的分析,促进我国高校图书馆关于开展科学数据监管的实践。 4.1 国外基于生命周期的科学数据监管工具的调研分析 4.1.1 辅助科学数据监管的智能研究框架(SRF) 智能研究框架(Smart Research Framework,SRF)[7]提供的三个工具在科学数据生命周期的监管中发挥了重要的作用,主要包含科学数据的创建、存储和发布等功能。作为英国数据监管中心项目之一的智能研究框架,是一种基于云计算的用于实验室辅助科学数据管理研究的协作系统,它通过将南安普顿大学的电子实验室记事本系统(Electronic Lab Notebook,ELN)部署到共享的虚拟云平台,为科学数据监管提供所需工具和服务。基于南安普顿大学开发的三个网络系统LabTrove,Blog3和LabBroker,该项目在科学数据生命周期中,实现科学数据的创建、存储以及研究成果的再利用,其中LabTrove涉及了化学、物理和工程等领域。Blog3利用了其他数据监管项目,提供一种实验环境下的集成软件和系统服务。在科学数据生命周期中,通过科学数据的集成服务,提供科学数据的存储、出版和共享等功能。LabTrove和Blog3借助中间件服务LabBroker,共同提供了实验室设备与计算机的集成服务。在实验过程中,智能研究框架能植入实验仪器和计算机中,自动记录仪器产生的数据。通过及时发布数据评价,资金资助者可以判断资金支持情况,进一步促进学者开展协同工作。以下是对三个工具的详细介绍。 (1)LabTrove[8] 在科学数据生命周期中,LabTrove工具能实现科学数据的创建和存储。它是智能研究框架的一部分,帮助创建和保存记录。LabTrove提供一种高度灵活的电子笔记本及数据管理系统,可以在协作环境中促进信息的获取和利用。研究人员能使用LabTrove对实验进行描述记录,同时将捕捉到的实验结果与实验创建关联,提供数据分析程序中的审计记录。目前LabTrove的这项功能应用于WebTracks[9]项目中,属于一种从下游(出版后)向上游(出版前)的原始数据的自动连接方式。LabTrove不仅可以作为当前许多断开进程的黏合剂,还可以利用其链接和识别功能,通过语义出版和参考引用,增强语义功能。在科研过程中,LabTrove以数据的生命周期为依据,为科学数据监管提供相应的服务,对此给我国高校图书馆提供了宝贵的经验。 (2)Blog3[10] 在科学数据监管过程中,Blog3工具以科学数据生命周期为核心,为研究人员提供研究数据存储、发布和保存的功能。它拥有样本原型的服务,主要面向物理和化学等领域。Blog3工具在提供这些服务时,支持的数据类型包括:研究过程中产生的科研数据,实验样本相关的数据,一些关于描述仪器的数据,实验过程中使用的方法相关的数据,关于实验过程描述的数据以及实验环境的安全信息数据等[11]。Blog3有一个可扩展的插件结构,不仅可以实现身份验证和授权功能,而且所有科学数据的在线预览和搜索引擎的索引服务都能够完成。另外,Blog3还提供了集成词汇以及模式编辑的环境,它允许用户在其预期的上下文中进行描述和显示数据。Blog3可以输出的数据格式很多,包括HTML、XML-RPC、RDF/XML等形式,且允许链接网络服务到对应的笔记本系统。在高校科学数据监管过程中,Blog3为标准、格式的统一提供了样本,图书馆在实行科学数据监管时,可以学习借鉴该工具相关的服务,开展图书馆的监管实践。 (3)LabBroker[12] 在科学数据监管过程中,LabBroker工具可以提供科学数据的出版服务。作为一个原型系统,它也支持中间件服务,即一种智能实验室的传感器系统服务,将实验室中的仪器设备与具体的ELN软件和服务连接。在整个实验的过程中,实验室及仪器会记录一些初始结构化数据,而且数据处理和实验分析后也会产生结构化的科学数据。LabBroker为这些数据的直接出版、共享,构造了一些特定的系统。换句话说,对于科研活动过程中产生的数据,LabBroker实现了在未经处理的情况下直接出版、共享,可保证原始数据的真实性、可靠性。 4.1.2 美国加州大学数字图书馆 加州大学数字图书馆为科学数据的监管提供了一个清晰的思路,针于科研活动中科学数据生命周期的不同阶段,都发布了相应的工具。在科学数据生命周期的不同阶段,对科学数据采取了不同的监管方式,对于科学数据的监管以及共享具有重大的意义。加州大学数字图书馆提供的科学数据监管工具主要包括Merritt、DataUp、eScholarship、DMP Tool[13]等。在科研活动初期,DMP Tool负责制定科研计划,帮助研究人员创建和管理数据监管计划;在科研活动中期,DataUp进行科学数据的收集,同时Merritt实现科学数据的存储、管理以及共享等功能。在科研活动后期,eScholarship实现科研结果的出版等。 (1)DMP工具 在科研活动初期,即在科学数据产生之前,DMP(Data Management Planning)帮助研究人员创建数据监管计划,可满足美国国家科学基金会(National Science Foundation,NSF)以及其他资助机构的需求。DMP允许公众使用,参与机构可以为他们的研究人员定制符合的DMP。这时研究者可以用他们机构的地址登录,查看可用资源和服务,为他们的数据管理计划制定专属个性的样板。在DMP的整个开发过程中,为研究人员的协同工作提供一个很好的方案。这些参与开发的机构全都自筹资金,如伊利诺伊大学、加州大学及其洛杉矶分校,他们的开发研究人员共同完成设计、开发和集成。目前注册用户已经合计超过450个研究机构,总人数超过2 300人次,并且用户已经创建了超过1 800个数据管理计划,超过60个机构为他们的社区定制了DMP[14]。DMP可为数据生命周期的其他阶段打下基础,其支持的数据类型可以是文本、表格、图像、音视频、3D模型等[15]。 (2)DataUp工具 在科学数据监管过程中,DataUp工具为科学数据生命周期的收集阶段服务,通过创建表格,处理数据的监管和保存问题。它是为了满足将数据管理无缝集成进科研人员当前工作流的需求而产生的,是一个开源工具,不仅可以帮助科研人员归档、管理和存储以及共享科学数据,而且还能通过指导创建标准元数据,实现科学数据监管标准的统一化。DataUp可作为插件,直接安装到Microsoft Excel工具中,该工具有四个主要的特征:①最佳实践检查,即DataUp通过解析科研人员不同格式的文件,来检测不符合数据管理的潜在问题,确保数据是良好格式化的和组织化的,找出问题来源并提供相应的解决方法;②通过DataUp工具创建元数据,利用电子表单里的表格,指导创建标准元数据,使数据文件发现和重用;③帮助数据集获得标识符,记录、存档数据并且获得持久的唯一标识符,使科研人员相互可以直接使用数据,确定在科研团体中的影响力;④归档、共享数据,通过DataUp与其他知识库直接相连,更新科研人员需要存储的数据,通过归档数据,使数据公开[16]。 (3)Merritt工具 Merritt工具(Merritt Repository,是一个存储库服务,允许管理、归档和共享有价值的数字内容[17])。在数据生命周期中,Merritt工具促进了加州大学社区科学数据的保存以及管理。使用Merritt存储库有一些例子,如数据共享项目,在这个项目里,加州大学图书馆工作人员、图书管理员、开发人员以及加州大学旧金山分校的研究者们协同工作,共享他们的数据,并且利用驱动Merritt存储库的工具,帮助减少数据共享的障碍。在其他的协作项目里,Merritt为发表在eScholarship[18]项目中的文章提供存储服务。加州大学的联机归档,提供了在线数超过20 000的收集指南。Merritt存储库灵活的体系结构,为接收和访问数据提供了多种方法,可满足大范围的工作流程和需求[14],为科学数据存储和共享减少障碍,促进科学数据的利用和价值增值。 (4)eScholarship 加州大学的eScholarship工具为基于生命周期科学数据监管的出版服务提供了支持,尤其在UC3(University of California Curation Center)团队的协作研究中,为科学数据生命周期监管的出版服务提供支持。eScholarship工具的开发人员探索了一种新模式,包括对数据论文及数据出版的支持。这种支持使引用的论文以围绕数据集的形式进行,可为研究人员提供更多方式,发布和共享他们的数据。eScholarship主要用于存储和发布科研活动过程中产生的结果以及学术论文等。它倾向于形成一种经济、高效的可持续发展模式,促进各个领域的学术交流发展,包括科技创作、同行评审、科学文献的管理、科学文献的发布以及存储等。徐澎在关于加州大学数字图书馆eScholarship项目介绍中指出eScholarship支持三种学术出版模式,包括:①学术研究成果仓储,包括预印本和同行评审的内容;②基于网络上的数字内容出版,即在网络上出版相关领域的学术论文等;③既面向研究人员也面向大众读者的学术著作电子版[19]。Scholarship包含近2000种学术出版社的电子图书,内容覆盖艺术、科学、宗教和小说等诸多领域,另外eScholarship项目提供700多种电子图书的免费在线浏览[20]。在科学数据生命周期中,eScholarship工具在支持数据的存储服务、出版和发布服务中发挥了重要的作用,我国开展科学数据监管实践可以参考国外优秀监管案例,实现科学数据高效监管,避免科学数据的浪费以及重复,使科学数据监管工作有序运行起来。 4.1.3 莫纳什大学科学数据管理工具—MyTARIDS[21] 在科学数据生命周期中,MyTARIDS是由莫纳什大学发布的一个存储、共享、访问以及出版数据服务的工具。MyTARIDS具有四个方面的特点:①解决归档的问题,提供访问和引用原始生物科学数据的服务;②便于大容量的数据集的共享、访问以及出版;③MyTARIDS有超过200万个文件、200 000亿字节的数据能自动收集以及访问;④关于该工具的代码贡献者有18个人,而且MyTARIDS工具可以将科学仪器中产生的数据和人类连接起来。目前在澳大利亚的11个地方,部署了五种不同类型的数据,如同步数据、中子源、医学影像、质谱仪、显微镜等产生的数据。目前,“生物科学数据平台”也运用了MyTARIDS工具,不仅将MyTARIDS置于云端,而且实现了超级计算机和大容量的数据发布平台相链接等功能。 4.2 科学数据管理工具总结 根据以上国外基于生命周期的科学数据监管工具的分析,可以明确基于生命周期的科学数据监管活动是存在于科研活动整个过程中的。科学数据生命周期大致包括以下几种类型的活动:①计划阶段,科学数据产生前创建科研活动计划,为科学数据的产生作准备;②收集、管理阶段,对产生的科学数据进行收集、整理,使之有序化,标准化等;③存储、分析阶段,对收集到的科学数据以统一的格式标准存储、分析,以此来促进科学数据价值增值;④共享、发布以及出版利用阶段等,在这个阶段中,实现科学数据的共享和利用,发挥科学数据的价值,促进科学数据的可持续发展。科学数据是在科学研究过程中产生的,即科研活动前期、科研活动中期和科研活动后期。在科研活动前期,研究者们通过书写研究建议以及项目计划来为科学数据产出作准备。在科研活动中期,通过对科研数据的记录、链接、归档以及在可靠的存储库中存储数据,实现科学数据的长期监管。在科研活动后期,对科研活动中产生的科学数据以及论文通过出版、共享,实现科学成果的共享和利用,以及科学数据的价值增值等。在科学数据生命周期不同阶段,需要相应的科学数据管理工具对其进行监管,保证科学数据有效并且有序地储存、增值以及高效利用。有关科学数据生命周期管理工具分析如表1所示。通过对国外基于生命周期科学数据监管工具的分析,可以为我国高校图书馆开展数据监管带来相应的启示,促进我国数据监管工作高效有序地运行。生命周期视角下的科学数据监控工具研究及其启示_科学论文
生命周期视角下的科学数据监控工具研究及其启示_科学论文
下载Doc文档