建设数据驱动的电子科学图书馆服务:机遇与挑战_图书馆论文

建立数据驱动的e-Science图书馆服务:机遇和挑战,本文主要内容关键词为:机遇论文,图书馆论文,数据论文,Science论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

e-Science是信息时代科学研究环境和活动的典型表现[1]。这种建立在先进网格技术基础之上的数字化科研新环境,通过网络技术及相关中间件实现程序,形成环形的科学知识流,具有可重复的周期性,创建完毕的数据或知识由机构存储库或个人知识存储库存储后再调用[2],它突破了时间、空间障碍,使得科研人员不必考虑资源的存储地和提供者,就可自由使用分布在其他远程计算机上的科学数据资源,协同组织开展科学研究。在e-Science环境下,动态、交互、协同的网络化、数字化使基于网络化的信息交流、组织、分析、合作成为科研活动的核心纽带和新形式,更有利于催生新的发现,从而加速科学发展的进程。人类基因组计划的成功实施和完成以及空间科学、全球环境等研究,都是e-Science环境科学研究发展的范例。在e-Science环境下,科研用户的信息需求和科研模式发生的根本性改变给图书馆带来了新的重要发展机遇和挑战。因此,建立e-Science下新的服务理念和技术平台,已成为现代科学图书馆发展的趋势。笔者将结合美国麻省理工学院(MIT)图书馆服务项目实践活动,提出一些建立数据驱动的e-Science图书馆服务的粗浅看法。

1 e-Science 环境下科学数据存储与开放共享的现状

1.1 科学数据产出呈指数级增长

科学数据包括科研论文、专利、研究报告、实验观测数据和元数据、参考资料、照片和图表、学术类多媒体资源等,不仅包括公开出版和可公开获取的数据,还包括很多的灰色科学数据。近年来,随着各国的科技投入增大,科学观测和分析能力已得到快速的提升,导致科学数据的产生和积累呈指数级增长。仅以科学实验数据增长为例,最近MIT图书馆员调查了该校一些重要领域科学家的数据量,发现16个案例中的科学家每年产生数据总量大约为41 000 TB(即4.1×10[16]B),如物理系教授的数据量为20 600 TB,神经影像学教授为5.4TB,气候变化研究的科学家产生200TB[3]。研究还发现,与过去5年相比,每个学科的数据量都增加了5-10倍以上[3]。在e-Science环境下,科学数据面临着存取、传输和数据管理三个方面的挑战[4]。

1.2 科学数据共享和长期保存的重要举措

科学数据共享和长期保存已被视为各国促进科技创新的重要举措。美国鼓励科学数据实现全面开放,欧洲国家对科研信息化和数据管理也非常重视。我国也在积极推行e-Science下科学数据的开放获取。为促进科学数据的开放共享,许多国际知名研究基金会要求所资助的研究项目将科研数据向公众开放,例如,美国国家科学基金会(NSF)于2010年已明确规定,今后基金申请都必须要提交数据的长期保存和开放获取计划[5]。2009年11月,41位诺贝尔奖获得者联名发出致美国国会的公开信,支持研究成果公共获取法案;目前已有24个国家的150多个机构参加了国际高能物理界推出的学术期刊开放出版计划——SCOAP3计划[6]。实现科学数据的共享和有效管理不仅仅是要将数据存入适当的知识库中,更重要的是通过数据开放共享促进科学新发现和开展高效的合作研究。

1.3 科学数据保存的进展和现状

目前科学数据存储和共享已取得许多重要进展。一些大型国际合作项目实现了使用层结构系统(tiered system)或计算机集群进行数据存储和共享。一些出版商要求研究人员将发表文章的科学数据存到指定的官方数据库中保存并共享。如在生物学杂志上发表文章,作者被要求文章投稿前将基因测序结果递交GenBank数据库。另外,一些官方专业机构和学协会也推出了相应的学科数据知识库(Data Reposity,DR),如:Pubchem(化学),Genbank、PDB(蛋白质数据库)、SIMBAD(天文学领域)、GEON(地学)等。但这些科学数据库平台的数据格式并不统一,也并非都采用了元数据,如GenBank的缺点是数据主要是平面文件而不是元数据,格式单调,并不适合保存生物交叉学科领域的数据。因此,数据不规范和缺少跨学科的统一平台是当前科学数据存储共享的主要障碍。事实上,还有一些研究人员仍在使用廉价的备份系统进行数据备份,或将大量的科学数据分散保存于不同的计算机、文件夹中,效率低、安全性差。有部分研究人员把数据存于Google、Amazon、Microsoft或一些网上引用管理工具上,因而难以保障科学数据的安全和长期保存。

1.4 e-Science下图书馆积极促进科学数据的存取和服务

图书馆的重要职能之一是长期保存人类重要文化遗产。在e-Science环境科学数据指数级增长的时代,科学图书馆在发挥其科学数据保存和服务上具有不可替代的地位和作用。现代大型科学图书馆拥有丰富的电子资源和技术平台、庞大读者群和完善的学习培训系统等。因此,建立e-Science下数据存储共享模式是图书馆服务的重要内容和责任。如何建立合适的数据保存机制以长期存储科学数据,正确选择和有效使用网络获取和共享这些数据是科学研究的重要需求,也给数字图书馆服务提出了新问题,为图书馆e-Science下开拓新的数据存储和开放共享服务提供了契机。

在这种新形势下,国内外许多大学和研究机构图书馆已纷纷建立自己的机构存贮数据库(Institutional Repository,IR),如MIT图书馆的DSpace数据库、普林斯顿大学图书馆的DataSpace数字化数据仓库[7]。香港大学、厦门大学、浙江大学等高校图书馆、中国科学院部分图书馆也纷纷建立了机构知识库。但这些机构知识库往往只收集本机构部分最终研究数据,如何完全解决研究的中间过程和机构以外的全部科学数据的开放存取,仍是一个需要长期探讨的问题。下面笔者结合e-Science下MIT图书馆的数据服务做一些讨论。

2 MIT图书馆的科学数据管理与服务

在e-Science环境下,科研产生的科学数据分布在全球各个机构中,所以必须对这些分布式的数据进行整合①。MIT图书馆数据管理项目组针对科研人员科学数据产出特点,经过数年的不断探索,已建立起较为完善的e-Science科学数据采集、管理、保存、利用等数据驱动的e-Science图书馆综合服务新模式,建立了著名的DSpace图书馆数字资源存储系统——DSpace(DSpace@ MIT,http://dspace.mit.edu)、开放获取服务与学术出版服务模式和开放课件服务OCW(Open Course Ware,http://libraries.mit.edu/about)等,积极进行科学数据的动态监测研究和管理服务探索。

2.1 DSpace图书馆数字资源存储系统

早在20世纪90年代后期,MIT图书馆就注意到了各个院系、研究所、实验室产生了大量复杂的、数字化的、不同格式的科学数据和学术出版物,而科学家和学生们在收集、整理、保管这些数据资料时要花费相当多的时间和精力,共享数据也非常困难。于是MIT图书馆成立了数据管理项目组,开始研究建立一种基于数字机构存储(IR)的服务。2002年成功开发出全球第一个机构知识库(IR)——DSpace数字资源存储系统,并将其BSD开放源代码技术向全球公开[8-9]。

DSpace是一种个性化的开放获取平台和服务模式。不同于一般的文献管理系统,它是一个专门的数字资产(Digital Assets)管理系统,其特点为基于存储的资产管理,以事件触发构建的工作流机制,以分级权限控制的管理体系,具有高度的灵活性、可用性和可自定义性。该系统采用元数据描述、采用句柄系统实现数据的长期保存获取,采用开放源软件,支持各种标准协议,可以收集、存储、索引、保存和重新发布任何数字格式、层次结构的、已经和未经出版的本地永久标识性研究数据,又可通过DSpace联盟建立虚拟馆藏[10]。联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,根据标准协议进入不同院校的系统,并发送资源请求,通过本地的存储过程自动获取有关的文档备份。系统具有文献发现功能和强大的统一检索平台,以实现学术资源的共享。用户通过登录指定的平台向DSpace提交数据,DSpace可保存任何格式的数字资源,包括论文、图书、图书章节、数据集、学习资源、图像、3D图像、地图、乐谱、设计图、预印本、录音记录、音乐录音、软件、技术报告、论著、视频、工作文档等[8],每年能存储MIT研究人员完成的1万多份数字化科研成果。MIT图书馆数据管理项目组承担全部数据的存档管理、系统维护、软件升级和用户使用指导等服务。

2.2 开放获取服务与学术出版服务新模式

MIT科学数据开放获取项目组的工作还包括解答有关数据管理、写作与学术论文出版相关咨询,与出版商争取相关权益,建立开放获取政策,执行DSpace数据提交服务,推动MIT的开放获取服务等。在每年新教工和学生入学时,项目组成员负责相关出版政策和DSpace数据系统的培训。通过与出版商的谈判协商,DSpace数据库实现了对注册用户的学术文章免费开放并可在网络上获取。MIT是美国第一所全校范围内采取该模式的大学。据统计,2009年10月-2010年10月下载论文超过63 000篇。目前有SPIE、管理科学季刊、伯克利电子出版社以及前沿基础研究出版社等出版社与MIT建立了开放获取政策[11],已有9家同行评议期刊的出版商允许麻省理工学院用户从其网站上免费获取该校科研人员的研究论文。2010年5月,MIT图书馆创立了“开放获取出版基金(OAAPSF)”,用于资助MIT作者在开放获取期刊上发表论文[12]。此外,MIT图书馆于2002年实现了开放式课程OCW,当年在网络上公布了500门课程,这种通过网络共享专业知识的方式,立即在全球高校和研究机构引起了积极的反响,至2007年,OCW开放课件已达到1 800门。

MIT图书馆数据管理项目组积极为科研人员推介DSpace系统,让他们认识到DSpace系统的优势,而非强制性地要求其将研究成果存入DSpace。MIT图书馆数据组还专门开展了一系列项目(课题),研究新的科学数据管理服务模式,主要思路就是通过建立主动服务的模式,有效利用各种已成熟的可长期保存的专业科学数据知识库,最大限度地帮助科研人员有效管理和开放共享科学数据。

3 数据驱动e-Science图书馆服务策略的几点思考

e-Science环境下建立基于多存取模式下的数据驱动服务模式,包括科学数据最大化的长期获取和共享服务,已成为科学图书馆服务的重要内容。我们应当开展对数据驱动相关服务的专项课题研究,分析重要学科数据存储和共享的特点、需求,针对已有科学数据知识库的现状和问题,建立和完善图书馆数据服务模式。

在技术层面,应考虑在图书馆数字资源平台上建立科学数据共享管理服务平台,将机构知识库(IR)和已有科学数据知识库(DR)以及其他数据门户(portal)、数据库(database)整合,率先从数据存储和共享需求大的学科入手,如生物学等,对学科科学数据知识库进行分类管理和导航,使科研人员能够有效使用已有的专业科学数据库资源。可通过“跨库检索”,实现数据资源共享的“一站式”服务。在这方面,完全可参考MIT的DSpace和OCW系统,积极建立基于图书馆优势的技术网络数据存储获取平台,建立类似DSpace联盟的虚拟馆藏,提供图书馆特色服务的支撑平台。

在特色服务层面,图书馆要建立面向科研用户的数据驱动的服务,首先要了解科研用户工作流和数据生命周期,明确数据服务的时机和服务的数据类型,找到新的服务点,从而建立起数据驱动的e-Science服务模式。如图1所示,一个科研项目从立项到完成的全过程中,研究人员对数据的获取、存贮和共享行为存在着工作流中的数据生命周期。具体而言,始于数据收集、数据发现,经过数据分析、处理,再到衍生新数据和原始数据存档,周而复始,构成科学数据的生命周期[13]。换句话说,数据收集是科学研究的起点,而新数据的存储则关系到科学数据的共享、新的发现。图书馆数据服务组协助用户形成数据管理计划的最佳时机是研究项目开始,这个调研时期对数据的需求量较大。科研用户产生了大量数据,需要建档存贮的时候,也是图书馆数据管理服务的最佳介入时机。

图1 工作流中的数据生命周期(引自Deelman E[14])

针对上述科研用户工作流和数据生命周期,结合我们的体会,笔者提出以下几点建议:首先,图书馆应建立长期科学数值服务管理项目,专门进行e-Science下学科科学数据知识库的动态收集,重点整理、分析和跟踪可持续和可长期保存与开放获取的专业数据知识库,进行知识库的评估、管理、推介、导航服务。其次,在科学数据共享管理服务平台上,应及时发布和更新科学数据知识库信息,确保为科研用户提供最新的和最准确的数据知识库及相关信息。第三,服务需涵盖整个数据生命周期。一个新的课题或新的研究人员,往往对于e-Science下的科学数据知识库和一些特殊数值型数据库不是十分了解,图书馆学科馆员应及时了解用户的数据需求,帮助用户发现或建议最佳数据知识库,使他们能够及时准确地从科学数据知识库和机构库中获取所需数据。还可以协助用户提前建立一个粗放和易于管理的数据计划框架,对于项目中间和结束时产生的大量数据及时存取,为用户提供指导。

笔者认为,建立数据驱动的e-Science图书馆服务关键在于服务理念的变革。图书馆科学数据管理服务,重点不在于为用户检索或提供了多少科学数据,而在于如何帮助科研用户发现、管理和利用好科学数据资源,通过促进科学数据的全面开放获取,推动科学的发展。应当指出,实现高效的数据驱动的e-Science图书馆服务是一项复杂的系统工程,还远没有形成固定的模式,这需要我们大胆设计新的服务模式。服务既要做到动态地收集和评价数据资源,又要注重服务与用户的工作流程相融合,最大限度地保存好数据资源和服务于科研活动。

4 结语

在e-Science下,建立科学数据的存贮获取管理机制和服务模式,实现科学数据的全面开放获取管理是图书馆服务发展的重要机遇和挑战。在e-Science下,图书馆服务应针对科学家产出海量数据需要长期存储的需求,为科研人员提供最佳信息和技术服务,为科研用户提供动态信息导航和“一站式”服务,服务融入科研用户工作流中数据生命周期。建立起数据驱动的e-Science服务模式将是现代科学图书馆发展的新的生长点。

致谢:本文得到国家科学图书馆的“群星”计划的资助,作者感谢MIT图书馆数据管理项目组给予的热情帮助。

收稿日期:2010-12-10 修回日期:2011-03-04 本文起止页码:80-83

注释:

① 张晓林,初景利,张久珍,等.国际图书馆发展态势.图书情报工作动态,2002(6):2-8.

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

建设数据驱动的电子科学图书馆服务:机遇与挑战_图书馆论文
下载Doc文档

猜你喜欢