科研图书馆在电子科学环境中的新角色:科学数据管理_数据管理论文

E-Science环境中研究图书馆的新角色:科学数据管理,本文主要内容关键词为:数据管理论文,角色论文,图书馆论文,环境论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

科学数据管理(Scientific Data Curation)正迅速成为专业学科领域、信息科学和图书馆的关注热点。笔者在谷歌学术搜索中用题名“Data Curation”检索,发现2001-2003年期间仅有3篇文献,到2008-2010年则增加到98篇。国际顶级杂志Nature在2008年和2011年载文分别介绍生物科学数据管理的进展和生物学数据管理员的出现[1,2]。在2011年欧洲的数字图书馆理论与实践国际会议(TPDL)上,科学数据管理被列入研究主题之一,英国成立数字管理中心(Digital Curation Center,DCC)每年主办专业期刊和学术年会。2007年美国国家自然科学基金委员会(NSF)启动DataNet计划,预计在5年时间内投入1亿美元用于支持以图书馆为主体开展科学数据管理的研究工作,首批获得资助的两个项目分别是由霍普金斯大学图书馆主持的Data Conservancy和由新墨西哥大学主持的DataONE(Data Observation Network for Earth),这些都昭示着数据管理作为一个新兴研究领域的兴起。

相比之下,国内图书馆界相关理念和知识还比较匮乏。2011年,台湾大学图书馆联合美国伊利诺伊州香槟分校主办“E-Research:新世代学术研究之利器”,重点研讨了大学图书馆在科学数据管理中的新角色。国内少数学者的研究还限于对国外相关实践的介绍[3],有必要对其实质进行深入描述和多角度探讨。文章阐述科学数据管理产生的背景、演变和特征内涵基础上,从生命周期的角度理解数据管理统一连续体的作用域和边界,重点探讨大学图书馆的未来角色以及新的数据图书馆员能力需求,旨在引发和推动国内图书馆界尽快开展相应的研究和实践。

2 科学数据浪潮和数据密集型计算

本世纪科学研究的最重要特征就是科学数据浪潮和数据密集型计算(Data-intensive Computing)。

当今科学研究正站在数据海啸的边缘。据统计,欧洲分子生物实验室核酸序列数据库(EMBL-Bank)收到数据的速度每年递增200%,人类基因组计划2008年生产数据1万亿碱基对,2009年这个速率又翻一番。生物医学据库PubMed中已经有1800万医学文章,现在每年增加接近百万篇。谷歌公司总裁Eric Schmidt在2010年技术峰会上说,从有人类文明到2003年,世界上产生了5EB(1EB=10亿GB)的信息,而现在每两天就产生这么多信息,而且速度还在增快。

2009年10月微软发布论文集《e-Science:科学研究的第四种范式》,阐述了在生命科学、天文学、地球科学、环境科学、医药健康等诸多学科领域中,科学研究范式已经由基于假设的研究(实验、理论、仿真)向基于探索的研究-数据密集型计算(data-Intensive)演变[4]。例如,一个天文学家可以不需要实地观测天文望远镜,而是把望远镜观测到的现象、数据和相关的元数据存储在计算机中,通过查找、使用、融合和分析数据从而创造出新的数据和科学发现。

在数据驱动的科学研究范式中,就像文献数据库一样,数字数据图书馆成为e-Science环境中的基础信息设施。1976年创建的蛋白质数据银行(PDB)是最早的数字数据馆藏,美国国家大气研究中心(NCAR)是最早对地球科学数据进行建模、收藏和保存的机构,圣地亚哥超级计算机中心(SDSC)则是最早意识到这种科学研究对数据的需求并为科学社区提供计算能力的机构,已建立起7个数据中心站点,有27PB数据和100多个专业数据库(如生物信息计量学和水资源)。我国的科学数据共享工程在资源环境、农林、医药、材料、能源、交通、信息、先进制造与自动化、基础科学等领域构建50个左右的科学数据中心或科学数据网。

3 概念演变和科学内涵

“Curation”一词来源于拉丁语curate,原意为照顾,在使用中衍生了多种释义。早期它多应用在艺术文化领域中。例如,考古学将石器技术划分为精细加工(curation)和权宜加工(expediency)两类,精细石器(curated tools)修整精致,形态规范,可以实现多种功能[5]。博物馆中将之通常译为“策展”,指对藏品持续养护并推出有主题的展览,最终提高馆藏面世率。策展人(curator)在公众和艺术藏品之间承担着选择、推广和评价的职责,多由有较高学术水平和艺术品位的人担任。同样,策展人在举办会议、音乐会等活动承担的组织统筹工作。

互联网的发展使“Curation”这个文化领域的特定称谓变得无处不在。互联网用户创建的大量信息和内容,其细微差别和复杂性超出谷歌等搜索引擎的机器处理和识别能力,内容策划管理就是经过人工的选择、组织、描述后推送给特定的用户,将人的定性判断添加到收藏和组织的对象上,从而比计算机程序提供更好的个性化体验[6]。正如Alex Williams在《时代周刊》上所说的curate代表“我有一双明辨的眼睛和好的品位”。

科学领域的数据管理是e-Science环境中科学数据共享需求和大规模科学计算的产物,它得益于生物科学、图书馆信息科学和计算机科学。1993年4月在美国能源部(DOE)马里兰州巴尔的摩召开了基因组信息学专题讨论会,第一次针对基因组信息学的现状进行评估。会议报告首次提出了数据管理问题,指出随着基因组社区数据库的发展,产生新的专业数据库管理员岗位,需要开发管理工具允许和鼓励数据作者承担对数据质量持续维护的责任[7]。

2001年10月在伦敦数字保存联盟和英国国家空间中心召开的“数字档案、图书馆和e-Science”研讨会上,将数据管理和数字保存整合在一起提出数字管理(digital Curation)概念[8]。2002年,微软首席研究员、计算机图灵奖获得者Jim Gray指出科学数据的短暂性和临时性需要创建数据馆藏和专门机构,以保障未来可以永久使用科学数据[9]。2003年英国联合信息委员会在其调查报告中详细分析了e-Science中数据管理的现状和未来需求,并从战略和政策层面提出若干建议[10]。到2007年,Jim Gray在向NSF提交基金申请时,进一步指出数据密集型科学研究的完整生命周期包括数据获取、管理、分析和可视化四个过程,数据管理是涵盖了从制定标准、数据映射到不同仓储到元数据创建、语义注释和文献链接等广泛的活动[4]。

由此可见,科学领域中的数据管理指在“摇篮到坟墓(cradle-to-grave)”整个过程中,对馆藏和数据库中的科学数据进行选择、验证、注释、组织、存储和长期保存的一系列活动和方法。与数据归档(digital archiving)和数据保存(digital preservation)不同的是,这里的数据管理有产生附加价值和知识的功能,即处理后的数据是经过实质性加工、包含智力投入的成果,具有增值的普遍特征。

从图书馆信息科学的角度来说,数据管理一方面是从组织层面辅助e-Science中科学数据发现、访问、传播和归档的利器、工具和必备活动。另一方面,在实践层面上它可以是提供描述分析数字馆藏和对象的标准纲要,或者开发和维护支持数据馆藏对象的发现、管理、使用、重用和保存的系统,或者是实现数据知识库系统和研究者应用间交互的中间件。

4 数据管理的统一连续体及产生边界

数据的宝贵性引发从数据的创建点开始在其整个生命周期内进行管理,对于动态数据尤其要确保数据的及时可用并创建数据索引准备随时用于科学发现。这就是数据管理的目的所在。澳大利亚国家数据服务(ANDS)基于学术交流生命周期提出数据管理统一连续体(Data Curation Continuum)的概念,将学术出版过程分为个人或私有研究域、共享研究域和公开域三个阶段,描述了数据管理发生在从私有域、共享域和公开域迁移过程中,即数据管理的发生边界,如图1所示[11]。

(1)个人或私有研究域:研究者个人在实验室信息管理系统或其他研究数据管理工具中创建和使用数据,可以不需要元数据或不考虑数据存储问题,数据访问是受限的。

(2)合作研究域:研究者因项目合作和数据共享需要将数据发布到合作研究域,提供相对开放的数据访问和部分数据共享。在私有域到合作域的数据迁移时,往往由研究者和专门人员(如IT技术人员、图书馆员)共同进行数据对象选择、结构化映射、元数据规范制定和分配数据标识符等操作,处理后的科学数据经过初次加工进入到临时存储库、机构库和虚拟研究环境中存储。

(3)公开域:作为数据管理统一连续体的末端,此时研究者或研究团队已经完成研究并将研究成果公开出版。此阶段无论是科学数据本身或是描述的元数据都要求规范的表达、存储以及可获取,还存在长期保存的要求。公开域的数据往往保存在商业出版机构、国家级学科数据中心,经由数据管理员对数据进行深度加工,比如给科学数据添加注释、标明来源与文献链接等工作。

图1 基于生命周期的研究域和数据管理边界

总之,如何通过管理活动生成新数据、元数据和知识,在研究人员需要时保持完整性、相关性和访问性,及时维护不同版本数据之间的链接,保障数据源的可信性以及管理与操作、解释数据相关的信息相关成为数据管理研究和实践的主要内容。

5 研究型图书馆的新角色和责任

图书馆长期以来就被看成是信息的创建、组织和传播机构,在印刷型文献时代,从提供馆藏发现工具、编制分类目录到开发数据库索引体系,图书馆在开发、传输和使用信息的系统、过程和方法中都是一个先行者,在元数据标准、分类法和数据编目、搜索技术和存储平台开发方面拥有丰富的技术和经验。在e-Science环境中和科学数据管理中,越来越多的专业组织、科学家和信息专家认为研究型图书馆应该成为迎接这种挑战的一员。

2005年美国自然科学基金委员会的资助的新兴研究小组“数据科学家”中指出:“数据科学家包括信息和计算机科学家,数据库和软件工程师和程序员,学科专家,馆长和专业评价者,图书馆员,档案人员及其他对数字数据馆藏成功管理的关键人员。”[4]霍普金斯大学图书馆馆长Winston Tabb这样描绘了e-Science环境中的图书馆:“图书馆是分布式网络的一部分;数据成为馆藏;提供数据服务;图书馆员是数据科学家;数据中心是新的图书馆书库。”[12]

在数据管理和提供数据服务方面,美国、英国等研究型大学的图书馆已经面向不同学科领域开展了大量的实践工作。例如,美国密西根大学构建的政治和社会研究校际联盟(ICPSR:Inter-University Consortium on Political and Social Research)的主要目标是为多元化并不断扩展的社会科学研究提供数据访问,以及数字管理和分析方法方面提供领导和培训。麻省理工学院图书馆提供社会科学数据、地理GIS数据以及生命科学数据的机构数据保存和咨询服务。在美国加州大学和康奈尔大学中,图书馆员都参与到国家科学基金项目中从事科学数据创建和数据咨询服务。

在2006年10月美国国家自然科学基金委和研究图书馆协会联合召开的研讨会上,指出图书馆的数据管理角色从建设数据知识库向建设网络基础设施和e-Science演变,即图书馆的角色从数据生命周期的下游(出版后)向上游(出版前)拓展和延伸。具体来说,在下游的研究周期内,图书馆的作用在于选择、采集和授权数据和数据集,创建发现和描述数据集的元数据(或元数据标准),创建或组织与数据相关的文档提供数字数据保存服务。而在上游的研究周期内,图书馆的关键在于定位其与研究团体的合作关系。通过从研究初始阶段就与研究人员的密切合作,图书馆可以在数据管理原型和架构、标准规范甚至政策的制定中发挥作用[13]。

这方面的典型案例是美国约翰霍普金斯大学的Data Conservancy的项目。Data Conservancy项目由NSF资助,研究开发面向跨学科观测数据的数据管理基础架构,当前主要面向天文学、地球科学、生物学和人文社会科学领域。设计的原型系统基于OAIS参考模型,数据模型则来自PLANETS项目,数据对象采用XML和JSON描述。Data Conservancy构建多个WEB API实现与外部系统的集成,如可以在SaKai共享学习环境检索Data Conservancy数据,支持研究者向arXiv中提交数据与文献以及链接,与NSIDC照片馆藏服务的互操作以及与IVOA科学研究框架的整合[14]。

6 结语

科学数据管理面临许多有待解决的问题和创新的机会,涉及技术、经济、政策、社会等诸多因素,诸如:如何既不破坏数据的灵活性、开放性同时又能协同世界的力量将零散、复杂的数据进行有效的组织管理?如何激励研究者、社区和机构来贡献各自的数据源推动科学数据基础设施的构建,同时又有效保护数据提供者自身的隐私权和所有权?怎样能够有效应对日益变化的技术与不同学科数据需求特征来进行有效的数据存储?该如何向其他研究者传递这些数据的起源和语义背景呢?在数据生命周期中的不同阶段需要付出哪些成本?哪些人、机构和组织应该各自承担哪些角色和任务?

科学数据管理是一个广泛而复杂的主题,仍处于研究和实践的初始阶段,它吸引着世界上众多国家、研究机构和学者共同展开了深入的研究,图书馆作为学术交流的中介机构和教育科研的支撑组织,应积极地加入到这支队伍中来,并在实践过程不断调整和提升图书馆员的素质和技能,以满足未来e-Science的需求和挑战。

标签:;  ;  ;  ;  ;  ;  

科研图书馆在电子科学环境中的新角色:科学数据管理_数据管理论文
下载Doc文档

猜你喜欢