国外数据存储与管理现状及其对国内高校图书馆的启示_图书馆论文

国外数据存储与管理现状及其对国内高校图书馆的启示_图书馆论文

国外数据存管实施现状及其对国内高校图书馆的启示,本文主要内容关键词为:其对论文,现状及论文,启示论文,图书馆论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 数据存管

数据存管(Data Curation,DC),又称数据监护,是继数字图书馆(DL),E-Research,E-Science之后,近几年国外图书馆界的又一研究热点。在国内,这个概念似乎没有引起同行很多的重视,对于它的中文译名,也还没有一个较为统一的名称。科研领域,数据存管用来指代一种信息抽取并进行处理的过程,即从科学文献(比如专家发表的研究报告、论文)中抽取重要的科研信息,并将其转换成可以存入数据库的电子形式[1]。

根据2008年美国伊利诺伊大学图书情报科学研究院Shreeves和Cragin给出的定义,数据存管是指在数据的整个生命周期当中,根据数据本身对学术、科研、教育的价值和效用,对其进行的积极持续的管理活动,包括在长期获取和使用过程中的数据评选、表现和组织等[2]。

虽然其他机构或个人也曾对数据存管下过定义,但综观所述,无外乎强调两点,一个是存管对象——数据,包括科研过程中产生的各种形式的记录,而不仅仅是阿拉伯数字形式的数据;另一个则是如何存管——方法,涉及数据形式、格式,元数据,载体,管理策略,数据生命周期等众多细节。

2 实施的战略意义

英国数据存管中心(Data Curation Centre,DCC)网站对数据有着深刻的认识——好的研究需要有好的数据[3]。实施数据存管战略,将是未来应对海量科研数据,实现有效组织、共享利用科研数据的非常重要的方式。

2.1 数据本身特点创造了先机

在很多的领域,研究人员越来越意识到,研究过程中产生的科研数据,已经成为一笔重要的资产,并超越了其本身所产生时的价值。大部分的研究数据都是以数字化形式产生的,这样既方便对其进行数字化存储和管理,又便于共享、复制并与其他数据结合。这就给我们实施数据存管战略提供了先天性条件。

2.2 科学研究的必然要求

数字化数据保存应该作为所有科研项目的一个关键方面。有些研究数据是独一无二的,如果破坏或丢失,将无法替代,然而有些研究必须参照这些通过检验的数据才能被认可。另外,外界对机构和研究人员“管理和保留他们的研究数据”的做法比较认可,比如有些项目在项目结束后还要进行一些后续工作,就可能用到这些数据。

2.3 科研人员的迫切需求

科学家、研究人员和学者不仅自己会在研究中产生大量的科研数据,而且他们通过新一代数字媒体获取的数据内容和第三方信息要大大超过他们自己产生的数据。针对这个花费大量时间和资源的投资,我们必须通过数字存管来保障它们。如果缺乏有效的保障措施,那么这些数字形式的科学记录和文件遗产将面临来自数字退化以及数字媒体固有的脆弱性等方面的威胁[4]。

2.4 大环境下事物发展的必然方向

2006年,在加拿大的一次关于科研数据的国家级探讨中,曾有人预言“这将是一个新的研究领域和一个新世界”[5]。会议报告指出,当各国不同学科领域间的数据库联合起来时,知识本质性飞跃的出现将改变我们对生活、世界,甚至对宇宙的理解。在某种意义上,为了培养这个“新世界”,必须在数据产生和维护时,就使其与长期保存的目标相一致。

3 国外高校图书馆数据存管实施现状

在这个快速发展的“数据密集型学术”时代,图书馆的角色和职责尚未明确,这时发展自身特有的且有价值的服务,是一个很好地占据先机的机会。从多方面来看,图书馆在支持科研数据的管理方面均占据有利位置。大学图书馆已经意识到应该保存并提供数字化数据内容的获取。然而,数据存管依然面临着特殊的挑战,比如在格式和使用方面,科研数据显得非常多样化,而不能将其作为一种单独的文本类型来看待。

近年来,包括研究图书馆学会(ARL),网络信息联合会(CNI)以及其他专业机构(ACM/IEEE,ASIS&T,ACRL)在内的机构对数据存管相关行动持续投入和赞助,同时与数据存管的图书馆研究生教育项目加强合作,从这些行动中可以看出,数字化数据存管已经在研究型图书馆界深深扎根。

在美国,图书馆系统和几家主要的研究型大学图书馆(约翰霍普金斯大学、康奈尔大学、田纳西大学、加州大学、新墨西哥大学等)研究员在美国科学基金会(NSF)资助的数据网络计划(DataNet program)项目的研究与开发中占据领导地位。与此同时,几项研究生图书情报项目也开始试行新的培训计划,研究需要的技能和知识,支持数字化数据存管战略。

4 把握契机,提升职能地位

4.1 倡导与宣传

在过去的十年里,不同的相关团体之间进行的多次探讨和研究都显示了对数据管理给予关注的必要性。高校图书馆能够很好地担当“宣传员”这个角色,特别是能够有效地对大学研究人员和管理者进行宣传。图书馆可以开展一系列拓展活动来对数据存管进行宣传,比如和大学里的领导层及科研人员商谈,分发宣传册,组织开展以数据存管为主题的会议,或者在学院内部寻找合作者开展宣传活动等。由于数据存管面临的问题和挑战非常具有学科特殊性,所以那些针对特定学科制定的专门宣传活动是最有效的。

4.2 支持与培训

除了积极宣传外,图书馆应该积极组织科研群体进行数据存管相关知识技能的培训。在数据存管计划,技术标准,数据编目,元数据标准和工艺,以及保存管理等方面,科研人员都缺乏有效指导。2008年,在加拿大研究数据策略工作小组(CRDSWG)发布的一项差距分析中发现,科研人员很少有良好的数据管理技能[6]。

这种情况在其他国家也存在。例如,2010年英国的一项调查表明,“虽然存在学科差异,但科研人员的数据管理能力普遍缺乏”[7]。针对科研群体数据管理能力的普遍不足,国外许多机构团体都进行了各种弥补措施。

CRDSWG开发了一门研究数据课程,用于对科研人员进行培训。通过科研人员的协助,图书馆可以填补在培训资源获取方面的不足。另外,还可以通过多种策略来提高科研人员的数据管理水平,比如编写使用指南,开发教育网页,培训教程,以及数据管理课程等。

美国麻省理工学院图书馆开发了一个综合网站,为研究人员提供数据管理方面的指导[8]。澳大利亚莫纳什大学编制了《澳大利亚国家数据服务指南》,这份指南提供了关于数据密集型研究和研究数据管理方面的一些基本条件信息[9]。

在英国,由数据存管领域专家组成的数字化存管中心(Digital Curation Centre,DCC)已经举办了多次论坛,每次都针对不同的战略性议题进行探讨,其中“研究数据管理论坛”则是为了应对快速更新换代的数字化环境所面临的挑战而设立的[10]。

4.3 获取与发现

虽然科研数据通常都会带来超额价值,但是大部分数据并没有实现共享或公开。通过2008年的差距分析发现,“多数今天产生的研究数据很难被其他研究机构获取,而且通常都没有理想的结构使其变得更加有用或更加开放”[11]。要确保别人能够理解和再次使用数据,元数据则显得非常重要。NSF曾经指出,“为了使数据有用,有必要适当保存那些与元数据相关的内容、结构、情景、资源等文本信息。理论上说,元数据是所有事物的记录,这对其他研究人员来说可能会非常重要”[12]。元数据在实现数据存管方面的重要性可见一斑。

图书馆可以开发一些用于改善数据访问的服务。这些服务可能涉及目录改编以及和其他地方的不同数据集进行链接。从广义来说,这种服务囊括了一系列和数据存管相关的活动。国外在这方面不乏有成效的例子。

澳大利亚国家数据服务项目(ANDS)提供了一项名为“注册我的数据”(Register My Data)服务,这项服务允许研究人员注册科研数据库。它能够帮助研究人员和研究机构公开他们的科研数据集,能够检验研究结果,并重新利用有价值的研究材料[13]。

美国普渡大学图书馆开发了分布式数据存管中心(Distributed Data Curation Center,D2C2)。它的目的是要解决存管问题,并解决与杂乱分散的异构/分布式数据,数据的工作流程和环境等相关的问题[15]。

以上实践项目都在一定程度上促进了数据共享或公开,为数据存管的实施做了基础设施方面的铺垫。大学图书馆可以组织学校相关院系的力量,发起数据开放共享管理方面的研究,这样既可以完善数据存管方面的软硬件设施,又能够使科研人员更加深刻地认识到数据存管的重要性,并且为图书馆实施数据存管战略打下技术基础。

4.4 数据归档与保存

科研数据的保存需要对其整个生命周期进行主动性管理,其中涉及许多行为,比如数据的筛选,在数据库中存放或导入数据,确保数据真实性,数据和元数据的采集,新一代的数字媒体管理,数据迁移等。2008年的差距分析发现加拿大的研究数据并没有系统性地保存。分析报告指出,“大部分从研究中收集到的数据都没有存储到数据资源库中,根据TDR(受信任的数字资源库)状态的定义,几乎没有任何库有完整的保存能力”[15]。

虽然某些学科领域的数据由国家机构收集,但这只代表少数通过研究创建的数据集。国外图书馆界对研究数据的保存管理产生了日益浓厚的兴趣,许多数据保存行动正在不断发展为现有的机构库。然而,使用现有的机构库软件可能对互操作级别上有局限性。现有的机构库平台在功能上还没有达到能够在元素级别为数据加标签的要求,在互操作性和数据集的再次使用上还需要努力。此外,由于科研数据形式多样,种类繁多,仅凭一个单一的机构库是不太可能收集全所有数据类型的。

美国麻省理工学院使用机构库来收集数据。这个被称为“PLEDGE”的项目目的是为了开发一项机制,在DSpace机构库软件中实现对数据的归档、保存及获取[16]。

eCrystals联邦项目中的数据资源库网络,这个项目将通过联合14个国际团体的站点建立一个基础雄厚的晶体结晶学数据资源库,并通过一系列的集成服务实现元数据的收割。参与者们将从四个方面进行合作[17]。

DISC-UK数据共享工程是由EDINA公司和英国爱丁堡大学数字图书馆领导,南安普顿大学和牛津大学参与的项目。该项目目前在英国已经升级了当前可容纳数据集的库服务条款[18]。

由此可见,要建立一个完整的数据集机构库,仅凭图书馆的力量是远远不够的,但并不是说图书馆不能参与进来。相反,图书馆可以利用自身已有的资源优势,分析现有的机构库,与学校、社会相关机构进行互补性合作,制定恰当的建库策略,从而在数据存管中占有一席之地,使图书馆有可能成为科研数据存管、交流共享中心,并使图书馆逐步由科研后勤角色变为科研支撑角色,奠定数据核心基础地位。

5 总结

国外图书馆界对数据存管战略的实施取得了许多很有借鉴意义的成果,国内却鲜有发现这方面的文章。笔者检索了CNKI期刊论文,只检索出一篇关于数据监护概念定义的文章[19]。笔者认为主要有以下几个方面的原因:

(1)国内外的思想认识差异。国外图书馆勇于开拓,积极创新,善于发现问题并着手解决问题;国内多数图书馆往往安于现状,很多国外的新思想新观念传到国内往往停留在领导层,很少能够落实。

(2)国内外经济发展水平差异。巧妇难为无米之炊,要实现这么一个宏伟工程,没有雄厚的资金技术支持,是无法实现的。纵观国外正在实施的大大小小的项目计划,几乎都有基金机构、国家部门的身影在背后资助或领导,其中以北美、澳大利亚、英国、日本为典型。以美国为例,要么是NFS发起,图书馆实施,要么就全国统一行动,由国会图书馆领导。而在国内经济水平还不是很高,技术力量还不是很强,政策支持还不是很多的情况下,要参与到这个全球性的行动中来,对于多数图书馆来说确实是个挑战。

(3)国内外项目发展步伐差异。从上世纪90年代美国发起的“数字图书馆”计划开始,数字资源长期保存,虚拟参考咨询,用户行为研究,信息资源管理,E-Science,E-Research,……众多项目、计划让国内图书馆目不暇接,图书馆员们只顾着接收概念,却顾不上落实。

(4)国内外技术发展差异。以美国为例,NFS等机构在数据存管方面的大量投入,带动了各方致力于数据存管技术的研究,在技术上不断推陈出新,从而推进了数据存管的实施。而国内缺乏这方面的领导力量,甚至缺乏这个概念的普及宣传,很少落实到行动上,所以很难实现技术的发展与创新。

(5)国内外制度政策差异。制度政策反映了国家对其的重视程度。国内长期以来对图书馆领域的不够重视,缺乏政策支持,资金支持,一切活动仅仅停留在图书馆界,类似闭门造车,图书馆缺乏合作力量,外面的机构又没法参与进来,这种两难的境地很难实现馆内外的合作共建。

机遇摆在面前,但更多的是面临着挑战。高校图书馆虽然有着得天独厚的优势,但在面对众多痼疾的情况下,要实现“图书馆成为数据中心”这一宏伟构想,实现在数据存管领域的领导地位,引领未来科研数据中心建设,使自身提升到科研数据支撑地位,仍可谓任重道远。

标签:;  ;  ;  ;  

国外数据存储与管理现状及其对国内高校图书馆的启示_图书馆论文
下载Doc文档

猜你喜欢