Digital Curation:图书情报学的一个新兴研究领域,本文主要内容关键词为:情报学论文,研究领域论文,图书论文,Digital论文,Curation论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
科学研究,无论是自然科学,还是人文社会科学方面,通常需要利用以及产生大量的科学数据。科学数据既包括科学研究过程中产生的原始性、基础性数据及根据不同需求加工后产生的衍生性数据,也包括各种大规模观测、勘探、调查、实验和试验中所获得的海量科学数据以及广大科研人员长年累月的研究工作所产生的大量分散的科学数据[1-2]。科学研究是一个动态、交互的过程,而科学数据则是科学研究过程当中不可或缺的组成部分,通常具有一个被采集、整理、存储、评估、分析、再利用以及价值殆尽的生命周期。在其生命周期内,科学数据的保存与利用对于后续及其他研究至关重要[1]。21世纪,随着e-science的产生,科学数据的作用和地位被提到了前所未有的高度,以科学数据的长期保存、组织、维护、管理和再利用为重点任务的Digital Curation(在美国常用Data Curation,在英国常用Digital Curation;为了方便及统一起见,除特别地方外下文统一简称DC)作为一个新兴的研究领域应运而生。
文献回顾发现,国外图书情报学界对DC的研究涉猎较广,从其历史背景、概念界定、战略规划的制定、数据标准与相关规则、关键技术开发到相关法律法规环境和制度建设等都作了很多探索性的研究和实践[3-9]。相比之下,对DC的研究尚未得到国内图书情报界足够的重视,仅有少数几篇论文论述或者探讨了相关问题。比如,任平介绍了英国的CAMILEON、DPRM、CEDARS、FAIR、MMP和EPRINT等数个数字资源长期保存研究项目和数字保存联盟(DPC)、数字医疗中心(DCC)等研究机构[10];谭榕和亓靖涛介绍了数字监管和数字保存的定义,提出了图书馆及其馆员在新时代在DC领域的新角色[11];师荣华和刘细文在数据生命周期理论的基础上,推演出e-science环境下图书馆可以尝试开展的科学数据服务方式,包括数据初次加工、数据再加工和知识抽取服务[12];钱鹏和郑建明认为,科学数据逐渐成为高校科研重要的资源,高校图书馆应当依托机构知识库,提供科学数据利用与共享服务、挖掘服务及其与科学文献整合的学科服务[1]。另一方面,实践上,我国已经在2002年正式启动“科学数据共享工程”[13],全面推动数据保存、共享和利用工作,然而,图书情报机构对此了解甚少,在DC领域的参与更少[1]。
在这样的背景下,很有必要较为全面地对国外DC领域的研究和实践状况进行引介,以便国内图书情报界深入了解DC究竟是什么、图书情报机构可以在这一领域充当什么样的角色以及应当如何融入到这一领域。因此,本文在梳理科学数据及相关工作的历史背景、发展阶段的基础上,阐述国外学者对DC概念的内涵、外延界定,介绍DC的关键领域和原理,并且从DC的实施机构及其相关实践项目、学术研究交流活动、教育及其职业发展等方面描述国外DC的实践状况,以期推动国内相关的理论研究和实践进展。
2 Digital Curation的演变背景及其概念界定
自20世纪以来,科学数据工作可以分为四个发展阶段。20世纪40年代前,科学研究大多处于独立、分散状态,科学数据工作刚刚起步,科学数据往往只是科学研究成果的辅助产品,缺乏有效组织和管理。80年代,以地球、空间和天文等科学数据为重点保存对象的世界数据中心(World Data Center)的成立标志着科学数据基础性地位的确立,科学数据工作逐步发展成为独特的领域。90年代,随着基因组和蛋白质等大型科学数据库的诞生,科学数据被提到了支撑科学研究的基础资源的高度[2]。进入21世纪,e-science的出现改变了科学研究的理念和方式,科学研究越来越依赖于对海量数据的再利用[12]。科学数据不仅成为了科学研究和学术交流的基本单元,而且成为了体现国际科技竞争力的战略资源。其中,2001年以科学数据为对象的《数据科学杂志》(Data Science Journal)的创刊[14]及Digital Curation一词在国际研讨会“Digital Curation:digital archives,libraries and e-science seminar”的诞生[4],意味着以DC为重点的科学数据发展成为了一个新的研究领域。
此后,DC这一术语得到了西方发达国家图书情报界的广泛应用。即使在西方图书情报界,DC一词也尚没有统一的界定,它与digital preservation(数字保存)和digital archiving(数字归档)等的内涵和外延并不相同,但却又有联系,而且均并存使用。不同学科、不同学者对这些术语的理解均有一定的差异[3]。如上所述,DC一词首次出现在由数字保存联盟和英国国家空间中心于2001年10月19日在伦敦举行的国际研讨会“Digital Curation:digital archives,libraries and e-science seminar”上;这一次国际研讨会被学界认为奠定了DC的基础,在档案专家、图书情报学家、数据管理专家以及学科专家们之间搭建了一座沟通的桥梁[4]。在渊源上,DC可以追溯到图书馆、博物馆和生物学领域的“curation”概念,在这三个学科领域,curation不仅仅包括对馆藏或数据的保存、维护的涵义,还包括价值增值和知识发展的意义[3]。此后,DC的概念得到了不断的提炼和完善。比如,英国的Digital Data Curation Taskforce小组认为DC是一个新兴的领域,相关术语尚未稳定和统一,保存(preservation)是归档(archiving)的一个方面,而归档则是curation的基础和前提[5]。2005年9月,第一届以DC为主题的国际会议(International Digital Curation Conference)在英国的巴斯举行,在会上专家们专门就“什么是DC”进行了热烈的辩论[6]。该次会议的主办方DCC提出了其操作性的定义:从广义上讲,DC是为了目前和未来的再次利用而对可靠的数字信息进行维护和增值的活动[7]。此外,美国图书情报学家Shreeves则认为DC是对属于生命周期内的数据进行评价、筛选、重现以及组织等一系列持续管理的活动,以供未来的获取和使用[15]。
由此可见,DC主要包括以下特征:(1)其目的是数字信息的再利用;(2)其对象是可靠的、有再利用价值的数据,换言之,尚属于生命周期内的数据;(3)其重点是数字信息的价值增值;(4)其过程包括数字信息的归档、保存、维护等一系列活动;(5)其保障是需要有数字管理专家(Data Manager)、数据存储设备、数据存储工具和足够的资金支持。鉴于此,为了研究的方便,本文将DC界定为:一种将科学研究当中产生的有再利用价值的数据,尤其是实验数据,通过标准化和规范化的处理,进行长期的保存和维护,以便其他或者后续研究对这些数据进行再处理和再利用的活动。
3 DC的三大领域及其过程
如图1所示,从科学数据的生命周期来看,DC涉及三个领域、两个迁移过程[8],[16]。第一领域是独立研究领域(Private research domain)。科研人员通过实验室信息管理系统及其他的研究管理系统(最简单的例子就是Excel、Access、SPSS等),搜集、存储和管理科研当中产生的数据文件。这些数据文件往往由单个科研人员自行管理,也可能链接到研究数据存储中心;数据文件的格式也多种多样,缺乏分类和组织,呈现出较少元数据、动态更新、封闭式访问、轻度维护和由研究者管理等特征。第二个领域是合作研究领域(Shared research domain)。科研人员为其合作伙伴开放部分科学数据和研究结果,合作伙伴可以通过协作支持系统(如Plone、TWiki、Sharepoint系统等)从合作数据存储中心中远程获取所需的科学数据。相对于独立研究领域,该领域具有较为规范的元数据、更新频率较低、授权访问、维护力度较强和由研究者管理等特征。第三个领域为公共领域(Public domain)。经由前面两个领域而形成的研究成果得以公开发表,并且进入了公共领域;相关的成果和科学数据可以通过机构库(也可能通过关联数据的形式)供公众访问。相对于前面两个领域而言,该领域的数据呈现大量较为规范的元数据、较少更新、公开访问、维护力度最强并由专门的DC机构管理等特征。
由独立研究领域到合作研究领域的迁移过程为协同Curation的迁移过程。在得到研究团队领导的授权后,一般由其团队的IT人员为主、图书馆的数据管理专家参与,将科学数据从研究数据存储中心迁移到合作数据存储中心。在这一过程中需要解决目标数据的选择、元数据的规范、数据的标准化和规范化处理、数据的访问权限以及数据的批量迁移技术等问题。由合作研究领域到公共领域的迁移过程为发布后的Curation迁移过程。这一过程则由图书馆的数据管理专家为主、团队的IT人员为辅将数据迁移到公共数据存储中心。在这一过程中除了需要解决第一个迁移过程中的问题外,还需要解决数据的永久识别码、数据与数据之间的关联、元数据与其他元数据之间的关联等独特的问题。
图1 DC的领域界限及其过程
4 DC的实践与进展
4.1 DC的实施机构
从全球范围来看,DC是一项自上而下的、由国家政策层面推动并以图书馆作为主要的业务承担机构的新型服务项目。其实施涉及国家层面、高校层面以及图书馆层面的具体操作结构;其中,国家层面的机构主要负责相关的标准制定、战略规划和行业指导等问题,高校层面的机构主要负责高校范围内的DC计划、战略支持及开展DC所需要的各种资源支持等问题,而图书馆层面的机构则主要研究DC的技术、规范、规则,以及具体实施和执行DC基础性工作。
国家层面的机构。例如,英国的Digital Curation Centre(DCC)。英国是DC领域的先行者,早于2004年就成立了DCC,由其信息系统合作委员会(Joint Information Systems Committee)和研究委员会数字化科学核心项目(Research Councils e-Science Core Program)共同合作运营。DCC中心为DC领域提供战略规划、国际和国家相关计划的制订、curation工具的研发、curation从业人员的继续教育和技能培训、业内的合作和交流等方面的重要服务[9]。又如,希腊的Greek Digital Curation Unit(DCU),它是希腊于2007年成立的隶属雅典研究中心的一个专门从事DC战略规划、政策制定的国家级机构。它属于DARIAH Project(Digital Research Infrastructure for the Arts and Humanities)的一个合作伙伴,对艺术人文数据的数字化工作,而且为希腊的中小型组织提供DC的服务[17]。
高校层面的机构。例如,University of California Curation Center(UC3)于2010年成立,其宗旨是为加州大学的图书馆、博物馆、档案馆、学科院系、研究机构和学者个人提供数字信息资源的curation服务,以支撑该校的学术活动[18]。此外,还有加拿大多伦多大学的ischool建立的Digital Curation Institute[19]等。
图书馆层面的机构。Digital Research and Curation Center(DRCC)是约翰霍普金斯大学图书馆2007年成立的、专门从事DC的中心。由该中心主持的Data Conservancy项目于2009年10月启动,采取OAI-ORE标准,在现有数字化系统和标准上开发data curation系统,系统特色包括模块化设计、互操作网络、层存储等[20]。此外,还有普渡大学图书馆的Distributed Data Curation Center[21]等。
4.2 Digital Curation的研究交流活动
国际研讨会和国际刊物的产生往往是一个新兴的学科领域或者研究领域得以确立的标志,也是促进相关领域的研究和实践进展的不可或缺的组成部分。首先,以DC为主题的国际学术会议。如前所述,2001年10月19日在伦敦举行的国际研讨会(Digital Curation:digital archives,libraries and e-science seminar)[4]奠定了DC的基础。而对DC起着推动作用的则为International Digital Curation Conference[22],该会议从2005年开始每年一届,第七届会议将于今年12月在英国的布里斯托举行。会议的主办方为英国的DCC;会议的主题包括digital curation的理论研究、案例分析、技术和软件和职业教育等,是国际上DC领域的合作、交流和沟通的重要渠道。其次,以DC为主题的国际学术期刊。前文已有提及2001年以科学数据为对象的《数据科学杂志》(Data Science Journal)的创刊[14],标志着科学数据发展成为了一个新的研究领域。2006年,以科学数据和DC为主题的期刊The International Journal of Digital Curation开始创刊则是该领域重要的里程碑。该刊属于开放存取(open access)的电子期刊,每年两期,由英国Digital Curation Centre的Kevin Ashley担任主编,栏目包括同行评审论文(peer reviewed papers)和普通论文(articles),主题涵盖DC及其相关问题的讨论。目前,该刊已经成为是了解国际上digital curation理论研究和实践进展的重要刊物[23]。
4.3 Digital Curation的教育与职业发展
教育、培训和课程体系的建立是一个领域得以持续发展的重要保证。目前,国外DC的教育基本上已经形成了从本科生到硕士、博士以及在职进修的课程体系。以北卡罗来纳州大学教堂山分校为例,该校提供一套完整的DC理论与实务课程。该课程已经与2006-2009年进行了第一阶段DigCCurr I项目的施行,课程主要内容包括图书情报学核心课程、DC的专业课程和选修课程。其中,DC的专业课程包括:Archival Appraisal、Carolina DC Fellows Introductory Seminar、DC:Application and Challenges、Digital Libraries、Digital Preservation and Access、Electronic Records、Management、Introduction to Archives、Systems Analysis、Understanding Information Technology for Managing Digital Collections(Lisa Gregory,Samantha Guss)。2008年开始,正处于第二阶段DigCCurr II项目的修正和完善当中,预计到2012年前开发出DC博士研究生课程和教学网络(DigCCurr)[24]。
此外,伊利诺伊大学图书情报学研究生院也提供了DC教育项目,该项目启动于2006年,主要包括Data Collection and Management,Knowledge Representation,Digital Preservation and Archiving,Data Standards,and Policy等核心课程(Data Curation Education Program),是一套主要用于培养研究生和职业教育的课程[25]。英国的Digital Curation Centre、田纳西大学的信息学院、锡拉丘兹大学等也提供了在职进修和研究生课程班[26]。而许多图书情报学院也将DC的相关理论和技能纳入到本科生课程当中来[27]。
与此同时,一些大学图书馆开始设立DC岗位。比如,纽约大学图书馆的数字服务馆员岗位(Data Services Librarian),北卡罗来纳州大学的数字项目联络员岗位(Digital Projects Liaison)[24]。这些岗位都是大学图书馆在新的形势下所设立的DC专业岗位,预示着DC的发展空间正在不断的扩展。
5 结束语
总体而言,国外在DC领域的研究和实践也尚处于探索阶段,各高校的图书情报学院和图书馆在国家机构支持下开始了DC的探索性研究和实践。其相关理论研究为图书情报专家和IT专家参与科研人员的研究过程进行理论上的展望和提供了方法的支持,其相关实践进展则为DC提供了试验田。可以预见的是,DC提供了高校图书馆在数字时代生存和发展的新契机。为了抓住这一战略性发展机遇[28],赶上国外的发展步伐,建议国内图书情报界密切关注这一领域的相关进展,积极借鉴国外的理论研究成果和实践经验,着手从不同层面、不同途径探讨DC的相关问题和开展相关的实践。
由于这一术语较新,国内不同学者有不同的翻译,比如数字保存(张智雄)、数字监管(谭榕)、数字医疗(任平)等,但是笔者认为目前国内的这些翻译似乎尚未能完整涵盖DC原本意义,尤其是DC本身所含有的价值增值意思;因此,在尚未或者无法找到精准的中文翻译之前,笔者认为最好维持DC这一用法;这种做法在其他学科或领域也不乏先例,比如iPad。
标签:情报学论文;