欧美数据采集的实践与启示_data论文

欧美Data Curation的实践及启示，本文主要内容关键词为：启示论文,欧美论文,Data论文,Curation论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

20世纪以来，科学数据工作经历了从独立分散发展，到奠定基础性地位，再到支撑科学研究，直到数据驱动研究的发展过程。美国国家科学基金会(National Science Foundation,NSF)于2010年明确规定，从2011年起基金申请都必须要提交数据的长期保存和开放获取计划[1]。英国皇家学会(Royal Society)于2012年7月发布《科学是一项开放性的事业》(Science as an Open Enterprise)报告，旨在确立共享和开放科学数据的基本原则、机遇与面临的挑战[2]。科研过程需要验证、重复、链接和共享科学数据；研究数据本身具有高投入、易损失和不可替代性；现有数据具备能产生“新”知识的潜力；研究基金机构的数据保存需求导致科研人员对科学数据的需求日益强烈[3]，由此，探索开放数据、数据再利用以及数据管理政策等方面内容显得尤为迫切。

1 Data Curation的内涵

在数据驱动研究的大形势下，不少新词涌现，如数据科学家(data scientists)、数据看护(data concierges)、嵌入式学科馆员(embedded librarians)等。近年来讨论最为热烈的则是Data Curation(为方便起见，下文统一简称DC)。2002年，它由微软首席研究员。Jim Gray首次正式提出，随后以DC①为重点的研究成为了一个新领域[4]。追根溯源，Curation来源于拉丁语，在使用中衍生了多种释义。考古学将石器技术划分为精细加工(curation)和权宜加工(expediency)，我们不妨借鉴考古学的定义，将DC简单理解为在科学数据上产生附加价值和知识的功能。英国联合信息系统委员会(Joint Information Systems Committee,JISC)对DC有着比较全面完整的定义。在国内近些年的研究中，DC的中文译法也有很多种，如数据监护、数据管理、数据监管、数据医疗等等，目前尚无定论，在此笔者不作中文翻译，仍称其为DC。

DC的发展对于高校和科研图书馆有着重要意义。高校图书馆拥有庞大的数字资源、先进的技术平台、丰富的用户培训经验和一流的人才队伍，具备对重大研究项目提供文献资源、科学数据的发现、科学计算与数据处理等服务的强大支撑能力[4]。作为学术型图书馆的代表，在科学数据的保存与利用上它亦有不可推卸的责任。因此，高校图书馆当仁不让地成为DC最重要的实施主体，正如北京高校图书馆2011年数字图书馆年会上崔宇红的报告《E-Science环境下大学图书馆的挑战与创新》中所认为的“Curation＝图书馆学＋专业学科领域知识”，“Curation＝图书馆组织”[3]，Digital Curation与Data Curation已然成为大学及学术图书馆的新任务与新角色之一[5]。

2 欧美Data Curation实践

2.1 Data Curation项目和组织

2.1.1 DCC

2004年3月，英国联合信息系统委员会(JISC)和电子科学核心项目(E-Science Core Programme)联合组建了DCC(National Digital Curation Centre)，由爱丁堡大学、格拉斯哥大学等4个成员组成[6]。关于DCC，Philip Lord等人在2003年就提出了一个模型，由3个部分组成——研究和数据创建、出版、成熟的DC[7]。2011年，DCC发布了《制定数据管理与共享计划》指南，阐述了制定数据管理与共享计划的意义与基本方法[8]。DCC可以被视为关于DC的最早组织，被看做是DC领域的先锋。

2.1.2 DataNet计划

2007年，美国国家科学基金会(NSF)启动DataNet计划，以图书馆为主体，预算1亿美元，用5年时间资助5项DC重点研究课题，要求被资助者在资助期满后具备自生存能力。两个获全额资助的项目是[9]：

(1)DataONE项目，由新墨西哥大学图书馆牵头，于2009年8月启动，专门针对地球科学开发，构建能提供清晰的地球观测数据的分布式DC网络体系。其信息基础设施的三个组成部分是：①协调节点(Coordinating Nodes)：以三个大学为支撑——新墨西哥大学、加州大学圣芭芭拉分校、田纳西大学(与橡树岭国家实验室合作)；②成员节点(Member Nodes)：数据中心和组织通过成员节点服务接口向DataONE提供它们的科学数据，以及诸如数据复制等服务；③研究者工具包(Investigator Toolkit)：可以让科研人员访问他们熟知的定制工具，在数据生命周期的任何阶段支撑他们的科研[10]。

(2)Data Conservancy项目，由约翰霍普金斯大学图书馆主持，于2009年10月启动，开发面向跨学科观测数据的数据管理基础架构，数据模型来源于PLANETS项目[11]。其“三步”为：保存——收集和管理科学数据；共享——跨学科显示潜在的数据；发现——促进数据的再利用和新组合。目前已开发出软件DCS和Reference UI，前者支持科学数据的储存、归档、保存和监护，后者是基于网络的用户界面，满足约翰霍普金斯大学和其他合作机构数据管理者的需求[12]。

2.1.3 分布式DC中心

(1)DataStaR

DataStaR全称为Data Staging Repository，由康奈尔大学图书馆组建，创新点有两点，一是元数据管理架构的发展，二是为本地数据分布式存储提供了模型[13]，如图1所示。

图1 DataStaR数据分布存储的概念模型

NBII(国家生物信息基础设施)采集来自KNB(生物复杂性的知识网)的元数据，GOS(地理空间一站式服务)采集来自CUGIR(康奈尔大学地理空间信息库)的元数据，机构库则被搜索引擎索引。

(2)D2C2

D2C2全称为Distributed Data Curation Center，成员由普渡大学图书馆研究部的4位核心专家组成，目的是将图书馆学、情报学和档案学应用于3个方面——在分布式环境下促进对研究数据集监护问题的了解；在研究者、专家和普渡大学及其他机构的图书馆员之间建立伙伴关系；为数据的管理、发现和传播提出创新、实用和基于学科的解决方案。D2C2独立开发或合作开发了一些工具，如DCP、PIs、Databib、PURR等，其中以DCP最为典型。

DCP(Data Curation Profiles)受IMLS(博物馆与图书馆服务协会)资助，成员包括诸多学科领域的学科馆员、研究生和信息专家。项目开发了DCP工具包，于2011年在全美开展了为期12天的DCP工具包培训，培养成员应用DC配置工具。自2009年至今已完成28个DCP，涉及的学科包括人类基因、植物学、物理学、土壤学、航空航天学、农学、语言学、社会学等[14]，DCP形成文件后以学科为单位提交。

2.1.4 DataCite组织

DataCite是一个非营利的全球性组织，2009年12月1日于伦敦成立，由成员机构直接向有需求的研究者提供服务与建议，口号为“帮助用户查找、访问和再利用科学数据”。目前，DataCite的管理代理是德国国家科技图书馆(TIB)，成员分布于世界各地，包括澳大利亚国家数据服务中心、法国科技情报研究所(INIST)、韩国科技信息研究所(KISTI)、大英图书馆、DCC、普渡大学图书馆、微软研究院等。DataCite成立了工作组，每六个月举行一次会议，分别在夏季和冬季。

2012年10月29日，大英图书馆与5个数据中心签署该项服务，其中包括全球最大的基因组学研究机构及最大的生物学数据产出者之一、也是参与该项目的首个亚洲数据中心——中国深圳的华大基因(BGI)。华大基因已使用DataCite功能发行了最新的“大数据”杂志GigaScience[15]。DataCite要求用户提供最小数据集或集合的元数据，用于每个DOI的生成[16]。华大基因通过DOI标识发布了之前一些未公开的数据集，被《科学》和《自然》等顶级期刊所引用和认可[17]。

2.2 Data Curation讨论会和学术期刊

2.2.1 讨论会和工作组

IDCC(国际DC会议)在DC领域占据独特地位，是DCC的官方会议，被誉为本领域“最好的会议”[18]。自2005年起，几乎每年召开一次，参会者包括来自各个学科和领域的个人、组织和机构，至今已举办过七届，下一届会议将于2013年1月14日～16日在阿姆斯特丹举行。会议为志同道合的数据工作者提供了极好的交流机会，开展DC政策和实践的研究。

RDMF(研究数据管理论坛)同样由DCC组织，一年召开两次，以“大事记”的方式发布会议内容。由于RDMF工作组数量的上限设置为50个，因此讨论是非常深入，高度互动，表1中列出了历年主题[19]。

其他DC项目通常也会成立讨论会或工作组，如DCP在普渡大学召开讨论会，邀请完成DCP的图书馆员参会[20]；北卡罗来纳大学教堂山分校于2007年召开国际性会议DigCCurr2007[21]；美国科研数据和信息委员会于2010年赞助了“图书馆角色的转变：为科研数据保存提供支撑”的公众研讨会[22]；台湾大学图书馆联合美国伊利诺伊大学香槟分校于2011年主办“E-Research：新世代学术研究之利器”研讨会[5]。

2.2.2 学术期刊

2001年《数据科学杂志》的创刊，标志着科学数据发展成了一个新的研究领域。而后，IJDC(International Journal of Digital Curation)作为DOC的官方出版物成为该领域最重要的期刊之一，它于2006年创刊，从2007年起每年以电子形式出版两期，出版地选在英国图书馆网络工程事务所(UKOLN)，采用OJS2.3.6.0的出版系统[23]。期刊划分为三个版块——编者论、经同行评审的学术论文、文章。官方网站提供全部论文的全文下载，无疑是遵循开放获取精神的最好体现。

2.3 Data Curation教育论坛和课程计划

2.3.1 IDEA Working Group

IDEA Working Group全称为International Digital curation Education and Action Working Group，它诞生于工作组的学术讨论，主题是DC教育。2008年5月27～28日，DCC在华盛顿举办了IDEA Working Group首届研讨会，“开发一个国际DC和保存的培训教育路线图”成为会议主题，共有来自美国和英国的12个DC教育者和资助者参会。很快，在同年12月5日，IDEA Working Group在爱丁堡召开了第二次研讨会，由DOC、IMLS、北卡罗来纳大学教堂山分校联合举办，来自加拿大、美国、英国和德国大学、研究中心和资助机构的将近40名代表参会[24]。可见，关于CO教育的问题受到更大范围和更深程度的关注。

2.3.2 DCEP

DCEP全称为Data Cure Education Program，是伊利诺伊大学香槟分校图书馆和信息科学研究生院的DC教育计划，采取在成熟课程基础上添加DC新内容的建设方法，辅以针对性的实践，研究和学习数据保存、DC和数据标准等方面的内容[25]，侧重信息收集与管理、知识表述、电子归档和保存、数据标准与相关规则。它的成果之一是设立了第一个正式的Data Curation方向的理学硕士学位[26]。

2.3.3 DigCCurr

DigCCurr全称为Digital Curation Curriculum，是北卡罗来纳大学教堂山分校的数字化监护课程项目。DigCCurr于2006年7月1日启动，2009年12月31日结束，受IMLS资助，目标是开发可开放获取的硕士研究生层次的DC课程，目前已完成《DC应用于挑战》和《数字藏品管理信息技术》等课程的设计。DigCCurr的成功实践带动了更多的课程项目[27]，主要包括：DigCCurr II—在DigCCurr的基础上延伸为博士研究生和从业人员设置[28]，项目时间为2008～2012年；ESOPI-21，项目时间为2009～2012年；消除DC鸿沟，项目时间为2009～2011年。

3 对我国的启示

3.1 图书馆与科研人员进行长期和深入的合作

如约翰霍普金斯大学图书馆馆长Winston Tabb所言，“图书馆是分布式网络的一部分，数据是馆藏，图书馆员是数据科学家，数据中心是新的图书馆书库”[3]。国外高校很好地响应了这一点——康奈尔大学图书馆成立的科学数据管理服务组(RDMSG)由负责科研的高级副教务长、大学图书馆馆长和教师咨询委员会组成[16]；加州大学图书馆员也参与到国家科学基金项目中，从事科学数据创建工作。在“如何实现与科研团队的合作”问题上，高校图书馆在服务方式上可继续坚持以传统学科服务为主，同时进行深化，将DC纳入学科服务，成为重点工作内容。具体来讲，可以成立独立的科学数据部门或小组，使图书馆员不再只是出现在数据生命周期的后期，而是从研究发生的初始阶段就与科研人员进行密切合作，建立互惠互助的协作网络，直接参与到科研项目中，形成畅通的交流渠道，完整记录科研人员的研究轨迹，可在数据架构、标准等方面进行具体性操作。

3.2 创新合作模式和工作模式

科学数据不仅量大，且类别和复杂性也在逐年增强，高校、科研图书馆需要重视和追求协作效应。我们发现以上比较成功的DC项目都会举办研讨会或工作组，甚至创办学术期刊来加强交流。DC在国内目前还处于萌芽阶段，远不如国外成熟，DC虽然为学科化服务带来新的生机，也需要图书馆在具体做法上大胆创新。首先图书馆可以创新合作模式，在资金、人员、数据等方面寻求最佳组合，召开讨论会或工作组，分工协作。其次图书馆可以对工作模式进行创新，例如借鉴田纳西大学图书馆数据服务中设置的Learning Opportunities项目，由数据服务馆员举办研讨会或讲习班，向教职工和学生介绍可以用于进一步研发的数据资源[29]，另外，D2C2项目中独立开发或合作开发了一些工具如DCP也为我们提供了很好的借鉴，高校、科研图书馆应当重视技术或工具包的开发，为数据的提交和发布服务构建可支撑的平台。

3.3 重视DC人才培养

国外将从事DC行业的人称为数据科学家或者Data Curator。2011年对Biocurator社区成员的一项职业调查表明，从事Data Curator这一职业需要4个方面的条件：正规的科学训练，所从事科学领域的理论知识，良好的写作和语言沟通能力，先前作为实验科研人员的经历。可见，这一职业需要比学科馆员更加专深的能力。在培养DC人才过程中，高校、科研图书馆应该吸取学科化服务中人才队伍构成与学科馆员素质要求存在差距的经验，在制度上，要建立创新的人才选拔与培养机制；在管理上，采取更加科学有效的绩效管理与评价机制；在业务上，重视培养馆员从事DC工作的能力，借鉴国外有关DC的课程计划，适当引进课程，开展职业培训等。

4 结语

DC在我国已有一些尝试，2012年10月底华大基因与大英图书馆签署协议加入DataCite便是最好的证明。然而不可否认的是，DC的国内发展目前还缺乏宏观层面上的统一规划，具体实施中也存在一些规范问题，比如DCC在其《数字保存指南》(Digital Curation Manual)中专门指出：没有适当的格式，无法识别数字对象的内容，数字对象就是一组无意义的比特流[30]。DataCite也十分强调DOI标识的作用。可见，格式对于DC工作的开展起着基础性作用。我们在开展DC工作之前是否将类似的细节问题纳入考虑的重点呢？

另外，面临不同学科的数据需求，科学数据在增值过程中面临的知识产权、个人隐私问题等如何解决，这些都是未来值得思考和研究的重要内容。

(收稿日期：2012-12-01)

注释：

①在美国常用Data Curation，在英国常用Digital Curation。

标签：data论文; 数据管理论文;

欧美数据采集的实践与启示_data论文

猜你喜欢