数据策管:图书馆服务的新创举,本文主要内容关键词为:创举论文,图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
图书馆作为一个为研究以及更广泛的社会公众服务的机构,在科学数据管理和应用支撑中所扮演的角色引起了越来越广泛的关注。科学数据作为一种重要信息资源,其与科技创新和推动社会进步的密不可分在国际科学界已成为共识。尤其随着E-Science时代的到来,科研模式的根本性改变,科学数据的作用也变得越来越重要。单纯的数据保存工作已远远无法满足当前科研用户的需要。所以,怎样对数据进行从产生之日起到最终实现利用的全过程管理,成为了当前科学领域、图书馆领域等的研究热点。数据策管(Data Curation)的提出顺应了科研用户更高的数据利用需求。不难看出,作为应对E-Science时代的重要战略,数据策管的出现必将为图书馆新一轮的服务产生深远影响。
1 数据策管概述
1.1 数据策管的概念
Data Curation一词最早由微软首席研究员、计算机图灵获得者Jim Gray于2002年提出。这里的“Data”并非计算机科学中所指的以数字化形式编码的文字、语音、图形等的统称。英国联合信息系统委员会JISC(Joint Information Systems Committee)较早开始进行相关内容的研究,它将“数据”定义为“原始的研究数据”[1]。因此Data Curation中的“Data”专指“科学数据”,即人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在价值和可开发价值[2]。“Curation”一词来源于拉丁语curate,原意为照顾,早期多应用于艺术文化领域。Data Curation在国外已成为图书馆界研究的热点,但在整个国内图书情报界鲜有提及。因此对于Data Curation的翻译,国内学者各有说法。如杨鹤林将其翻译为“数据监护”[3]、任平将其译为“数据医疗”[4],另外互联网上少量文章将其译为“数据保管”、“数据内容维护”、“数字典藏”等。美国雪城大学的秦健教授在此方面的研究颇为深刻,她认为“Curation”一词既有保存又有监管的意思,是一项有策划、有策略的管理,因此给出了一个贴切的中文译名——“数据策管”。
因为数据策管属于较新的研究领域,因此其定义尚未得到规范统一。维基百科将其定义为对数字资产的选择、保存、维护、收集以及归档的管理活动。[5]英国数据策管中心(Digital Curation Centre,DCC)目前对其的定义是:为满足当前和未来的利用需要,对一系列可信赖的数字信息进行管理保存,并对其增值的一个过程。JISC在其E-Science Curation的报告中,用以下3个概念对数据策管作了名词释义[1]:
策管(Curation)。为确保数据能够符合当前使用需要,并能被用于未来的再发现和再利用,从而对数据产生开始即对其进行管理和完善的活动。
存档(Archiving)。在Curation的基础上,对数据进行合理选择及存储,并且随着时光流逝,确保数据的可获取性,维护其物理上和概念上的完整性,具有相应的安全和认证机制。
保存(Preservation)。在Archiving的基础上对具体数据对象进行持续维护,随着时间流逝,即使技术发生变革,存档的数据仍能被读取和理解。
由此可见,数据策管是贯穿数据整个生命的持续性管理活动,它超越了“保存”的层面,是一项全面的、系统的数据维护工作。同时,数据策管还有产生附加价值的功能,以提供服务为最终目的。
1.2 数据策管产生的背景
数据策管是E-Science环境下科学数据共享和大规模科学计算的产物。进入21世纪,现代科学研究空前复杂化,跨学科、覆盖范围广的科研活动不断进行,科学研究不再是一个简单孤立的系统,一种崭新的科研模式——E-Science得以产生。E-Science环境下,科技创新越来越依赖于海量数据的再利用,科学研究过程中需要不断验证、重复和共享科学数据,科学数据是E-Science的灵魂。然而数据因其自身特征导致的脆弱,使其面临危机;数据如洪流泛滥般的出现,也使科学数据无法完全被存储和管理。科学研究数据的易损失与它的高投入、不可替代性形成矛盾,使得科学数据安全长期保管的需求越来越强烈。同时,E-Science环境下用户获取资源的方式趋于简单化。作为用户,科学家并不关心研究中产生的海量数据保存在哪,只需在利用时能立刻获取即可。此外,科学数据与科技创新的密不可分在E-Science时代成为共识,现有的数据产生新知识的潜力,使科学数据的管理与共享得到研究基金机构的关注。如美国科学基金会(NSF)就要求,从2011年开始凡是接受资助的研究项目申请者必须提交相应的数据管理与共享计划。[6]因此,数据策管成为了应对E-Science时代的重要战略。
图1 数据策管过程模型
1.3 数据策管的过程
数据策管是一个现代知识管理的循环过程,DCC提出了一种数据策管模型[7],清晰地展现与数据策管相关的流程,主要包括研究及数据策管、出版和策管成熟期三个组成部分,如图1所示。数据策管可分为三个层次:第一层次是指传统的“研究过程”及“出版过程”(如图的上半部分及右侧区域),研究者在研究过程中产生大量数据,以此推演而形成相应的研究成果,并通过出版的形式传递给用户(用户包括同行、研究团体、图书馆、公众和业界等);第二层次是指在第一层次的基础上,增加了“基于数据的研究”、“元数据”和数据归档等环节(如图左侧的中间部分)。这是由于在现代E-Science环境下,所产生的数据如喷泉般地涌现,而科研活动又极大地依赖于这些数据。因此,仅停留在第一层次上侧重对科研成果的管理远远不够,必须增强数据研究、数据归档和长期保持等管理环节,以确保数据的真实、可靠与安全。当然,数据归档与保存的价值在于充分利用,这就必须借助于现代信息技术对大量的数据进行深层次的挖掘,并且根据不同的需求进行不断的校正、扩展和精炼。也许还要借助于语义工具(如本体论)进行智能化知识发现,由此产生创造知识的价值。所以,真正意义上的数据策管必须上升到第三层次,如图的左下角,增加“策管机制”和“机构库”等高层次的数据策管过程。
2 国外图书馆对数据策管的积极应对
2.1 数据策管研究与实践
数据策管作为应对E-Science时代的重要战略,在提出之后就得到了科学领域、图书馆信息科学和计算机等领域的关注。近几年,国外为支持数据策管服务的发展,在研究与实践领域展开了一系列的活动,主要有以下几方面:
专门研究机构的出现。如2004年3月,由JISC和电子科学核心项目(E-Science Core Programme)联合组建了英国国家数据策管中心DCC(National Digital Curation Centre)。DCC由Edinburgh大学、Glasgow大学等4个成员组成,它主要是支持英国相关研究机构存储、管理和保存数字科学数据,致力于研究并解决数据策管存在的问题,以期促进国内外数字形式研究成果的管理技术实践,并为相关活动提供指导。[8]
相关研究项目的启动。如2007年,NSF启动了以“持续性数据保存与获取合作伙伴”为题的DataNet计划。该计划明确以图书馆为主体,预算l亿美元。在DataNet计划中,目前有两个项目获得全额资助,一是由约翰霍普金斯大学图书馆主持的Data Conservancy项目,二是墨西哥大学图书馆地球科学数据的DataONE项目(Data Observation Network for Earth)。[9]
相关专题讨论会的召开。如DCC组织召开的研究数据管理论坛RDMF(Research Data Management Forum),该论坛基本原则为促进研究数据管理经验与专业知识的交流,提高研究数据的质量、可靠性及可获取性,进一步改善对研究数据的处理和管理工作。[10]再如,2007年北卡罗来纳大学教堂山分校的信息与图书馆学学院主持召开的国际性会议DigCCurr2007,主要讨论数据策管人员在从事数据策管这项重要工作时应当怎样做,应知道哪些的问题。[11]
学术课程与职业教育的开展。如2006年,伊利诺伊大学图书馆与信息科学研究生院(GSLIS)启动了数据策管教育项目DCEP(Data Curation Education Program),在采取在成熟课程的基础上,添加新内容的建设方法,再辅以针对性强的实习,主要研究数据采集与管理、知识表达、数据标准等。[12]
针对数据管理专门期刊的创办。如International Journal of Digital Curation,该期刊每年以电子形式出版2期,集中对数字对象、数据策管相关问题的探讨。[13]
数据管理机构的建立。如普渡大学图书馆联合各学科专业学者建立了分布式数据策管中心D2C2(Distributed Data Curation Center),以e-Data为数据管理服务实验平台,实现了对远程机构库以及网格上数据集的分布式存取。[14]再如康奈尔大学图书馆建立的DataStaR数据中心,促进科研人员之间的数据共享,为专项数据库提供高质量的元数据信息等。[15]
2.2 图书馆在数据策管中的角色
以上活动表明,国外对科学数据管理工作给予了很高的关注,为推动数据策管的发展做出了各方面努力。值得注意的是,在这一探索过程中,许多图书馆直接参与了进来,并做出了很多贡献。越来越多的科学家开始意识到图书馆及图书馆员的重要性,尤其是在数据和研究成果的存储、管理、提供等支撑服务与应用方面,图书馆所扮演的角色已经成为了关注的焦点。2011年6月3日,美国科研数据和信息委员会就赞助了一场以“图书馆角色的转变:为科研数据保存提供支撑”为主题的公众研讨会,集中讨论不同的图书馆机构在科学数据管理与支撑上的不同作用。[16]对于图书馆在科学数据领管理域可发挥如此重要作用,笔者认为有以下几点原因:
首先,图书馆具有传承人类文化遗产、开展文化教育和传递科学情报的重要职能。在E-Science环境下,数据是一种重要的科学情报资源,它对科技创新和工程研究的关键作用,使拥有丰富数字资源的图书馆,尤其是学术型图书馆,在科学数据的保存与服务上具有不可推卸的责任。
其次,数据策管的最终目的在于数据服务的提供,而服务正是图书馆的优势所在。作为专门的资源组织、保存及管理机构,现代图书馆拥有先进的技术平台、专业的学科馆员队伍、对用户及其行为的了解和丰富的用户培训经验等,使图书馆具备参与数据策管的足够能力。[17]
再次,图书馆学具有专业的学科领域知识。[18]在E-Science时代,元数据重新被提到了新的高度。作为信息专家的图书馆,在语义描述和元数据规范等方面的研究成果,及其信息分类、编目、本体等理论与方法,加上完善的学习培训系统等,使图书馆在数据的发现、组织、加工、访问等过程中必能提供强有力的支持。
3 对我国图书馆数据策管的思考
3.1 数据策管为图书馆的服务创新提供新契机
进入21世纪,图书馆事业正遭遇着越来越多的冲击。对于公众来说,互联网技术的快速发展,信息资讯的快速更迭,使图书馆及其资源和服务正变得越来越不明显。所以,“是时候让图书馆品牌焕发生机了”。[19]数据策管作为应对数字时代的重要战略,为图书馆的服务创新提供了难得的发展契机。图书馆与科学研究的融合,不仅是科研用户外在的需要,更是图书馆自身发展的内在需求。它使图书馆由单纯的资源收藏者转变为知识的管理、利用提供的全能者,拓展了服务深度与广度,将推动图书馆实现积极的角色转型。
3.2 机遇与挑战并存
作为一项实现高效数据驱动的新兴服务,数据策管对图书馆来说仍是一项复杂的工程。要完成贯穿整个生命周期的数据管理的所有任务,图书馆面临着服务方式、技术支撑、培训、组织机构和人员配置、信息经济学、法律完善等各方面的挑战。比如,图书馆不了解科研工作流程,应怎样嵌入到科研一线获取数据,并保证服务的质量?科研数据作为一种特殊资源,图书馆在以较高代价开发和管理数据的同时,应采用何种经济运作方式来实现数据管理的“可持续发展”?数据是具有重要价值的资源,图书馆应怎样保证数据高效利用的同时,又做好知识产权保护工作?作为一项新兴课题,数据策管的理论体系与实践还都处于发展和完善中,远没有形成固定模式。面对挑战,图书馆需要做好充足准备,大胆的设计与实践,尽最大努力“拿下”这项工作。
3.3 数据策管在国内迫切需要实际行动
近年来,国外图书馆界已经意识到要在数据策管领域参与新的分工,并进行了相关研究和实践活动,取得了一定的成果。但在国内,“数据策管”仍属于新名词,没有普遍引起公众意识。我国为全面推动数据共享建设,实际上在2002年已经启动了“科学数据共享工程”;同时国内很多信息中心已经具备了很好的存储体系和设备、良好的计算环境,为数据策管研究与实践的展开提供了一定的基础。数据策管作为一个“机不可失失不再来”的战略,迫切需要国内相关领域的关注以及实际行动。如尽快制定数字保存战略计划、形成有效合作协调机制、建立数字保存公共责任与公共投入机制,在大规模实践营运情况下进行技术、经济和服务测试等。[20]
4 结语
图书馆科学五定律中提到,图书馆是一个不断成长的有机体。科研用户的信息需求和科研模式发生的根本性改变给图书馆带来了深刻影响,也为图书馆的开展新的服务带来了机会与挑战。国外的研究与实践已经证明,图书馆不仅可以主动参与到E-Science环境中,更可以凭借自身的优势为科学数据的管理提供重要支持。作为应对E-Science时代的重要战略,数据策管必将成为图书馆,尤其是学术型图书馆发展的下一个里程碑。所以,如何调整角色,获取新技能以投入到这项新的服务中,实现角色转型,应成为了当前图书馆需要关注的问题。相信未来几年,随着研究和实践的深入,图书馆在数据策管上定会取得长足进步!