数据监护:美国高校图书馆的新探索,本文主要内容关键词为:美国论文,图书馆论文,高校论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
20世纪70年代,科学数据共享开始在国外出现,许多国际组织和政府对此予以高度重视;90年代初美国将“完全与开放”的数据共享政策作为联邦政府在信息时代的一项基本国策;我国也在2002年正式启动“科学数据共享工程”,全面推动数据共享建设。高校图书馆在数字资源长期保存领域的研究已经有20余年,但未对科研过程中所产生的大量数据给予足够重视;此外,单纯进行保存工作,无法充分发挥高校图书馆在信息管理、信息增值方面的职业优势,限制了图书馆学科服务的进一步提升。近年来,上述问题开始得到重视,数据监护(data curation)服务逐渐成为国外图书馆界科研及实践的新热点,其中以美国高校图书馆表现最为活跃。
1 数据与数据监护
1.1 数据的定义
数据监护中所谓的“数据”,并非计算机科学中所指的以数字化形式编码的“数据”。英国JISC(Joint Information Systems Committee,联合信息系统委员会)是较早开展相关研究的学术团体,它将“数据”定义为“原始的研究数据”[1];美国NSF(the National Science Foundation,国家科学基金会)将“数据”的定义进一步细化为“所有能以数字化形式存储并能以电子方式获取的信息,包括数字、文本、出版物、感应器读数流、视频、音频、算法、软件、模型、模拟、图像等。”[2]
通过上述定义我们可知,数据监护中的“数据”专指科学数据,即科学研究中通过测算、计量、观察、访谈、调查、设计、建模等方法获得的,并能以现代信息技术保存和获取的记录。
1.2 数据监护的定义
Curation一词源于博物馆学,意为“策展”,表示对藏品持续养护并推出有主题的展览,最终提高馆藏面世率,促进科研和教育。JISC在2004年的相关报告中专门就图书馆中的curation及相关概念作了解释:
数据监护(curation)是为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。对于动态数据集而言,数据监护意味着需进行持续性补充和更新,以使数据符合用户需求。
数据存档(archiving)是合理对数据进行选择及储存,以确保其物理上及概念上的完整性,以及具备可获取性、安全性和可靠性的活动,它从内容层面确保数据的可用性。
数据保存(preservation)是对具体数据对象进行持续维护,以确保其在硬件技术变革后仍能被读取和理解的活动,它从技术层面确保数据的可持续性[3]。
其他学者对数据监护的定义基本与JISC类似,Shreeves认为“数据监护是在数据供学术、科学及教育所用的生命周期内对其进行持续管理的活动,包括评价、筛选、重现及组织数据以供获取和使用”[4];Choudhury认为“数据监护是对数据进行收集、组织、验证及保护,以供科学家在面临各种研究挑战时使用的活动。”[5]
由上可见,数据监护有三个特点:首先它是一项持续性任务;其次它对数据进行系统性维护;再次它通过推送数据为科研服务,最终实现数据的价值。
2 数据监护的意义
2.1 数据监护可完善高校的小型科学研究
目前跨国合作的超大型科研项目,如人类基因组计划,由于受到重视,资金雄厚且参与者众多,基本都制定了缜密的数据政策,有专人维护并发布数据。专业科研系统中获得的数据也有对应的机构进行处理,如中国科学院早在1982年就在“七五”规划中开始了科学数据库建设,“十五”结束时子库达503个,涵盖物理、化学、地球科学、能源与材料、信息科学等多个方面。
与之形成鲜明对比的是,众多分散的、地方性的、通常由一位或几位学者负责的小型高校科研项目却至今缺乏统一的数据管理平台,值得注意的是,小型科研积累的数据总量其实非常惊人,据估算为大型科研项目的二至三倍,这些数据通常保存在项目组成员的计算机和服务器里,由研究生维护,格式纷繁复杂,既没有统一标准,也没有分享机制,更缺乏项目完结后对数据的长期利用策略[6]。
小型科学是人们认识和了解特定局部事物的重要手段,可以说是科学界的“地方志”。长期忽视小型科学的数据是非常不合理的,对此美国NIH(National Institute of Health,国立健康研究院)从2003年起要求年度预算达到50万美元的项目在申请时必须制定数据共享方案[7]。图书馆作为高校的信息中心,通过开展数据监护可有效支持小型科学的发展。如美国伊利诺伊大学图书馆与该校生物学院于2004年合作开发了“鼹鼠数量长期调查数据集库”,提供25年来每月农垦区鼹鼠诱捕量及63个月来每周两次的牧草地鼹鼠诱捕量[8]。这些数据具有极强的地域针对性,对发展当地农业有积极意义。
2.2 数据监护可成为高校数据交流渠道
目前,学者通过互联网进行交流的内容多为科研成果,原始数据和资料尚未有一个很好的共享渠道。其实在当前科研数字化的背景下,学者实验、调查、阅读、记录等行为几乎都通过计算机即可完成,科学数据大部分为电子形式,客观上为网络化交流提供了可行性,图书馆开展数据监护也可以很好地入藏这类非纸质信息,符合e-science时代的信息需求。如佐治亚州理工学院的先进脑成像技术中心(The Georgia Tech Center for Advanced Brain Imaging)每位专家的实验室均各自存储有4-5TB的研究数据,因没有统一检索平台和公用数据库,专家只能各自开展研究并由研究生对数据进行维护。经学院图书馆调查,专家均对建立科学数据共享平台表现了强烈的兴趣,但苦于不懂信息技术和信息管理方法,商业机构开价又太过高昂,因此迫切希望图书馆能针对数据交流搭建一个平台[9]。
2.3 数据监护可提供高校数据发布平台
目前各学科学者在发表文章时,经常要使用数据作为支撑材料,这就产生了大量表格和图片。但图表受限于版面费和页数无法大量刊载。因此学者开始在文章中提供数据的URL地址供读者自行上网查看,近年来这种出版现象在自然科学诸领域刊物愈发多见。但互联网上的资料同样容易流失,据OCLC统计,1998年、1999年和2000年存在的网站IP到2002年时分别仅剩13%、19%和33%[10]。可见个人提供的网上数据保存问题很严峻,数据遗失将使科研成果不完整,影响其价值。数据监护恰好可以凭借图书馆稳定性好、可信度高的优势,提供一个由专人维护的、长期运作的统一数据发布平台。
2.4 数据监护是高校图书馆持续发展的必然选择
金融危机以来,国外高校都面临着严峻的财政问题,图书馆首当其冲成为削减开支的对象,甚至出现大量分馆被关闭的现象。图书馆迫切希望通过加大学科服务的深度和广度,进一步与高校科研融合,从而体现自身价值,避免边缘化。高校图书馆可在现有机构库的基础上积极转型,将目标由科研成果转向科研支撑材料——数据,通过为科研项目提供数据监护服务,从而摆脱单纯的收藏者角色,成为知识发布、保存、利用和管理的全能者。
3 当前数据监护的研究主题
数据监护作为一项新兴课题,其理论体系尚在逐渐完善中,目前主要以实践为主。笔者通过浏览相关项目网站、阅读学术论文及咨询伊利诺伊大学图书情报研究生院相关教师,得出当前研究的几项主题。
3.1 数据监护的战略实施研究
NSB(National Science Board,美国国家科学基金会董事会)于2005年9月发布了关于数据藏品长期保存的指导性文件,详细分析了什么是数据、数据保存策略、数据保存者任务等内容,文件指出目前数据的保存任务非常紧急,建议NSF职能部门尽快在技术和财政两方面制定发展策略[11]。作为对这一要求的回应,NSF于2007年启动DataNet计划,明确以图书馆为主体,预算1亿美元,用5年时间资助5项数据监护重点研究课题。目前有两个获全额资助的课题:
其一为DataONE(Data Observation Network for Earth)项目,由新墨西哥大学图书馆主持,于2009年8月启动。该项目专门针对地球科学开发,旨在构建一个能提供准确清晰的地球观测数据(主要是图表和可视化示意图)的分布式数据监护网络体系[12]。
其二为Data Conservancy项目,由约翰霍普金斯大学图书馆主持,于2009年10月启动。项目采取以用户为中心的理念,使用OAI-ORE标准,在现有数字化系统和标准上开发数据监护系统,系统特色包括模块化设计、互操作网络、层存储等[13]。
实际参与两个项目的高校图书馆多达10余所,尽管尚在初期建设阶段,但从发布的项目目标看,各图书馆均有长期承担数据监护的意向,目前的战略布局主要有:
第一,抢占数据监护服务阵地。不论数据集的大小及发展是否明朗,图书馆都应当立即针对可获得的数据集开始收集工作,以此开始探索数据监护的一系列活动,通过收集数据使用案例,分析并总结用户需求及使用规律,为数据监护提供基础材料。
第二,加快元数据建设。为不同学科的数据检索设立元数据标准,通过协助学者进行科研结果的元数据交流,有力支持跨学科、跨协会的数据检索与发掘活动。
第三,完成“数据监护员”角色转变。加大宣传力度,推荐图书馆员加入运作中的科研团队并承担“数据学者”的角色,通过实践为团队提供数据监护实操技能及策略,就数据管理的最佳实施方法广泛征询科研工作者及科研团队的意见[14]。
3.2 数据监护的发展策略研究
数据监护运动恰逢金融危机之际,使得众多项目资助者都提出了一个共同的要求:数据监护要能实现经济上的可持续发展。NSF的DataNet计划就明确要求被资助者提出经济模式,在5年资助期满后具备自生存能力。NSF实际要求的是“图书馆——学科”共建模式,其成员不仅要有图书馆员及信息技术员,还必须有相关学科的学者参与,通过为科研人员提供服务,吸引其加入该活动并注资[15]。Testi介绍了Biomed Town社团的合作组织网模式,其推出的生物医学类科学数据存储库使用客户端/服务器模式。服务器置于门户网,客户端根据该库的本体进行数据上传和完善后获得点数。用户可以用点数再“采购”数据,当然,PhysiomeSpace也可付费购买点数[16]。
3.3 数据监护的合作模式研究
如何实现图书馆与科研团队的合作,多数图书馆均倾向于在较为完善的学科馆员服务方式上继续探索。如康奈尔大学图书馆的DataStaR(Data Staging Repository,分布式数据存储库)项目,研究者将在学科馆员协助下完成元数据的处理、检索、提交、共享[17]。普渡大学图书馆的D2C2(Distributed Data Curation Center,分布式数据监护中心)项目则通过学科馆员联合各学科专业学者,共同研究数据存储库建设,开发元数据搜索和数据监护流程等,最终目标是通过D2C2使所有学科馆员都能承担起相应领域的数据监护任务[18]。
3.4 数据监护的内容研究
2007年,IMLS(the Institute for Museum and Library Services,博物馆与图书馆服务协会)资助普渡大学图书馆和伊利诺伊大学图书情报学院共同开展Data Curation Profiles项目,旨在通过访问调查的形式,探明各研究领域内数据共享者、科研各阶段文件格式、数据价值和用途、共享途径、期望保存年限、产权归属等问题。至2010年7月,该项目共发布了人类基因、大气建模、交通流等9个研究领域的调查报告[19]。
3.5 数据监护的技术研究
数据监护秉承开放获取理念,如Data Conservancy项目采用基于图书馆的DuraSpace软件,由DSpace和Fedora联合开发,是一种新的基于网络的服务,它既“基于云”又“基于机构”,能够解决许多组织没有时间、资源或意愿处理的复杂问题,便于公共机构向多个存储系统分配内容,与直接利用云端服务商相比有很大的不同[20]。
目前开展的数据监护项目都认定资源将是分布式,需要监护的数据不仅量大,且类别和复杂性也在增强。Hedges认为监护自动化是解决的关键,并介绍了一种使用iRODS的方法,目标是为用户提供一个灵活的,可定制的网格数据管理平台;以监护规章和策略为规则,用数据集、数据对象代替了目录和文件的概念,并将它们存储在数据库中,组成一个虚拟的目录树。将分布在不同计算机上的数据资源虚拟到一台虚拟服务器上,客户端通过访问这台虚拟服务器即可以获取所有的数据[21]。
3.6 数据监护的职业教育研究
数据监护作为一项知识服务,其数据处理和管理方法实际上来源于信息管理,正是图书馆的强项。伊利诺伊大学图书馆与信息科学研究生院的DCEP(Data curation Education Program,数据监护教育计划)采取在成熟课程基础上添加新内容的建设方法,辅以针对性强的实习,主要研究数据采集与管理、知识表达、数字资源保存与存档、数据标准、数据政策。课程包括信息组织、信息建模、本体论和元数据理论与实践等[22]。
北卡罗来纳大学的DigCCurr项目(Digital Curation Curriculum,数字化监护课程)的目标是开发一门可开放获取的、硕士研究生层次的课程。该项目把推出全新的授课内容作为创新点,目前已完成5门课的设计:iRODS规则构建、数字资源保存与获取、卡罗莱纳数据监护人员入门、数字藏品管理信息技术、数据监护应用与挑战;另有数据监护知识与职业能力基质、数据监护功能高阶分类两门课仍在完善中。2008年启动的DigCCurr II项目则进一步提出要在2011年开发出数据监护博士研究生课程和教学网络[23]。
4 结语
笔者通过检索网上资源,发现目前data curation在我国鲜有提及,孟广均将digitial curation译为“数字保存”[24],任平将其译为“数字医疗”[25];另外互联网上有少量博客将其译为“数据典藏”、“数据诊断”等,这些文献及网页内容简略,未能充分反映数据监护的全貌,而且对data curation的翻译值得商榷,显示该领域在中国还没有引起足够的重视。数据监护作为图书馆服务的一个新兴领域,国外在这方面的研究和实践也尚不足十年,目前前述国际项目均仍在进行中,有些甚至刚刚启动,可以预见不久的将来必能取得长足进步。为拓展高校图书馆的发展道路,深化其在信息服务领域的地位,建议国内同仁密切关注国外进展,争取在政策、研究、教育方面尽快开始探索性实践。
收稿日期:2010年9月20日