英国数据监测的研究成果及其在高校图书馆中的应用--DCC建设综述_dcc论文

英国数据监测的研究成果及其在高校图书馆中的应用--DCC建设综述_dcc论文

英国数据监护研究成果及其在高校图书馆的应用——DCC建设回顾,本文主要内容关键词为:英国论文,研究成果论文,图书馆论文,高校论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

DOI:10.13663/j.cnki.lj.2014.01.016

当代科学研究正在向数据密集型转变,以数字形式存在的科研数据逐渐成为学术交流基本元素,数据监护(Data curation)作为图书馆一项新兴服务正日益铺开。英国是最早开始探索这一领域的国家之一,数据监护中心(Digital Curation Centre,DCC)是引领相关研究和实践的核心机构。自成立以来,其活动涉及数据监护内容、对象、方法和工具等方面,为塑造这门新学科起到了巨大的推动作用[1]。同时,英国高校图书馆与DCC的发展密不可分,前者广泛参与项目建设,贡献了实践案例和经验,后者又反之提供指引和帮助,实现了良性互动。深入了解DCC建设历程和成果,对我国高校图书馆开展相关研究和应用有重要的借鉴意义。

1 数据监护及DCC的源起

数据监护萌生于数字资源长期保存研究(long-term digital preservation),从20世纪90年代中期欧美开展相关项目之初,以电子形式存在的科研数据便已被确定为保存对象之一。但研究原本一直关注如何避免数据在技术更新及管理不善中损失,数据被封存以确保其完整性和真实性,成了使用率很低的“暗存档”(dark archive)。随着研究深入,人们意识到要使数据在科研生命周期中被积极保存、利用和再利用,实现激发新研究灵感的价值,图书馆的工作就必须从被动保存数据提升到确保其访问和发现的可持续性。

2001年英国研究理事会总长泰勒(Taylor)在一次关于E-science的宣讲中首次建议要开展“curation”工作[2],该词多用于博物馆学,意为“策展”,指对藏品持续养护并不断推出新主题展览。一直主导图书馆学和信息学领域数字化科研项目的信息系统联合委员会(Joint Information Systems Committee,JISC)立即在同年召开的数字资源长期保存研讨班上提出了一个全新概念:数字资源监护(digital curation)[3]。2002年JISC发布的《数字资源可持续获取及保存策略2002-2005》报告中,提出要建立一个核心机构引领和协调英国数字资源监护建设[4],最终促成DCC于2004年初正式开始运作。作为一个JISC指导下的合作型机构,DCC办公室设于爱丁堡大学,由三个组织共同运作:

●爱丁堡大学信息学院;

●巴斯大学英国图书馆合作协会(UK Office for Library Networking,UKOLN);

●格拉斯哥大学人文先进技术与信息协会(Humanities Advanced Technology and Information Institute,HATII)。

2 DCC建设的调整和完善

目前DCC共经历了三期建设:2004年3月至2007年2月为第一期,2007年3月至2010年2月为第二期,2010年3月至2013年2月为第三期。作为全球首家专门开展相关研究的机构,DCC在不断调整和完善中走出了一条数据监护可持续发展道路。

2.1 明确机构定位,从全面处理数字资源到专注科研数据

DCC对自身定位的明确,生动体现了学术界对数据监护认知的发展。第一期伊始,JISC专门发布了重要的《英国e-Science的数据监护》报告,指出DCC的任务是针对“原始的科研数据”开展“data curation”,可DCC却最终沿用了“digital curation”的命名[5]。DCC成立后也表示将“全面处理各种形式的数字资源,包括科研数据、出版物和机构记录”[6]。显然DCC一开始采取了大而全的定位,应该称为数字资源监护中心更贴切。这种定位使第一期有部分工作与数字资源长期保存研究出现重叠,而且当听众得知监护对象是所有数字资源时,容易对自身参与数据监护的可行性产生怀疑。DCC很快察觉这个问题,因此将完成对该新兴学科的认知建构列为第一期建设核心任务,并通过组织会议、创立刊物等手段开展广泛讨论。2007年第一期临近尾声时,JISC考核组再次强调DCC必须专注于“科研数据”,DCC从第二期开始提出“好科研需要好数据”的建设口号并沿用至今,指明今后仅针对“数字化科研数据”(digital research data)开展工作[7]。至此DCC实现了digital和data两个概念的有机结合,成为严格意义上的数据监护中心。

2.2 转变机构职能,从偏重技术研发到专注多层次服务

DCC成立之初声明是一个以技术为导向的机构,第一期建设中开展了数据标注、基于WIKI的数据世系管理、多种结构数据XML整合与出版、元数据提取等方面的技术研发活动,为开展数据监护提供了坚实的技术基础。但纯技术问题并非科研数据的使用者和监护者——科学家和图书馆员——所关心的第一要务,要完成JISC赋予的推广数据监护的任务,工作显然更应该在服务上做文章。

从第二期开始,JISC将DCC研发职能转移到其他更专注技术的项目中,使其致力于成为提供数据监护咨询服务(advisory services)的权威机构,能协助科研工作者进行战略规划、为从业者和资助机构提供专业顾问和解决方案。2008年金融危机爆发后,英国科研工作在资金上面临很大压力,当年人文艺术研究委员会终止了对艺术人文数据服务计划(Arts and Humanities Data Service,AHDS)的资助,这次事件使DCC意识到可持续性发展不仅需要学者的广泛认同,更需要产生效益以增强资助者的信心。第三期建设开始后,DCC除了提供免费监护工具及资源,还推出有偿服务,如收取成本价的培训课程和在线业务指导、为具体数据监护个案提供付费咨询等。通过多层次的服务,DCC在扶持英国数据监护活动的同时,也逐渐走上了依靠自身的可持续发展良性道路。

2.3 调整服务对象,从面向全社会到专注高等教育界

目前大型科研活动如强子对撞机等项目,都有缜密组织和完善的数据保存利用政策,但大量由高校学者承担的“小科学”(Small Science)活动产生的数据却长期缺乏管理、分享机制和长期利用策略。值得注意的是,其实小型科研积累的数据量约为大型科研的二至三倍[8]。小科学是人们认识和了解特定局部事物的重要手段,而且目前英国的资助基金会普遍意识到科研数据也是资助成果之一,有必要通过公开发布实现效益最大化。

DCC 第一期本意图构建一个广泛涉及高等教育、商业和公共领域的数据监护社群,在随后的发展中,DCC意识到服务对象太过宽泛:公共领域的数据项目如世界数据中心(World Data Center,WDC)等,基本都有政府强力支持;而商业数据项目的运营手法和目的又与DCC难以契合。鉴于高校学者对数据监护的热情,再考虑到JISC本身就基于高等院校的科研活动,DCC回归高等教育实为合理。从第三期开始,DCC转为针对高等教育机构开展服务。JISC要求DCC向高校宣传优秀案例、构建大协作网络及促进监护工作广泛铺开,为此DCC专门推出全国巡讲活动(road show),为各数据监护项目分享最佳实践及保持有效联络牵线搭桥。2011年,英国高等教育基金委员会(Higher Education Funding Council for England,HEFCE)也特别拨款资助DCC与21间大学开展了为期60天的“高效接触”活动,DCC借此与进行中的项目进行交流、推广成功案例、传授工具使用方法。

3 DCC建设成果在高校图书馆的应用

通过开展信息素质教育、创造知识共享空间等活动,英国高校图书馆在快速发展的教学研中发挥着积极作用,但有学者留意到,即使是在许多顶尖高校中,图书馆也没有建立广泛的教师伙伴关系。更无奈的是,过去20年图书馆为迎接E-Science时代而大力推广电子文献和资源发现工具的举措反而加速了自身与服务对象的疏离,每年为读者提供数千次在线书目检索的盛况不复存在,甚至有学者完全没意识到自己能使用电子资源有赖于图书馆的一份贡献[9]。科研数据服务需求的出现,使图书馆看到了重新获得学者信任的切入点。DCC在历时9年的建设中完成了大量调研、培训和工具开发工作,这些成果可为数据监护活动提供有效解决方案,因而获得了高校图书馆界的高度重视和广泛采用。

3.1 提升馆员认知,构建数据监护社群

为满足E-Science时代的科研服务需求,图书馆员应当首先完善自身对数据监护的认知。,DCC认为这不仅限于学科馆员,其他负责系统维护、存储管理、电子资源管理工作的图书馆员也应当加深对科研数据的认识,为此DCC组织多间大学的图书馆员以及国家数据中心等机构的工作人员制作了旨在普及监护知识的行业资讯并通过网站发布,同时创办学术刊物,努力构建一个基于研究,面向服务的监护学科社群[10]。

(1)数据监护概要。概要(Briefing Papers)是高度精炼的知识普及文献,主要提供高水准的最新行业进展报告,提升数据监护工作者对热点问题的理解。目前有学科建设、政策和制度、法律事务、软件工具及资源、国际标准共5份。

(2)数据监护指南。指南(How-to Guides)是在概要基础上制作的,主要为初次接触数据监护的图书馆员、学者提供快速实操技巧。此前有4份:评估及选择科研数据、引用数据集并与出版物链接、制定数据管理及共享方案、制定数据使用许可。为进一步配合第三期重点向高校推广数据监护的目标,2013年3月又推出了第五份指南:高校科研数据管理服务拓展,详细介绍了制定政策、制定发展策略、开展培训、进行数据管理和编制数据目录的方法,并提供真实案例供参考。

(3)数据监护参考手册。手册(Curation Reference Manual)是指南的升级,提供更多深入、专业的指导。由DCC的数据监护工作社群主办。社群成员根据科研和工作的进展不断完善内容,并由国际专家实施同行评审,确保手册实用性和高质量。目前已完成的章节有:数据评价与筛选、本体、数据监护开放资源、网络资源存档、元数据、电子邮件监护、保存策略、智力资产投资、学习对象元数据、缩微胶片等;另有自动元数据抓取、行业标准、数据生命周期规划、OAIS模型应用、电子资源保存大环境、视频数据等章节正在编撰中。每个章节都包括实操指导、技术前沿和真实案例深度述评,能帮助数据生产者、监护员和用户更好地认识各自角色及面对的挑战。

(4)《国际数据监护杂志》。2006年DCC创刊International Journal of Digital Curation,内容包括同行评审论文和普通论文,还发布业内新闻,采用开放获取方式在网上每年出版两期。该刊是全球首个专注科研数据和数字化对象监护、管理及实践主题的出版物,为相关研究者和图书馆员提供了一个稳定的学术交流平台,对促进数据监护研究向深度发展、构建稳固的从业社群有重大意义,被视为数据监护成为专门学科的里程碑。

3.2 开展职业教育,提升数据监护技能

面对日益高涨的数据监护需求,图书馆发现过往专业经验不足以取得显著成效,有必要明确这项服务所需的技能,加大人才培养和资源发展力度。DCC参与了多项学术、职业教育项目,并在图书馆界大力推广,鼓励馆员更新知识。许多高校图书馆员参加了学习,而随后的工作又成为教学案例和经验,形成教育良性循环[11]。

(1)DaMSSI。科研数据管理技能支持项目(Research Data Management Skills Support Initiative)的建设目的是专门测评数据监护教材内容的覆盖广度。在2010至2011年间,JISC为促进研究生教育中的数据监护课程,资助多所大学的图书馆学专业开展了针对人文、艺术、医学、文艺学和心理学等方向的相关教学素材建设。DCC联合信息与图书馆教学研究协会、国立和大学图书馆协会和研究生教育协会等专业组织,将课程板块与目前被高校学者广泛采用的信息素养七要素(7 Pillars of Information Literacy)和学者发展框架(Researcher Development Framework,RDF)两个模型进行比对,评定内容是否全面。

(2)DaMSSI-ABC。科研数据管理技能—测评、基准与分级(DaMSSI-Assessment,Benchmarking and Classification)是DaMSSI项目的延伸,目标是进一步测评教材的层次深度。通过将各课程教学点与学者发展框架中的信息素养能力层级图进行对应,成为一套直观的基准表,使课程深度一目了然,不仅方便用户根据数据监护实际需求选择最切合的课程,还能帮助培训机构自我考核和加强沟通。项目另一项工作就是为此前产生的优秀数据监护方案提供背书,担保其成效并向学者及科研资助基金会推广。

(3)DigCurV。数据监护师职业教育(Digital Curator Vocational Education Europe)是欧盟面向有长期数据监护任务的图书馆、档案馆、科研中心开设的职业培训计划。DCC作为参与机构,主要负责汇报英国工作进展,分析培训教材和课程使用情况,收集整理最佳实践方案,调研职业所需技能和核心能力,为不断完善课程提供建议。

(4)CDCG。数据监护差距弥补课程(Closing the Digital Curation Gap)专门面向中小型图书馆,为它们提供实用技能型培训和先进经验推广,避免这些小规模机构因势单力薄、缺乏交流而无法开展服务。教学内容包括数据生产、数字化产品采访、元数据创建和管理和知识财产管理等。

3.3 调研学者需求,探明数据监护环境

由于科学领域研究成果的共享与利用问题十分复杂,不同学科数据类型、生命周期、使用方法差异也很大。DCC秉承英国学术研究侧重实践和解决实际问题的传统,联合高校图书馆完成了针对多个学科的调研项目,为确保数据监护服务有效开展发挥了很大作用[12]。

(1)SCARP。多学科数据共享、监护、再利用及保存机制(Disciplinary Approaches to Sharing,Curation,Reuse and Preservation)是DCC一项大型调研计划,旨在深入了解多个学科的数据使用机制,总结出各学科异同,与学者一起找出最合适的数据监护方法。具体包括:巴斯大学图书馆调查了工学、建筑学、社会学一般数据及视频数据利用机制;爱丁堡大学图书馆探究了爱丁堡小鼠图谱计划、远程医护项目、精神病学脑成像图库的数据生命周期、监护风险和法律事务;不列颠大气数据中心也参与该项目,总结了数据长期保存和发展策略。

(2)I2S2。结构型科学整合项目(The Infrastructure for Integration in Structural Sciences)面向化学、物理、材料和地球科学等,同时涉及学术和产业研究的“结构型科学”,这些学科内部及彼此间有广泛的数据交流需求,但管理机制迥异,且各自建有大规模的数据保存机构,花费大量精力开发复杂的系统,反而成为一个个难以贯通的数据焦点。项目主要从化学入手,由巴斯大学和南安普顿大学图书馆负责调研,探明了结构型科学中科研数据的流转过程以及其中的关键工具、软件、系统、平台和人员。

(3)ERIM。工程科研信息管理计划(The Engineering Research Information Management Project)通过与巴斯大学创新设计与制造研究中心合作,以工程计量及约束管理领域为切入点,探明工程设计和制造研究中科研数据产生机制、技术需求和社会/法律环境,制定一套能提供先进经验指导和工具的数据监护解决方案,实现数据效率最大化。具体工作有三项:第一是通过案例分析查明工程科学研究涉及的数据类型;第二是根据学术大环境制作数据采集、汇总、使用流程图和标准术语表,帮助学者了解整个过程并有效沟通;第三是推出规划方案,包括基本原则、要求、计划大纲和图表化指导意见等,详细指引从数据初次使用到再利用的各步骤。

(4)Incremental。数据增值计划(Incremental)是DCC主持下的一个专门面向学者的导引项目,由剑桥大学与格拉斯哥大学的图书馆联合开展。两间图书馆都发现不少学者既无暇探究数据监护最优方法,又不知从何途径能获得支持,希望能有清晰指引。为此项目首先制作简明易懂的数据监护指南,通过大量图文并茂的说明书、流程图、核查表和常见问题集向学者介绍可用服务和资源;然后针对不同学科推出实践技能培训,包括数据生产、组织、存取和管理,并制作了视频教程供在线自学;最后通过为学者提供一对一的帮扶支持,从项目申请阶段开始就保持良好联系,探索构建全面稳固的数据监护服务。

3.4 创建数据监护工具,拓展本地服务

有报告称,尽管高校大多数学者和机构都对数据监护表示欢迎,但普遍对技术应用、按时按规发布数据、应对未来数据咨询需求及确保数据合理再利用等问题感到信心不足[13]。DCC建议图书馆可将数据监护作为参考咨询工作的延伸,积极为本地数据推出力所能及的服务:可以先与学者交流相关话题,并图书馆网站开设专门栏目;随着沟通逐渐顺畅,可以引导学者在科研启动前,尤其是项目申报阶段就将数据监护纳入项目方案里。为此DCC基于数据生命周期开发了多种工具以确保数据监护服务顺利开展[14]。

(1)DMP Online。在线数据管理规划工具(Data Management Planning Online)通过创建表单,引导数据监护员完成预案,并在项目实施中构建更细致的方案。DMP提供依据多种基金申报要求而制作的数据监护方案模板,针对英国医学研究委员会、生物科学研究委员会、经济与社会研究委员会、人文艺术研究委员会等有明确相关要求的资助机构,DMP还会将要求详细划分成多个小节。在申请资助阶段,用户只需根据模板逐项填写就能保证吻合基金要求。若成功获得资助,用户可以调整为研究阶段,DMP会提供更详尽的模板,填写完成后可输出为pdf、html与docx格式,一份数据监护方案即告完成。

(2)CARDIO。科研数据概况及目标协同测评工具(The Collaborative Assessment of Research Data Infrastructure and Objectives)是一个面向机构及团队用户的基准测评调查表,内容涉及风险分析、管理方法、资源评估等,采用为每个问题按程度评1~5分的方法给予评级。再基于真实案例为用户提供实操建议。科研管理者、学者及学科馆员可协同测评机构内数据监护的目标、活动及规模,确保达成共识。CARDIO的使用分五个步骤:第一步,管理者完成评级,CARDIO会将回答与自带的基准进行比对,给出现实中符合及超越这些评级的实例,以此提示可改进之处;第二步,管理者用CARDIO将提问拆分并重组为若干份,分发给相关负责人评级并陈述工作思路,系统会提示有潜在问题的评级;第三步,评级汇总,系统可清晰显示哪些评级存在共识或分歧,团队成员依此进行交流,消除误解,明确权责。第四步,系统生成表明数据监护强项与不足的图表及改进项目清单;第五步,各负责人提交改进日程表,系统会按时提醒用户完成。

(3)SRF。智能科研系统(Smart Research Framework)是DCC将此前南安普顿大学开发的三个网络系统LabTrove、LabBroker及Blog3整合后形成的一个基于云的开源协同笔记。SRF界面亲切,在实验环节可很好地植入实验仪器和计算机,自动记录仪器产生的数据并转换为XML格式,然后以日志形式在博客上发布。这个工具已经在化学、物理、工程、环境、医学领域得以应用,使学者能满足资助基金关于及时发布数据的要求,还可促进学者利用数据开展合作。

(4)Dryad UK。林仙计划(Dryad)由美国国家科学基金会资助,是一个为生命科学、医学科研数据提供稳定发布平台,促进数据再利用的国际性大项目,许多知名科研机构、出版社都参与了建设,目前有200多种同行评审期刊论文的数据在林仙网站发布。Dryad UK是其英国子项目,主要是在英国进行推广并在大英图书馆创建镜像。DCC的任务是通过研讨、调查、文献调研等途径,评估其数据存储方案并协助进行完善,此外还参与科研数据引用方面的研究,如赋予数据集DOI号、数据引用规范等

(5)PREPARDE。地球科学科研数据出版及鉴定同行评审研究(Peer Review for Publication & Accreditation of Research Data in the Earth Sciences)重点关注2012年Wiley公司新出版的《地球科学数据期刊》。项目将探明此类数据专门型期刊运作的合理方法和流程,DCC计划在2013年6月前与兰开斯特大学、Wiley公司一起完成为数据审稿专家拿出一套评审和管理操作指南、为数据投稿学者开发必要的操作界面和工具、组织相关学者构建数据监护研究团体的工作。

3.5 开展效益和风险分析,引导数据监护制度建设

DCC相信积极与学者接触能为图书馆推广数据监护服务创造机会,但若希望图书馆成为制定相关指导意见的主要顾问,还必须加大对高校科研和创新管理委员会及更高层领导的宣传工作,通过提供具有说服力的分析报告,使他们了解当前数据监护所面临的挑战及其能为机构带来的效益。管理层的支持对图书馆争取到那些持观望甚至质疑态度的学者大有裨益。为此DCC与高校图书馆联合制作、验证了多种分析工具。

(1)DAF。数据资产框架(Data Asset Framework)是专为核实、定位、描述及测评机构拥有的数据而制作的在线调查工具。目前牛津大学、爱丁堡大学、巴斯大学、格拉斯哥大学、帝国理工学院、伦敦英皇书院等多家高校的图书馆用其为科研团体提供数据资产管理服务。DAF首先明确数据的格式、大小等客观要素;其次调查数据涉及的资助基金、重要性;再次深入了解机构的数据管理、保存、分享机制;最后,数据监护员根据结果生成调查报告,使机构能清晰了解拥有的数据、产生数据的环节、数据对科研的作用及哪些人员应对哪些数据负责,从而更好地完善管理制度和发展策略。

(2)DRAMBORA。数字化存储库风险评估(Digital Repository Audit Method Based On Risk Assessment)是一个在线审查工具,首先调查机构科研愿景,包括资助基金、项目预期成果等,其次通过详细问题引导使用者开展数据管理、流转、保存活动审查,工具可自动列出各种潜在不利影响并逐条与机构愿景对应,还提供大量风险案例的模板供数据监护员援引或修改,最后生成风险报告。图书馆使用DRAMBORA可以有效帮助学者快速发现科研数据管理存在的问题,尤其是能在基金申请前提前做出预案,使申请资助获得优势,从而极大增强学者对图书馆的信任度。

(3)KRDS/I2S2。这是一个DCC联合伦敦大学学院、埃塞克斯大学及约克大学等高校的图书馆开发的数据监护效益测评工具,该工具是一个在线调查表,整合了JISC开发的科研数据保全项目(the Keeping Research Data Safe)的效益分类表和I2S2项目中的价值链分析表。其中KRDS关注宏观方面,如促进项目基金申请、提升项目影响力等效益;I2S2更注重细节部分,如项目评估、任务制定、撰写报告等。系统通过分析用户对问题的回答,总结出数据监护活动的内外部受益人、直接及间接效益、短期及长期效益等并生成报告。

(4)LIFE成本核算工具高校推广计划。数据保存和管理涉及生产、采访、置入、元数据处理、位流保存、内容保存、读取等阶段,每个阶段又包括许多细分的工作,这些都将产生开销。电子文献生命周期项目(Life Cycle Information for E-Literature,LIFE)是一个旨在构建图书馆数字资源成本核算方法体系的项目,其第三期任务就是要提出一个核算科研数据活动开销的方法,最终成果是一个依网格化管理理念制作的核算表,机构根据表内项目填入具体开销,就可以一目了然地了解成本,从而提高资金规划效果并制定更实用的管理制度。大英图书馆是该项目实施机构之一,并已在公共图书馆系统中进行了测试。JISC作为资助方,指派DCC将LIFE核算表推广到高校图书馆中,同时通过用户测试收集改进意见,使其具备更广泛的适用性。

(5)ERIS。苏格兰存储库强化项目(Enhancing Repository Infrastructure in Scotland)的任务是为鼓励学者向机构库提交成果、促进机构库与科研融合而推出一套以用户为中心的解决方案,DCC的任务是构建一个基于成熟数据监护工具的管理政策框架,为制定数据审核、管理、产权事务和可持续使用等方面的规章制度提供参考。

4 结语

数据监护是一个新颖且复杂的领域,不仅涉及理念、定义,还包含技术、管理、法律、经济等多方面问题。DCC作为推行数据监护理念的最直接产物,在9年的探索中成长为英国乃至全球催生数据监护学科和社群的最重要力量之一。目前数据监护正朝着国际化方向发展,我国高校图书馆界对这一领域也日益重视,但文献多偏重概念、意义、国外进展简介等内容,笔者尝试深入了解DCC历年项目的实施细节,并探究高校图书馆在其中的作为,希望不仅能回答数据监护是什么,更能回答做什么以及怎么做的问题,为我国相关实践提供必要参考。

标签:;  ;  ;  

英国数据监测的研究成果及其在高校图书馆中的应用--DCC建设综述_dcc论文
下载Doc文档

猜你喜欢