国外Data Curation研究综述——以2011年江苏高考18题为例,本文主要内容关键词为:江苏论文,国外论文,Data论文,Curation论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
“e-Science”一词通常指借助于网格技术,旨在推进数据、资源和通信的统筹和分布式共享而进行的大规模科研合作,观测数据和实验数据催生了大量的典型和通用数据类型,数据收集和开发的Curation工作对结果验证、后续试验和积累分析起到至关重要的作用。尽管如此重要,但是只有极少量的科研产出得到了有效管理和维护(curated),为了促进科研投入收益的最大化、研究得以验证和拓展,减少数据损失并提高科学解释的精确性,应当施行强有力的Curation实践以化解潜在的风险,确保数据的溯源性(provenance)、完整性(integrity)以及再利用的可靠性(reliable)。科研数据量的指数级增长以及不断涌现的新技术,给数据管理和开发活动带来挑战和危机,同时,科研数据的有效管理和充分开发能够促进知识创新,两者是不可分割的互动关系,国外学者在21世纪初就对数据的管理及相关问题作出了探索性研究并付诸实践,这对改善科研数据的应用环境起到了理论支撑和实践指导作用,积极借鉴和吸收国外的先进经验对促进我国的科研创新有重要意义。
1 Data Curation科学内涵及价值
1.1 Data Curation的基础定义
英国Digital Curation Centre(DCC)[1]对Digital Curation(DC)下了明确的定义:DC是指在数字化研究数据的生命周期内产生的维护、保护和增值数字化数据的动态管理活动,目的是减少长期研究价值的威胁,降低数字老化的风险,置于可信的数字化存储库中的“Curated Data”,可以增进英国研究界的数据共享并减少研究数据创建工作中的重复劳动,增强高质量科研的可用性以提高现有数据的长期价值,这里的“Digital”实质上是“Digital Research Data”的缩写,DCC认为DC和“Data Preservation”是正在进行中的动态过程,需要深思熟虑以及充足时间和资源的投入,参与者必须做到心中有数并采取行动以促进整个数据生命周期Curation和Preservation的有效性。美国伊利诺伊大学(UI)图书馆与信息科学(LIS)研究生院认为,Digital Curation是主动的、持续性的数据管理,这一管理活动伴随着数据的生命周期并对学术、科学和教育大有益处,DC通过认证、归档、管理、保存和表示来促进数据发现和检索、保持数据质量、增加价值并提供重复利用[2]。Adrian Cunningham[3]从档案工作者的角度分析了Digital Curation、Digital Archives和Digital Libraries的联系和区别,他认为Digital Curation不仅是档案材料的数字化采集管理,数字化记录的Curation实质上是截然不同的Curatorial活动,是为了保证数字归档(digital archiving)这一不同术语的使用而进行的名词划分,从记录保存的视角看,Digital Archives 一词已经被误用和曲解,因此掩盖了与档案资源的采集和长期管理等根本性问题,数字归档是一个贯穿于记录保存过程的介入活动,正如开放档案信息系统(OAIS)参考模型的缺陷性一样,忽略了档案活动的预先摄取需求,Digital Curation的价值在于跨越整个数字信息生命周期的各个流程并通过相关专业的努力从而团结成一个连贯的整体。
1.2 Data Curation的内涵界定
Lord P.和A.Macdonald[4]对“Curation”、“Archiving”和“Preservation”三个相似的活动做了内涵界定。他们认为,“Curation”是管理和推广数据使用的一系列活动,以确保它符合当前的宗旨、发现和再利用,对于动态数据集,这意味着不断丰富和更新以保持灵活的适用性,高水平的“Curation”活动也将涉及维护注释和其他已发表材料的链接。“Archiving”是一项“Curation”活动,目的是确保数据的最佳选择、存储和获取,它的逻辑和物理完整性是指随着时间的推移,能够不断地保持科学数据的安全性和真实性。“Preservation”是包含在“Archiving”内的活动,保持特定的数据项,随着时间的推移能够通过技术变革来保证数据可以被访问和理解,因此,从广义上讲,“Preservation”是“Archiving”的一个方面,而“A rc hiving”是“Curation”根据需要而选择的一项活动,三者的管理关系随着时间的变化而不断调整和深化。Helena Karasti和Karen S.Baker等[5]认为,e-science环境下的“Data Curation”具有丰富的科学内涵,公共资助数据的开放存取是一项令人钦佩的活动,也是实践中难以彻底贯彻执行的政策,同时也为科研的实际行为、高质量数据的Curation活动以及长期管理工作带来了前所未有的挑战,“从事科研”实践中的数据挑战是普遍存在的,包括自动数据采集的e-Science将改变常规的基础性科学决策类型和所拥有的生态基础,从一开始就要考虑周全是面对Data Curation不断变化的主体意识必不可少的应对措施,Curation和管理工作(Stewardship)虽然都是针对数据展开的,但是对数据本质(Nature of Data)、生命周期以及科研环境的看法却不尽相同,e-Science文献的Data Curation贯穿于数据摄入(Ingestion)、归档(Archive)和交付(Delivery)等指引和程序的组织和监督过程中,而Data Stewardship只是提供了一个宏观的概念框架,包括回溯过去、了解现状以及未来规划等,涵盖了从数据规划到数据采样,从数据归档、利用到再利用等一系列过程,包括数据定义、需求分析、质量保证、反馈、再设计以及数据交换等数据关怀(Data Care)和信息基础工作。
1.3 Data Curation的价值意义
Curation激发了自信的和可靠的数据再利用,它对数据的创造者、研究人员、资助者和数据用户产生了即时和短期收益以及长期价值,大英图书馆的Maureen Pennock[6]认为,DC具有提高科研数据质量、提供可靠工作数据的获取、允许结论的外部验证、发布良好的纪录保持标准、允许大数据的分析和开发、管理不同版本的动态数据集、确保有价值的知识和数据以及允许数据集的创新结合8项短期收益,有利于科研过程性证据的记录、收集/分析数据和初期的财务投资的潜力最大化、识别和确保数据的可用性和非重复性、为解决技术过时问题提供框架、增强数据出处的可验证性以及允许未来用户能够有效再利用或借鉴6大长期价值。Curation不仅仅是一个简单的技术关注,还应该解决组织和文化问题:①增强不同网站之间的持续沟通性以避免不同系统和体制的目标所造成的冲突;②辨别和确定每个站点上员工的责任义务以促进Curation关注;③制定政策和程序以处理和定义好管理、传输、存储、归档、保存、访问和重用等实践活动;④加大培训和教育力度以确保符合定义的良好实践。当然,科学家和研究团队仍面临着实践和技术方面的问题,包括开源软件和开源标准、适宜的注释和元数据、关联数据层次、标示符和引文格式、监测和更新旧的存储设备、存储库的鉴别和扩展以及数据迁移和再利用等,e-Science研究的分布式共享本质依赖于协同开发的可重复技术解决方案。
2 Data Curation的技术模型及应用
2.1 技术模型
科研数据Curation问题吸引了大量的关注,随着计算能力的提升、新技术的应用和数据的指数级增长,如何保存和开发数据已经成为知识转化的重要影响因子,能否获得科学数据的最大利益在一定程度上取决于学术图书馆的努力程度。康奈尔大学阿尔伯特·曼恩(Albert R.Mann)图书馆参与了USAEP项目的数据归档和分配工作,Gail S.Steinhart和Brian J.Lowe[7]认为,“Data Curation”的一个核心问题是某个特定学科的数据存储库(data repositories)是否得到最佳管理,但是促进和支持数字化数据(digital data)的基础设施仍受制于不均衡发展和学科、机构和研究范围的可用性等因素,研究图书馆的角色是为研究生命周期(RLC)中DC活动提供服务和设施,最终目的是促进转移完成的数据集和元数据至领域特定机构知识库(IR)中。为此,他们通过辨别和使用特定领域的元数据标准来建立数据集等方法,建立了一个基于探索机制和MIT's DSpace的DC战略模型,该概念模型的设计理念是为了促进个人或研究团队科学数据实现更大范围的共享,该模型由工程参与者(个人实验室、研究小组和研究人员等)、临时区域(图书馆服务)、机构知识库(数据和元数据保存)以及搜索引擎和门户网站等构成。
科学数据一经发表就应该保持永久的可用性以提供知识创新的源泉,使用者需要元数据以便能够准确理解数据的细节,包括工具的设计和构建、何时何地如何采集数据以及处理步骤的详细信息等,Jim Gray和Alexander S.Szalay等[8]描述了一种记录、发布和维护斯隆数字巡天(Sloan Digital Sky Survey)数据的方法,认为不能够复制或重构的数据需要被保存下来,比如元数据。在数据发表(或出版)过程中涉及作者、出版者、创作者和消费者四大利益相关者,出版物由图书馆(Curators)保存和索引,图书馆员记录元数据被视为一种数据Curation行为。数据本身是无用的,除非有一份关于数据采集的时间、方式和派生的详细清楚的描述,他们将Curation形象地描述为“捕捉蜉蝣”(Capturing the ephemera),强调数据利用的时效性和保存的及时性,Curators应该尽可能地获得更多的元数据,如项目设计文档、讨论、程序、软件和操作日志等。
2.2 应用实例
Data Curation对科学数据的数字化、共享、整合和利用等活动起到关键作用,例如在生物多样性研究中,DC包括填写丢失的数据、修正错误和保持计量等工作,标本的数据需要被数字化处理以适应管理需要。DC的工作流程通常包括使用多种工具或服务来支持工作,DC的每一个步骤都被视为一个使用编程语言创作的单独程序以获取相应的服务和工具,开普勒(Kepler)科学工作流程技术提供了一种替代的解决方案,通过工作流程的建设、调度和管理来实现Curators对文档数据的自动化操作。L.Dou和G.Cao等[9]通过自制的Kurator工具展现这种方法的有效性,一个标本数据的Curation流程如图1所示。
图1展示的是Human Curators如何将自动创建步骤交织在一起并实现有效运转的工作流程,根据各阶段的不同特点可将全部流程分为两个方面:①数据清洗服务,包括名称索引、精确化分类和建立支持可视化的数据集;②协作和用户交互功能,利用谷歌云服务来完成数据共享、显示和编辑,并将集成化的数据输入谷歌电子表格,通过e-mail或SMS与Curators团队实现在线或远程共享,Curators通过在线电子表格实现对分配的数据记录的评估和修改,并提供正确的数据或提出修改意见,Kepler工作流程对这些内容进行调查后并根据实际需求修改原始数据集,形成报告后再次将电子表格导入谷歌以供Curators最终审查,在整个过程中Kurator工具包为专家们提供了一个解决数据Curation工作的创新方式,Kepler操作者根据数据集不同的功能或质量问题汇集了不同的Curation 目的,以编程方式精心策划可执行的任务和步骤,促进实现数据Curation的自动化。
DataStaR是由康奈尔大学Albert R.Mann图书馆主办的数据暂存库[10],被设想为一个平台和一组服务以方便在合作者之间的数据共享,鼓励教职员向特定领域存储库或机构库提交数字化数据和高品质元数据。为了说明DataStaR平台对于研究人员的实用性,可以考虑如图2所示的工作流程。
一个完整的工作流程包括以下几个步骤:①研究人员将电子表格上传至DataStaR平台,并由系统自动生成元数据可供创作者选择;②研究人员将元数据权限分配给同事以支持他们及时下载数据;③数据馆员(Data Librarian)根据创作者的要求提出长期存储建议,至此,创作者的数据集已经完成,在创作者与馆员达成一致协议的基础上,确定最终版本并将数据集的副本存入康奈尔机构知识库(Cornell's IR);④创造者根据出版要求和相关政策适时调整、修改和更新元数据记录;⑤DataStaR提炼出用户需要的元数据。DataStaR平台相比机构知识库(IR)和学科库(DR)的优势主要有:一是数据标准一般性;二是创作者、管理者和用户的互动合作;三是暂存性的存储任务而非永久性的保存。这种富有弹性的DC政策能够促进创作者的知识创新热情,同时也扩大了原有的学术交流圈。
3 Data Curation的教育培训及研讨
数字化媒体、复杂的科学数据以及不断增长的数据需求都在深刻影响着数据保存和开发利用,Data Curation至少需要三项技能,即图书、档案和博物馆领域选择、保存和阐释数据的专门知识,计算机科学与工程领域数据处理、探索和存储方法,以及材料科学领域认识数据内涵、来源和重点的专业知识。为了加快数据共享进程和知识转化效果以及迎合这种科研现实需求,一个新的职业—Curator诞生了,数字世界里的Curator将掌握超越技术、科学和图书馆事业的多元化技能:①技术(Technology),纯粹的Data Curation不太可能需要高水平的编程知识,Curator只需使用脚本语言去复制数据或验证副本的正确性,但这些需要建立在Curator具有专业化的知识背景和良好的认知能力;②主题事项(Subject Matter),Curator无需像天文学家一样具备技术优势,而需要经过专业化的训练以培养一种对相关科学领域的研究程序和使用结果的理解能力;③图书馆事业和归档(Librarianship and Archiving),Curator需要与用户互动的技能以实现有效的信息组织和科学的价值评估。Michael Lesk[11]认为未来的Data Curator职业将会有分工协作、职业融合和变革等特点,并对职业定位、职业路径和职业道德等现实问题作了探讨,他认为Curator在大数据时代将有很大的市场需求并受到追捧,图书情报教育机构应做好教育和培训准备。
Rebecca L.H-P和Yan Quan Liu[12]对北美LIS学院网站进行调查以确定足以解决海量数据(data deluge)问题的Data Curation课程数量,回顾了课程的描述、目标和教学大纲,对比了课程的目标、要求、主题、任务以及确定课程的项目,结果发现:北美共有52所大学的LIS学院涉及DC教育,16个研究所提供DC课程,不断增长的DC教育机构反映出LIS学院正在积极响应社会对DC专业人才的迫切需求,因此,更多的LIS学院应该将DC教育及时添加到他们的现有课程当中以跟进大数据时代的发展趋势,同时应加强协作以确定最佳的课程目标和学习成效。他们在调查中也发现了一些问题,如虽然有少数的大学制定了DC教育文件,但是仍然缺乏一个整体性的制度框架。
Data Cure Education Program(DCEP)是美国伊利诺伊大学(UIUC)香槟分校图书馆与信息科学(LIS)研究生院[13]提供的ALA认可的DC教育理学硕士项目,由博物馆与图书馆服务研究所(IMLS)在2006年资助成立,专注于数据采集和管理、知识表示、数字化保存和归档以及数据标准和政策四大主题,提供学术和产业研究所需的基础性理论和技术。DCEP已经与国内基础科学、社会科学和人文科学数据中心建立了教育合作关系,旨在培养能够胜任DC管理工作的新一代LIS专业人才。DCEP设立了人文和科学两大咨询委员会以保障教育质量并加强业务指导。Digital Curation Curriculum(DigCCurr)是美国北卡罗来纳大学教堂山分校(UNC-Chapel Hill)[14]举办的DC教育培训项目,该项目由IMLS资助并于2006年7月初正式启动,2006~2009年成功开办了第1期,目前进行的是第2期(DigCCurrⅡ)。DigCCurr项目旨在开发国际化博士水平的课程和教育网络,文化、科学、商业、卫生、教育和政府部门要获取和再利用数字资源,必须拥有博士级别的DC员工,因此,该项目正是为这种未来需求而准备的,涵盖卡罗莱纳州DC博士生奖学金计划(CDCDF)、DC博上生课程设置、专业机构、DC交易所(DCE)以及DC研讨会5项内容。2012年初北卡大学举办了“Enabling the Curation of Digital Collections”(ECDC)学术会议[15],ECDC是一个专注于DC工具和方法的高度互动的教育研讨活动,来自不同领域的19位专家从“DC需求和行为”、“特定存储库管理环境”、“元数据和文档”以及“数据转换、处理和访问”4个方面进行演讲和演示,2013年初延续上次主题又召开了“Curate Gear 2013”研讨会,主要讨论DC的专业化应用以及最新进展。
4 Data Curation的发展策略及展望
约翰斯·霍普金斯大学(Johns Hopkins Univ.)的机构知识库是作为数字图书馆系统的一个组成部分来运行的,强调长期存储的重要性和必要性,它是一个基于师生确定需求的服务集合。Sayeed G.Choudhury[16]认为,JHU所属的IR本质上是一个构成数据档案的网关,支持Data Curation成为不断发展的网络基础设施的一部分,由于本校IR的学术认可度较低且出版流程不完整等原因,学者忽视了本校IR的需求而向其他IR提交数据,借此获得学术圈的认可。JHU正在发展一种所谓的“数据科学家”或“数据人道主义者”称谓以改善图书馆和学术社区之间的关系,这些努力折射出一个现实问题:IR若要获得成功,必须将自己的角色定位于服务多样化的分布式学术社区,并不断拓展业务流程以满足创作者的出版需求。
在生物信息学领域,Curated Data是数据集成的先决条件已经为人们所熟知,但是忽略了一个问题:整合与分析数据过程中的编目和Curation,以编程方式获取数据服务是生物信息学家进行试验常用的手段,工作流程中的数据整合依赖于有能力获知何种服务是存在的,以及何时何地去发现,随意命名或缺失文档将导致数据服务的终止。工作流程本身就是一个复合的过程,当数据可被发现和理解时,才能够被池化(pooled)和重用(reused)。Goble C和Stevens R等[17]认为,恰当的Curation应包含语义标记以促使过程能够被发现、保持和便于再利用,且语义注释是数据整合全过程的必要措施,他们提出了一个重要的公式,即“Data Curation”+“Process Curation”=“Data Integration”+“Science”。从公式可知,DC不仅是对数据的采集、保存和利用,也是生命科学研究中数据整合的基础性阶段。
Data Conservancy[18]是一个围绕DC研究技术发展和社区建设的数据管理蓝图,最初由NSF的DataNet项目资助,运作主体由大学图书馆、国家数据中心、国家研究实验室以及信息科学研究和教育项目构成。数字化研究数据只有通过持续的制度承诺才能得到有效的管理和保存,研究数据Curation是一个多方面的问题,需要将技术、组织结构、知识和技能通过互补的方式融合在一起才能完成DC协作。DC包含了一个共同的愿景:科学数据Curation是一种收集、整理、验证和保存数据的方式以激发更广泛的知识创新,填补了机构面对跨学科研究挑战的解决方案。DC实例的整体性结构框架分为两大部分:一是由软件架构、设施组件、部署配置、Web服务、API交互等软件基础设施,以及由服务器和索引器构成的硬件基础设施及系统可扩展性功能;二是由人员编制和技能构成的组织架构。DC制定并实施了可持续发展战略:①技术可持续性=模块化的框架+开放源码许可+发展承诺;②财务可持续性=成本分类(硬件、人员配置、管理成本)+金融模式和策略(政府拨款、机构资助、社区成员、服务费用、补助资金)+签署正式协定;③人力可持续发展是确保Data Curation连续性和一致性的关键;④面向团队协作的社区建设也是DC的重要任务。
Data Curation过程、数据管理策略和获取工具的设计与发展是存储库面对科学和教育的重要目标之一,数字化DC是研究和发展中一个活跃领域,Curation意味着对信息的精心策划的主动管理,涵盖数据的生产、保护(conservation)、保存(preservation)和获取(access),Curation应支持数据/信息的再利用并从原有数据中催生出新的信息和知识。NEESgrid系统集成团队2004年3月在芝加哥专门召开会议制定了一项关于Data Curation及相关问题的议程,与会者建议开展进一步的调查工作和其他相关的合作,包括开展DSPACE项目、建立DC研究中心、美国国会图书馆(LoC)数字保存项目、天空服务器(Skyserver)、综合注册信息系统(IRIS)、美国校际社会科学数据共享联盟(ICPSR)以及美国联邦地理数据委员会(FGDC)联邦政府地图项目等。数据和元数据管理与Curation是NEESgrid的重要组成部分,但自定义接口设计费用过高和研究人员之间的信息交换成为经费紧张时期数据共享的障碍,长期承诺和“商业”模式需要被用来维持和促进存储库数据的最佳使用,值得推荐的应对措施如下:①根据数据的有效性、质量、来源和状态来对元数据进行标记,数据管理方案应定义并实现访问控制和政策;②易于访问、组织有序和可靠记录的数据服务是最佳方案;③政策和指导方针应伴随着数据管理和Curation的所有阶段。从广义DC角度看,有必要制作和定义一个路线图以帮助获取和使用数据,从技术战略角度看,NEESgrid社区需要确定DC是否为多样化的活动或严格控制过程[19]。
5 结语
Data Curation的对象是科学数据,由于科学数据的多样化结构和标准以及庞大体量,执行得力的DC仍面临着诸多挑战。国外的研究已经将重点从概念引入转向标准设定和技术架构等方面,并在不同的研究机构中积极应用,迈出了DC理论与实践的重要步伐。相比国外的研究历程,国内学界对DC的内涵理解尚处于初级阶段,甚至连DC的中文译名都未能达成共识。实际上,DC的内涵不仅在于其管理职能,还包括开发潜力,因此,对DC的翻译不能仅局限于其单一功能或阶段性特征,从国外的理论研究和实践应用来看,DC的核心理念是对数据的保存、维护、管理和开发利用,笔者建议将DC译为“数据护理”以显示其内在的科研价值和社会效用。总结上文可知,国外DC研究的重点在四大方面:①来自跨领域的科学内涵界定;②基于不同技术模型的最佳实践探索;③面向专业人才塑造的教育准备;④立足可持续发展的战略规划。DC是一个相对较新的研究主题,也是大数据时代科研创新的一项重要发展对策,应从基础研究抓起,以实践探索为依托,通过多领域跨学科的团队协作和业务分工促进DC在我国实现本土化。