基于Data Curation的机构库建设研究,本文主要内容关键词为:机构论文,Data论文,Curation论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
计算机和网络技术已经成为开展科研活动必不可少的基础,科研过程信息化促使科学数据数字化程度不断提高,科学数据的格式日趋多样化,科研活动正面临着“数据海啸”的威胁。密集型的科学数据和快速发展的网络技术推动了研究范式向第四范式转变,科学研究范式已经由基于假设的研究向基于探索的研究——数据密集型计算演变①,第四范式中数据成为科学研究的核心资源。科学数据主要来源于科学研究活动,科学研究活动过程伴随着各种实验数据的流动,科学数据从采集、整理、存储到再利用过程贯穿科学研究活动的生命周期②。增加数据的价值,提高数据的质量,充分发挥科学数据的作用的呼声越来越高。针对科学数据全生命周期管理的活动Data Curation(数据监管)应运而生。 机构库(IR)是科学研究交流和学术知识共享的平台和机制,通过机构库将机构内部科研成果和产出进行收藏,最终通过共享实现价值升华③。海量科学数据对原有的机构库建设模式和管理机制产生巨大的冲击,同时也为处在发展瓶颈的机构库带来了新的发展机会。基于Data Curation的创新机构库建设模式,可以促进机构库的可持续发展,实现对科研数据的科学管理。 1 Data Curation下机构库发展的新机遇 机构库自2002年诞生以来,迅速在全球范围内得到了推广④,机构库的建设也成为各国图书情报档案领域研究和关注的新热点。西方发达国家对机构库建设尤为重视,发展的速度、规模、质量一直处于领先地位。近年来我国部分大学和科研机构对机构库的建设进行了研究和实践,逐步建设了一批机构库,但是与西方发达国家之间还存在着巨大的差距。截止到2015年11月,开放获取存储库目录(OperDOAR)中在册机构库为2516个,美国、英国和日本的机构库数量占了近1/3,我国大陆地区注册的机构库数量为34个⑤。虽然以中国科学院为代表的机构在机构库的建设方面取得了不错的成绩,但是我国机构库的普及发展仍然不容乐观,用户参与度不高、法律完善、服务模式等问题成为机构库发展的机构拦路虎。 现今的科学研究活动已经有了新的理念,e-Science模式下的科研活动的根基越来越倾向于对数据的开发利用⑥。科研过程需要对科学数据进行共享和验证,以确保其可行性和可靠性;原始科学数据往往需要高投入才可获得并且具有易损失性和不可替代性;已有的科学数据再生产有创造新知识的潜力⑦。随着科研工作网络化、科学数据数字化,科研工作者在对海量的动态数据进行处理的过程中表现得心有余而力不足,科学数据的有效管理和共享成为新需求。开发新的管理平台或者升级传统的数据管理平台成为解决海量数据管理问题的出路。 在数据支撑科研发展的时代,传统机构库服务模式已经不能满足科研人员对科学数据的管理需求,数据监管成为科学界推崇的一种新的数据管理模式。数据监管是以增加数据的价值、提高数据的质量、使数据更易被发现和检索,提高数据复用率为目的对数据进行全生命周期的持续性管理的活动⑧。不同科研活动产生的科学数据是数据监管活动的主要对象,在对数据进行监管的过程中也表现出与机构库不一样的特点。内容建设方面,数据监管比机构库服务所需处理的内容资源更加广泛和复杂,机构库在建设过程中强调对于本机构内部成员最终成果的保存,忽略了成果产生过程数据收集和维护,而来自多学科的数据却是数据监管活动的主角。跨机构协作方面,机构库服务对象仅限于本机构内部成员,而科研活动并非仅仅局限于单一机构内进行,跨机构合作已经成为科研活动的重要趋势。相对于机构库服务,数据监管对跨机构协作产生的数据提供管理和共享的新尝试。管理服务持续性方面,数据监管并非只是对科研活动最终成果的数据进行管理和维护,与机构库的静态存储相比,其渗透于具体科研活动的整个过程之中,对科学数据进行全生命周期管理。数据监管活动的独特性并非与机构库格格不入,也不是全面否定了机构库的作用,相反,它为在机构库资源的基础之上开展数据监管活动指出新的方向。 欧美多所高校已经先我们一步对数据监管服务进行探索和实践:康奈尔大学以机构库为基础构建了数据阶段存储库(DataStaR),普渡大学推出了针对科研数据管理的研究仓储(PURR),约翰霍普金斯大学图书馆也通过数据保存项目(Data Conservancy)提供数据监管服务。Data Conservancy是数据监管平台的典型代表,其成功实施让我们看到了将数据监管与机构库服务融合的希望,也为探索建设基于数据监管的机构库提供了思路。 2 Data Conservancy案例分析 2009年,约翰霍普金斯大学Sheridan图书馆响应美国国家自然科学基金委员会对科学数据进行有效监管的号召,启动了Data Conservancy项目,该项目也成为美国自然科学基金委员会(NSF)所启动的DataNet计划所资助的两个项目之一。Data Conservancy项目涉及多个科学领域,包括天文、地球、生物和人文社会科学等学科数据,并针对这些科学数据进行一系列的数据监管活动,进而提升数据的价值,保证数据的可用性和可共享性,满足跨学科和跨机构科学研究的数据监管需求。 201 Data Conservancy的目标和任务 美国DataNet机构的总目标是建立国家级或者全球化的科学数据基础设施组织来推动科学的发展⑨。基于DataNet总目标和数据监管内涵的理解,约翰霍普金斯大学将Data Conservancy定位为致力于通过构建、实施一个对复杂化和集成化科学数据进行持续性、跨学科、跨机构管理的数据监管平台,解决科研过程中面临的数据挑战⑩。Data Conservancy项目通过以下3个方面来实现这一目标。 2.1.1 多学科数据监管 E-science和跨学科协作研究是当前科学活动的主要形式,科研数据的来源和种类也呈现多元化,数据兼容、数据共享和数据冗余问题也逐渐显现,对多学科数据融合和管理成为开展数据监管工作的障碍。Data Conservancy中的灵活的数据模型和特征提取功能很好地解决了这一问题,为数据的重复利用和再创新提供了支持。 2.1.2 跨平台和跨机构的数据联通 科研活动数字化和网络化使科研活动跨机构和跨平台服务的多元协作成为科研新趋势,但是由于政策、标准和科研平台的不同,各协作单位之间的科研数据并未很好地进行联通和集成,平台和机构中的数据出不去也进不来,造成了数据孤岛现象。科研活动中产生的原始数据和资料尚未有一个很好的共享渠道(11),因此这就需要一个开放的、共享的数据平台(12)。Data Conservancy通过对服务进行模块化和接口化,实现了跨平台的功能对接和数据交互访问。此外Data Conservancy已经和多个机构和组织建立了合作关系,实现了机构间的数据交互。 2.1.3 服务的可持续性 第四范式下的科研活动数据成为科研活动驱动的力量,是社会发展和科学创新不可忽视的因素。早在2010年,美国国家科学基金会(NSF)对其管理的基金项目有了严格的规定,其支持的科研项目必须对其科学数据进行长期的存储来确保后期再利用的可行性(13)。数据监管不同于一般的数据保存,它更强调动态性和持续性,它不仅仅简单地强调保存数据,更需要不断完善数据,使其能供以后的科研人员使用(14)。Data Conservancy从技术、财政和人才等多个方面保证了数据监管服务的持续性和数据长期可用性。 2.2 Data Conservancy的构建基础 Data Conservancy是一个系统的工程,在实施该项工程时需要多方面的基础支持。 2.2.1 数据管理经验和专业的支持 科学数据是产生于科研活动过程中的各种数字化数据的集合。这些科学数据处于一种离散的状态,各个科研小组以及人员各自为政,缺乏统一的管理规范和存储格式,没有考虑到后继科研人员对数据的获取和使用,也就降低了科学数据在未来科学研究中的推动作用(15)。信息组织和信息管理是图书馆馆员的主要工作,他们在这一方面有着较强的专业素养和管理经验,图书馆的培训和教育也为信息和数据管理提供了人才储备,Sheridan图书馆是Data Conservancy项目的主要建设单位,其具备丰富的信息管理专业人才基础。 2.2.2 支持服务协议的政策 Data Conservancy是链接科研数据、科研人员和数据管理人员的核心一环,科研人员将科研活动过程中不断产生的科研数据存储在Data Conservancy中,以便数据被其他科研人员共享,数据管理人员对平台中存放的数据进行处理以便使其符合存储和共享的要求。从数据提交、存储到最后数据共享整个服务过程中都需要有明确的政策支持,例如为了获取数据,相关机构需要制定相关规定要求科研工作者尽量配合数据的提交工作,从而保证数据来源整个服务过程的规范化、标准化。 2.2.3 市场需求和合作伙伴 在数据监管概念正式提出之前,科研数据的管理多为自保管模式,自保管模式下的数据处于分布化和隔离化的状态,一方面增加了科研人员管理数据的负担,另一方面想要获取数据的科研人员的需求难以得到满足,数据生产者的管理需求和数据使用者的获取需求构成了Data Conservancy的市场需求。数据监管需要动态管理来自多个学科的数据,完全依靠单一机构完成数据管理是不现实的,因此构建Data Conservancy需要组建一个由不同组织机构构成的协作集团和不同学科学者组成的团队。 2.2.4 可持续的经费支持 Data Conservancy项目的启动和实施的经费来自美国国家自然科学基金(NSF)的一次性经费支持,但在项目后期使用和维护过程中,数据的存储和获取需要软件平台和硬件设备的支持,数据服务和数据产品需要管理人员的维护,技术和管理上的投入保证了数据监管服务和数据资源的持续可用。这些费用是无法避免的,也是持续产生的,后期可持续的经费支持是Data Conservancy得以构建和持续运行的重要保障。 Data Conservancy构建基础一方面反映了构建数据监管型机构库的可行性,目前机构库所依托的图书馆人才资源、技术资源、内容资源等都为开展数据监管提供了强有力的支持,另一方面也突显了传统机构库基础应对数据监管的不足,机构库在协作和服务可持续性方面仍有上升的空间。 2.3 Data Conservancy的核心架构 Data Conservancy采用层次结构的架构,分层设计的主要目的是为了使普通用户规避底层系统的复杂性,保证了系统的简单易操作性。各层紧密联系并且相邻的层通过API相互沟通,API也是用户或者其他系统进入Data Conservancy系统获取服务的大门,它保证了系统的灵活性和模块性。 Data Conservancy的软件架构由4个部分组成(见图1)。 图1 Data Conservancy的软件架构 应用层是系统与用户的交互界面,普通用户和系统管理人员通过应用层向系统提交数据存储、数据获取、数据管理以及系统管理的需求,系统通过应用界面将反馈信息展现给用户,同时也为系统访问者提供数据出版信息展示服务。软件APIS层,系统所提供各个接口对应者实际的服务,用户由应用层提交的存储、获取、管理请求由对应的API去调用相关服务完成。APIS层也为外部系统调用Data Conservancy服务提供了可能,扩大了其用户群体。软件服务层由数据保管、数据导航、数据搜索以及身份认证等服务组成,为数据监管提供元数据支持、数据特征的提取、数据信息编目等功能,身份认证保证了数据的安全和可获取性。数据归档层是为了更好地保存数据,以便根据用户需求提供完整数据,数据归档层主要是通过Fedora Commons仓储软件来完成,为数据归档提供了可靠稳定的环境,使数据的再次利用得以实现。 机构库与Data Conservancy这二者的结构有许多共同点,但是Data Conservancy却提供了许多新的服务:特征提取框架是Data Conservancy系统中富有特色的功能,对数据关键和综合特征鉴别进而将多学科数据进行聚合,并由底层的存档服务完成对数百万个对象的存储,而功能接口化的设计模式提高了系统的使用率和跨平台的可能性。机构库可以看作是以存储和共享为核心功能的服务平台,而Data Conservancy的核心架构中所具备的功能基本覆盖了机构库所提供的服务范围,并能为创新机构库建设模式提供借鉴。 2.4 Data Conservancy的运行模式 数据监管主要是为科研工作提供数据服务,各个环节构成了一个闭环系统(见图2),Data Conservancy将数据监管的各个环节融入到其运行过程中,通过其运行模式(见图3)推动数据的有效管理和共享,提升了数据价值。 图2 数据监管闭环系统 图3 Data Conservancy运行模式 2.4.1 数据的上传和信息完善 数据监管主要是针对科研活动中产生的数据进行管理的活动,科研人员需要通过用户界面完成数据的提交工作。提交科研数据之前科研人员需要根据数据所属的科研项目在Data Conservancy系统中建立相应项目文件空间,并填写项目、数据集等相关信息,这是形成统一元数据集、促进跨学科数据交流的前提。上传目标数据集和相关信息之后其他工作将由系统自动完成。 2.4.2 数据的接收和打包 科研工作人员通过用户界面提交的数据并非直接进入存储系统进行保存,进入Data Conservancy之前数据需要经过数据特征提取框架和数据打包程序,数据特征提取框架将提交的数据集信息形成统一的元数据,数据打包程序(DCS Package Tool)将元数据集与目标数据集形成相互关联的数据存储包文件(SIP),为了数据访问和共享的便利性这些文件以XML格式进行存储。 2.4.3 数据的存储和管理 Data Conservancy以Fedora仓储软件为技术基础提供两种存储模式:托管存储和联合存储。托管存储是数据生产者将自己的数据完全存储在Data Conservancy系统中,这些数据既包含科研活动过程中的数据,也包括发表文献中所涉及的研究数据。联合存储模式中Data Conservancy充当中介角色,科研机构或者其他数据商将数据存储在各自的存储系统中,通过将元数据与Data Conservancy对接,进行数据信息发布,进而可以提高数据使用率。 2.4.4 数据的获取和共享 数据监管活动的末端是将所管理的数据共享,实现数据再利用和数据再发现,充分发掘数据潜藏价值。数据获取者通过用户界面提交自己的请求,Data Conservancy通过Solr Syntax系统完成对信息的检索,并将结果以DCP XML文件列表的形式进行展示,数据获取者可以通过结果列表获取相关的数据集。除此之外,Data Conservancy也与期刊文献关联,期刊文献的读者可以通过文献链接找到相应的数据。 2.5 Data Conservancy的组织结构 Data Conservancy的组织结构具备内外结合、层次分明的特点。从外部结构来看,Data Conservancy资金支持来源于NSF的DataNet计划,所以它在具体运行过程中受到DataNet计划组织的限制并接受其领导。此外,Data Conservancy需要解决跨学科和跨机构的数据共享问题,只依靠于约翰霍普金斯大学图书馆内部资源难以维持其正常的运转,因此约翰霍普金斯大学图书馆组织了来自多个领域的客座顾问专家,协助项目开发和数据管理。内部结构呈现出紧密的层次性,各个层次和组织分工明确:顶层组织是由各个合作机构组成的合作者委员会,负责将本机构数据监管需求和目标与Data Conservancy开发相融合;项目主管负责维护、推广、技术;基础设施团队负责项目的具体实施和系统的日常运行。在机构库建设和运行的过程中,机构图书馆往往承担着主角的职责,图书馆馆员是机构库的主要管理和维护者。在管理过程中由于图书馆人员的专业限制和能力限制,并没有对机构库内部多学科资源进行有效管理,也未对机构库的推广起到很大作用。在图书馆组织结构的基础之上形成层次明晰、内外协作的组织结构可以提高机构库管理的效率,充分利用机构内部资源的同时,引入外部资源,实现优势互补。 3 机构库的建设模式创新 3.1 开发嵌入式机构库服务模式 机构知识库的核心是存储在其中的数字资源(16),这些数字化的资源主要来自机构内部人员自愿提交,也就是说机构人员的参与积极性和资源提交意识决定了机构库的资源数量。从资源获取方式和机构内部信息系统建设现状来看,当前的这种自愿提交机制并不是十分可行的。目前我国各科研机构内部各种信息系统并没有很好地整合,各个系统之间缺乏联系,不能相互访问,高校中的教学系统、科研系统与图书馆的机构库系统没能有效的整合,这就导致了研究人员需要在不同系统中重复操作和反复存储同一资源,降低了用户的使用积极性。Data Conservancy系统中APIs可以实现跨平台的功能调用,可以有效地实现不同平台之间的整合,用户在一个界面中可以完成多个系统的资源存储和获取。从组织结构上来看Data Conservancy提供灵活和跨学科的服务组织结构,外部顾问团队可以是来自各个科研机构的人员或者是科研项目的参与者,通过外部顾问团队可以为各科研部门提供嵌入式的存储和管理服务,改变由资源提供者自愿上传的提交模式,从而使机构库的服务模式从被动接收改为主动出击,提高了用户参与的积极性。 3.2 保障服务的可持续性 机构库需要保证存储在其内部的各种数字资源具有长期可获取性,实现机构库能够长期持续提供服务需要资金、人才等多个方面的支持。我国的科研机构和高等院校的科研经费主要来自国家给予的经费支持,由国家进行统一的管理和支配,但是在这些受资助的单位中大多数并未得到充足的资金支持(17)。除了来自政府和图书馆方面的资金支持,Data Conservancy项目在运行过程通过会员制度和有偿的数据服务来获取系统持续运行的资金保障。机构库不该停留在免费存取的阶段,开发新的产品和精品服务可以补充资金缺口,维系机构库的运行。 3.3 向数据内容建设转变 数据密集型环境下的科研活动更加注重数据支撑,而机构库作为各个科研机构内数字资源的存储库,对科研数据资源存储重视程度不够。面对科学界的数据海啸,如何对海量的科研数据进行管理和共享成为科学界关心的问题,机构库的建设者需要根据这一趋势对机构库内容范围和管理方式进行重新界定,并将数据作为机构库核心资源之一。虽然机构库的原有基础可以为数据监管活动提供部分便利,但是多学科数据如何整合、元数据如何确定、如何进行数据发现这些都是机构库数据内容建设所需考虑的问题。Data Conservancy是专注于数据监管的平台,其核心架构和工作流程可以为机构库进行数据监管提供一个范例。一方面,机构库中包含多学科数据资源,每个学科各具特点导致各个学科的科学数据包含的属性也各不相同,每个学科对数据都有一套描述方式,在机构库中难以做到统一和标准化的描述和管理,对科学数据开放存取有较大阻碍。另一方面,机构库可以把数据和已经发表的论文相联结,提高科研成果的可靠性和验证性。 3.4 联合发展解决版权问题 资源的丰富性和版权问题一直是困扰机构库建设的两个问题。目前机构库中的资源主要来源于机构内部人员上传的发表或未发表的各种数字信息,这些库内资源集中于机构内已有的学科,而各机构库之间、机构库与商业数据之间、机构库与期刊出版商之间并没有建立良好的合作关系,导致跨机构和跨学科的资源交流成为难题,也受到法律的制约。虽然Data Conservancy项目是由约翰霍普金斯大学主持,但该项目充分考虑到了多学科多机构的数据共享问题,与美国国家冰雪数据中心(NSIDC)合作进行照片数据维护,联合电子预印本文库(arXiv.org)开通数据与出版物的双向链接。Data Conservancy的合作单位包含各个学科,分布式的协作为各机构不同学科之间的数据共享提供可能,也能有效解决版权问题。Data Conservancy的实践证明,机构库通过多元协作机制实现不同机构、不同学科之间的资源共享完全可行。 4 结语 数据贯穿于科研活动的始终,是科研活动和科学创新的重要驱动因素,科研人员传统的数据管理模式已经不能应付数据洪流,数据监管成为各科研机构组织进行数据管理的新方法,数据监管也为机构库发展提供了新的方向。Data Conservancy项目的实施为机构库向数据监管方向转型提供了新的思路。作为机构内部存储数字资源的平台,结合机构库自身人员、技术、内容资源的基础开展数据监管服务可以实现其持续发展。 注释: ①吴敏琦.Digital Curation:图书情报学的一个新兴研究领域[J].图书馆杂志,2012(3):8-12。 ②崔宇红.E-Science环境中研究图书馆的新角色:科学数据管理[J].图书馆杂志,2012(10):20-23。 ③李世玲.大学机构知识库的构建[J].现代情报,2007(4):121-123,127。 ④陈琳.近年来大型机构库建设发展情况分析[J].图书馆学研究,2011(18):7-10,98。 ⑤Directory of Open Access Repositories[EB/OL].[2016-01-09].http://www.opendoar.org/find.php。 ⑥师荣华,刘细文.基于数据生命周期的图书馆科学数据服务研究[J].图书情报工作,2011(1):39-42。 ⑦崔宇红.E-Science环境下大学图书馆的挑战与创新[EB/OL].[2016-01-08].http://www.docin.com/p-345769000.html。 ⑧Cragin Melissa,Heidorn P.Bryan,Palmer Carole L.,Smith Linda C.An Educational Program on Data Curation[EB/OL].[2016-01-09].http://hdl.handle.net/2142/3493。 ⑨The Data Conservancy-Building a Sustainable System for Interdisciplinary Scientific Data Curation and Preservation[EB/OL].[2016-01-08].https://jscholarship.library.jhu.edu/bitstream/handle/1774.2/34018/47_Choudhury_DataConservancy.pdf。 ⑩History of DC[EB/OL].[2016-01-09].http://dataConservancy.org/about/history-of-dc/。 (11)杨鹤林.数据监护:美国高校图书馆的新探索[J].大学图书馆学报,2011(2):18-21,41。 (12)沈婷婷,卢志国.数据监管在我国高校图书馆的应用展望[J].图书情报工作,2012(7):54-57,87。 (13)NSF Data Management Plan Requirements[EB/OL].[2016-01-09].http://www.nsf.gov/bfa/dias/policy/dmp.jsp。 (14)沈婷婷,卢志国.科研项目不同阶段的科学数据监管方法[J].图书馆建设,2013(3):49-51。 (15)赖剑菲,洪正国.对高校科学数据管理平台建设的建议[J].图书情报工作,2013(6):23-27。 (16)张巧娜.我国大陆机构库实践的“冷现象”研究[J].大学图书馆学报,2010(6):48-52。 (17)肖可以.高校图书馆机构知识库建设存在的问题及其对策[J].情报资料工作,2010(6):90-93。基于数据采集的机械图书馆建设研究_数据管理论文
基于数据采集的机械图书馆建设研究_数据管理论文
下载Doc文档