美国大学图书馆科研数据管理服务内容研究_数据管理论文

美国高校图书馆研究数据管理服务内容研究,本文主要内容关键词为:数据管理论文,美国论文,图书馆论文,高校论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       1 国内外研究数据管理服务文献综述

       研究数据(Research Data)是指在科研过程中产生的能在计算机上存贮的全部数字形式的数据和能转换成数字形式的非数字形式数据。研究数据管理(Research Data Management,RDM)贯穿于整个研究生命周期,主要指对研究数据进行获取、计划、组织、存档、共享、分析、利用、保护等与数据相关的所有管理活动的总称。研究数据服务(Research Data Service,RDS)是图书馆为科研人员提供的科研数据服务,主要包括数据管理计划、数据组织、数据存档、数据再利用等服务。图书馆开展研究数据服务,既是顺应大数据背景科学研究范式转变的时代要求,满足科学研究基金组织对数据管理的基本要求,也是科研人员数据管理的内在需求,图书馆学科服务与机构知识库转型升级的必然需要。

       国外图书馆研究数据服务的理论探讨和实践探索主要集中在美国、加拿大、英国、澳大利亚等国家,目前基本处于初步探索阶段,理论研究侧重图书馆员对研究数据服务的认知阶段,实践探索侧重对研究数据服务项目的介绍阶段。Tenopir[1]对美国和加拿大223名研究型图书馆员调查显示:虽然RDS目前尚未广泛开展,但是已经在计划阶段,将会成为大学图书馆重要的服务类型。Pinfield[2]对英国26位不同机构图书馆员进行半结构化访谈,研究表明图书馆在研究数据管理中发挥重要作用,但也会受到其他单位(如IT服务商)的挑战。Verbaan[3]对英格兰北部20名研究型大学的图书馆相关人员、IT服务商、研究人员进行半结构化访谈,研究表明不同职业的人员对RDS的看法不同:IT服务商关注短期数据存储,图书馆相关人员关注数据保护,研究人员侧重研究质量。Corrall[4]利用多选择调查表对澳大利亚、新西兰、爱尔兰和英国140家图书馆的数据支持服务进行调查,结果表明RDS处于较低水平,但前景广阔。Ball[5]介绍萨塞克斯大学与3个学院之间通过JISC Managing Research Data Programme进行RDM的实践,通过采集实际需求,为开展可持续的研究数据管理服务奠定基础。Naum[6]介绍澳大利亚阿德莱德大学的研究数据存储与管理项目,让图书馆员走出图书馆、融入科研团队,结果表明研究人员需要研究数据典藏和元数据存储的解决方案。

       国外许多机构开展RDS理论研究和实践,形成一批研究成果,国内学者[7-10]在此方面进行重点关注。国内高校图书馆的研究数据管理尚未系统化,只是在培训过程中涉及相关内容,尚未提高到研究数据管理的层面,也欠缺完整的计划。国内研究从2011年起步,经过2012年和2013年的过渡,2014年达到快速发展阶段。研究对象从早期的科学数据管理到科研数据管理、Data Curation,直到最近的研究数据服务。研究成果多为引介国外项目进展、教育培训与案例分析[11-14]。马建玲等[12]比较分析美国4所高校图书馆的研究数据管理服务实践案例特点,如耶鲁大学基于学科研究指南、通过LibGuides系统提供比较系统的研究数据管理服务;麻省理工学院成立专门工作组,由学科馆员负责,基于数据生命周期提供个性咨询服务。王婉[14]分析澳大利亚3所高校图书馆科研数据管理服务内容与特色,如澳大利亚国立大学通过图书馆的LibGuides系统提供服务;悉尼大学图书馆与多部门共同提供服务。

       除采用网络调查法了解国外图书馆研究数据服务现状、总结研究特点、提出对策建议外,还有学者[15-20]从研究数据管理主题、框架、政策、联盟、工具、技术等角度探讨。综上可知,国外图书馆RDS的理论探讨和实践探索大幕早已开启,但目前尚处于萌芽阶段,理论探讨主要采用问卷调查、结构化访谈等形式来了解图书馆开展研究数据服务的认知、机遇与挑战、功能与作用等;实践探索方面较少,而且开展的时间普遍不长,缺乏可普及的成功经验。

       2 基于网络调查的研究数据管理服务研究

       调查U.S.News & World Report排名前50所美国高校图书馆网站,其中哈佛大学、麻省理工学院、加州大学伯克利分校、斯坦福大学、加州大学洛杉矶分校、芝加哥大学、哥伦比亚大学、约翰霍普金斯大学、普林斯顿大学、密歇根大学、华盛顿大学、耶鲁大学、加州大学圣地亚哥分校、宾夕法尼亚大学、杜克大学、加州大学旧金山分校、康奈尔大学、西北大学、威斯康星大学麦迪逊分校、加州大学圣芭芭拉分校、明尼苏达大学双城分校、德州大学奥斯汀分校、北卡大学教堂山分校、伊利诺伊大学香槟分校、纽约大学、波士顿大学、加州大学戴维斯分校、华盛顿大学圣路易斯分校、匹斯堡大学、马里兰大学帕克分校、宾州大学、佛罗里达大学、罗格斯大学、科罗拉多大学博尔德分校、佐治亚理工学院、加州大学圣克鲁兹分校、亚利桑那大学、加州大学欧文分校、普渡大学、卡内基梅隆大学、密歇根州立大学、埃默里大学、德州农工大学、莱斯大学、范德堡大学、塔夫斯大学46家大学的图书馆开展研究数据管理服务,占调研总数92%,说明大多数图书馆意识到研究数据管理服务的重要性,并积极参与其中。只有加州理工学院、俄亥俄州立大学、南加利福尼亚大学和洛克菲勒大学的图书馆尚未发现开展相关服务。调查结果呈现如下特点:一是服务内容多以Data Management(DM)命名,少量的以Data Management Service(DMS)、Research Data Management(RDM)、Research Data Management Service(RDMS)和Data Curation(DC)等命名;二是大部分研究数据服务由图书馆负责,或成立服务团队、或通过LibGuides系统提供,一小部分图书馆通过整合或联合校内外相关机构共同提供服务,如哈佛大学图书馆与教务处、IQSSDataverse网络和学校IT部门合作,启动研究数据协同体来开展研究数据管理服务;三是服务活动的水平和层次差异较大,有的只提供基本的数据管理计划服务,如加州大学欧文分校,有的提供基于数据生命周期的全过程服务,如哥伦比亚大学、杜克大学、威斯康星大学麦迪逊分校。数据管理计划是最基础的服务,因此46家图书馆全部提供数据管理计划服务,主要内容包括DMP(Data Management Plan) Tool使用指南、各类型基金要求、参考案例及相关资源链接等。各家图书馆在数据组织、存储、共享、引用、利用等活动方面开展的层次存在差异,最多的是数据存储,其次是数据共享,再次是数据组织、数据引用,最少的是数据利用。41家图书馆提供数据存储服务,存储方式包括学校机构库、学科数据库、项目网站、期刊补充材料等。31家图书馆开展数据共享服务,共享方式包括自建、合建或它建存储库等。28家图书馆开展数据组织服务,主要包括文件命名、版本控制、文件管理、数据文档与数据描述(元数据)等。19家图书馆提供数据引用服务,主要包括数据引用的目的、格式、工具、案例等。16家图书馆涉及数据利用服务,主要包括数据再利用、数据出版和数据可视化等。因此每所高校都会根据自身学科特点以及图书馆开展相关服务的基础提供满足本校师生需求的研究数据管理服务。

       通过对调研学校的服务方式、服务资源、服务内容和服务特色综合分析,选取3所服务特色鲜明和服务内容丰富的高校作为案例,斯坦福大学研究数据服务内容不仅涵盖数据管理活动,还提供最佳实践与案例参考、培训咨询及其他服务;哥伦比亚大学不仅提供4个阶段的数据管理服务框架,还有多元的技术平台、齐备的政策保障和丰富的资源链接等;华盛顿大学不仅成立职责明确的服务团队,还提供丰富多彩的服务资源。

       2.1 斯坦福大学:数据管理服务(DMS)

       斯坦福大学图书馆依托科研支持服务提供数据管理服务,主要通过制定服务目标、组建服务团队、开展免费咨询或举行研讨会等形式为全校师生提供服务。DMS目标是协助斯坦福研究人员进行数据组织、管理与管护,提高数据保存及访问能力,成立了由7名专业馆员组成的服务团队,定期发布相关新闻通报,如最近的一期是2015年4月13日的“Data Day”,主题是数据共享与数据再利用。DMS主要通过举行免费咨询或研讨会等形式为全校师生提供教育培训,具体服务内容有数据计划、保存与备份、共享、最佳实践及案例参考、咨询培训及其他服务。

       (1)数据计划服务。图书馆与加州大学图书馆合作提供DMP工具的利用服务。提供的服务包括撰写之前的准备工作、DMP工具利用指南、不同基金组织的案例参考、数据管理计划撰写指导以及咨询等。

       (2)数据保存与备份服务。斯坦福大学IT部门提供大量的保存系统供选择。Mac上的TimeMachine软件就是一个很好的备份系统,而Andrew File System(AFS)系统兼具存储和备份功能。Stanford Digital Repository(SDR)用于数据的长期保存。数据可分为禁止数据、限制数据、保密数据和公开数据4种类型。根据不同的数据类型选择存储和备份机构,如Secure AFS适用各种数据的保存和备份,而Online Archive Storage和Secure IGFS(Individual & Group File Storage)只允许限制数据、保密数据和公开数据的保存或备份。

       (3)数据共享服务。在数据共享之前,需要提供与数据匹配的元数据以及考虑解决与之相关的隐私、知识产权、版权或许可问题。可以选择斯坦福机构库(SDR),也可以选择不同学科的存储库。这些存储库倾向于接受专业类型的数据,需要遵循严格的格式。也可以选择使用Figshare或Zenodo,接受来自不同学科的数据。如果没有找到适合学科的存储库,可以考虑BioSharing databases和re3data.org。

       (4)最佳实践及案例参考服务。提供6个方面的最佳实践:使用描述性和有用信息的文件名、选择确保长期访问的文件格式、跟踪文档的不同版本、为每次运行的实验或分析创建元数据、寻找有用的工具分析数据、正确的处理敏感数据。提供8个研究案例供参考:数据持久性、文件格式、文件命名、图像文件命名、电子表格、基础元数据、高级元数据、数据存储与备份。

       (5)咨询培训及其他服务。咨询服务包括元数据创建、数据许可、机构库、文件命名与组织、文件格式以及电子表格等。培训服务主要通过研讨会、参与课堂教学、实验室会议、教职工会议、专题研讨会、训练营或棕色袋事件等多种形式进行。其他服务包括Green图书馆社会科学和软件小组提供社会科学数据获取和利用服务、Branner图书馆地理空间中心提供地理空间数据的获取与咨询服务等。

       2.2 哥伦比亚大学:研究数据管理(RDM)

       哥伦比亚大学的RDM呈现多元的硬件、齐备的政策和丰富的资源3个特点,主要通过提供保存设备、出台安全政策和提供资源链接等方式开展服务。校内多个机构提供数据保存和备份服务,如各院系的IT部门、CUIT、Academic Commons等。Computing and Technology部门有十多个涉及数据安全的政策供参考。工具与资源页面提供从计划到共享4个阶段的所有相关资源及链接。主要采用提供网络资源、资料和项目为主的在线培训方式。图书馆提出了RDM的服务框架(见图1),共分为计划、准备、完成和共享4个阶段。

      

       图1 哥伦比亚大学RDM服务框架

       (1)计划阶段。提供的服务主要包括研究数据管理计划需要满足的要求、DMP指南与模板、DMP写作三部分。DMP不仅满足基金组织或期刊出版社的要求,还要满足哥伦比亚大学可靠的数据保留、数据所有权和数据可移植性等要求。DMP模板包括DOE-通用DMP模板、NSF、NIH模板等,还提供了DMP的案例,如耶鲁大学、新墨西哥大学、ICPSR、DataONE、NIH等。

       (2)准备阶段。主要包括文件格式、元数据和数据安全三部分。长期保存的文件格式具有非专有、未加密、未压缩、使用开放的文档标准、其他研究人员可以共用的特点,并列举了不同文件类型的参考格式,如动态图片的格式有AVI、MOV、MPEG、MXF。依据不同学科的数据创建元数据,给出了DCC的元数据标准,如生物学科、地球学科、物理学科和社会与人文学科等。学校Computing and Technology部门出台十多项涉及数据安全的政策,还提供物理安全、网络安全和加密等方面的最佳实践。

       (3)完成阶段。主要包括数据评估、数据出版和数据存储三方面。并不是所有的数据都需要保存,因此需要评估。评估一般采用如下基本原则[21]:与研究内容的相关性、历史或科技价值、独特性、数据的可靠性/真实性/可用性、可复制性、管理和维护的成本、足够的可用文档、满足相关要求进行数据评估。数据出版可选择机构存储库、数据描述符、数据论文和补充材料等形式。数据出版时要避免PDFs、网站界面、畸形的表格、缺少元数据、数据集内的不一致性、数据集之间的不一致性、糟糕的许可等宗罪。数据存储可以选择校内机构和外部机构,校内机构有Columbia University Information Technology(CUIT)、Columbia University Medical Center Information Technology(CUMC IT)、图书馆的Center for Digital Research and Scholarship(CDRS)以及机构存储库Academic Commons。

       (4)共享阶段。主要包括共享原因与要求、数据引用和数据所有权四部分。数据共享具有增强研究可见性、便于发现、满足基金或期刊要求、取得优先权和加速研究的优点。数据共享需考虑基金或期刊的要求、知识产权与许可、隐私性与保密性和数据引用等因素。数据引用具备的基本要素有贡献者、日期、题名、版本、出版商、标识符或URL。哥伦比亚大学《保留和获取研究数据的政策》规定:研究数据在项目完成后必须至少保存三年,原始数据尽可能保留。

       2.3 华盛顿大学:数据管理(DM)

       华盛顿大学图书馆通过成立服务团队、细分服务对象和提供丰富的资源类型开展服务,目的是在不同学科与科研机构之间促进数据在知识发现过程中的整合运用。成立了由10人组成职责明晰的服务团队,1名分管领导、1名协调员,8名职责不同的图书馆员,分别负责元数据、文献、编目、技术、系统、信息资源与收藏评估、地球空间与地图、课程设置与交流等。根据不同的服务对象提供针对性的服务,如数据生产者和数据使用者。提供丰富的服务资源类型满足研究人员的不同需求,如指南、报告、图书、期刊、视频、课程、博客、机构、会议等。服务内容包括数据管理计划、数据组织、数据再利用、数据共享和存储、数据引用等。

       (1)数据管理计划。推荐使用DMP工具制定数据管理计划,华盛顿大学教职员工直接使用NetID登录。提供工具使用指南和各种基金的要求,如NSF、NIH、NASA、DOE。还提供相关资源链接,如ICPSR的数据管理计划指南和资源案例。

       (2)数据组织。数据组织帮助用户发现、识别、选择和获取需要的数据,步骤包括数据收集的情景和方法、数据集结构、数据矫正、数据版本变化、数据获取与使用条件及数据安全。服务内容主要包括数据格式、文件命名、文件结构和元数据。在数据格式上,如果长期选择开放格式,图书馆提供8种常用的数据格式。在文件结构上,主要包括数据类型、时间、主题特征、研究活动。在文件命名上,为每个文件分配名称和唯一标识符,推荐6条文件命名的最佳实践,如文件名称应该简洁且具有描述性、避免使用特殊字符、遵守共同的命名规范、使用日期和版本编号、使用3个字符的后缀扩展名、不要使用大写字母。在元数据上,能够回答when、who、what、why、how,如数据创建时间、数据贡献者、数据来源、数据收集的目的方法与工具、数据文件结构、版本变化。提供不同学科的元数据标准,通用学科如Dublin Core Metadata Elements Set;自然科学如Ecological Metadata Language(EML)。

       (3)数据共享与存储。数据共享可选择学科或机构存储库、期刊论文的补充材料、网站、院系服务器、通过电子邮件或可移动媒体非正式的点对点共享等方式。UW-IT的lolo Archive提供与同行分享研究数据的文件合作服务。推荐至少使用两种不同的数据存储方式,图书馆的ResearchWorks Archive能够存储最大10GB的数据量;UW-IT的lolo Archive可用于存储不经常访问的数据。其他的一些方式还有外部硬盘、院系服务器或存储网络、第三方云存储空间、便携式媒体。学校提供的存储方式有UW-ITComputing & Storage、SQLShare、Research-Works Archive。其中ResearchWorks Archive提供存储本校师生的期刊论文、技术报告、数据、图片和其他文件类型的长期而安全的服务。

       (4)数据引用。服务内容包括数据引用的概念、目的、原因及案例。数据引用的基本要素有作者、数据集名称、出版时间、存储库、永久标识符等。图书馆为本校科研人员通过EZID提供数据引用服务。数据服务团队为研究团队或院系开通EZID账号来创建和管理标识符。

       3 研究数据管理服务内容框架构建

       根据美国50所高校图书馆的实际调研现状和3所高校案例剖析,并借鉴数据生命周期理论,构建了符合科研数据全过程的内容框架(参见图2)。数据管理计划回答数据管理包含哪些组成部分,以及每一部分如何来规划等问题;数据组织回答元数据如何创建,数据文件如何管理等问题;数据备份回答数据备份的原则与方式等问题;数据出版主要回答数据成果的表现方式等问题;数据存储和共享主要回答数据成果的合理保存方式等问题;数据引用主要回答数据集的引用方式等问题;数据再利用主要回答数据成果如何发挥价值等问题。其中数据管理计划属于顶层设计,统揽全局,其他各部分各司其职、是不可缺少的重要一环。

      

       图2 研究数据管理服务内容框架

       3.1 数据管理计划

       数据管理计划主要描述数据的结构和性质以及研究数据收集、合并、转让、组织、文档、分析和保存等数据生命周期活动和技术要求;能够帮助正确管理数据、满足基金要求、促进数据共享。主要由数据类型、数据收集、数据组织、数据出版、数据存储和共享、数据引用、数据再利用、数据政策等部分组成。撰写数据管理计划的主要目的是符合基金组织和期刊出版社的要求、进行数据生命周期管理、节省研究时间、通过数据引用提高学术影响力、使其他研究人员对数据能够再利用、长期保存数据避免灾难性的损失,推荐使用加州大学图书馆的DMP Tool制定数据管理计划,如威斯康星大学麦迪逊分校以NSF为例,提供数据计划写作资源及案例参考。

       3.2 数据组织

       数据文档(也称元数据)描述数据的内容、格式和详细的内部关系,使其他研究人员正确查找、使用和引用数据。数据文档包括数据收集的上下文环境、数据收集方法的结构、数据文件的组织与结构、数据源、数据验证与质量保证、原始数据的数据转换、机密性与访问和使用条件。创建元数据,即数据的内容、结构和权限信息,尽可能使用共同的或已知的语言描述元数据模式和标准。不同学科具有不同的元数据标准。如莱斯大学从通用学科、自然科学、社会科学和人文科学角度提供的元数据标准服务,Dublin Core是一个通用的元数据标准。文件管理主要包括文件命名、文件格式和版本控制。例如文件命名要遵守的规范包括保持一致、使用唯一标识符、日期和时间格式为年月日时分秒、不要使用空格或特殊字符、对不同版本使用顺序编号。

       3.3 数据备份

       数据备份可以跟踪不同版本的变化,查找历史版本和保存当前版本。最好遵守“321”规则,即建立3个备份(原始、当地机构和远程位置),2份在线保存,1份离线保存,经常定期备份。备份数据可以选择个人电脑、学院或学校服务器、磁带、学科存档(库)、外部硬盘、云存储等。校内机构,如德克萨斯州大学(UT)的教职工可以使用IT办公室的UT Backup,此外还提供外部转移服务和加密服务。第三方云存储,根据不同公司的要求和特点选择合适的备份公司,如Amazon S3 Dropbox。

       3.4 数据出版

       数据论文可以被认为是一个数据包装方案,提供足够的信息(或“元数据”),允许其他研究人员能够正确理解和再利用数据。数据出版的主要方式有学科存储库(如DataONE、Dryad等)、机构存储库(如罗格斯大学RUresearch的数据门户RUcore)、期刊论文与数据期刊(如自然出版集团的Scientific Data)和通过个人、机构或第三方网页的自出版(如哈佛大学的IQSS Dataverse)。一个典型的例子是加州大学圣克鲁兹分校的DASH自助服务数据管护工具,由图书馆与UC Curation Center(UC3)合作维护,为研究人员提供数据集出版服务。其具有界面友好、通过数据搜索引擎描述和索引数据、利用永久的DOI标识数据、长期保存数据、通过分面搜索和浏览研究数据集等特点。

       3.5 数据存储和共享

       数据存储和共享能够促进研究的公开性和再现性、提高基础研究的可见性、提高数据集的引用率、满足基金组织和期刊出版商的要求、加快科研过程、建立优先权、增加合作的机会。数据共享之前需要考虑的因素包括学习更多数据共享的最佳实践、了解影响数据共享的版权法规、理解与共享敏感数据相关的责任、遵守保密和隐私要求。数据可以通过电子邮件、个人网页、项目或机构的网站、期刊的补充材料或“数据出版”,或者通过学校机构库、学科存储库存储和共享。如加州大学圣地亚哥分校提供的学科存储库包括生命科学的Dryad、地球观测和环境科学的DataONE、社会科学的Harvard Dataverse Network和ICPSR等。

       3.6 数据引用

       数据引用是参考数据集的标准化方法。数据引用增加研究的可见性,提高学术影响力和对数据的再利用。由于许多学科没有统一的数据引用标准,目前主要使用的是Data Cite initiative。引用格式由作者、题名、出版社、出版年、标识符、版本、获取(URL doi/doi link)、访问日期等组成,如亚利桑那大学提供的不同内容的具体例子。数据引用的主要工具有Refworks、Zotero、Mendeley、Papers和CiteULike。使用EZID服务获得永久标识符Digital Object Identifiers(DOIs)。

       3.7 数据分析(可视化)

       数据可视化是数据分析的重要方式之一。开展数据可视化服务对技术要求很高,需要多部门协助配合。威斯康星大学麦迪逊分校提供20多种数据可视化应用程序和编程语言的比较服务。密歇根大学图书馆在北校区、中心校区和医学校区提供各种各样的数据可视化服务,还提供大量的开放研讨会,如Clark图书馆通过开放研讨会、课程辅导、个人咨询等形式提供大量的数据可视化和绘图服务。

       3.8 数据再利用

       数据再利用目前开展的非常少,受到很多因素限制,首先是发现与获取数据难,其次还要考虑成本、许可与安全等因素。目前数据再利用的途径主要有开放网络(如政府网站)、学科存储库(如ICPSR、Figshare、Dryad、Data Citation Index(DCI))、学校机构库、科研人员与科研团队。

       4 结论

       为更好的面向科研人员提供优质高效的研究数据服务,高校图书馆需建立完善的“四位一体”服务体系:服务内容作为灵魂、技术平台作为支撑、机构设置作为突破、人员配套作为关键、信息资源作为保障。其中服务内容是核心,决定着服务质量和服务水平。通过对美国50所高校图书馆的调研发现,每家图书馆都是根据自身特色开展丰富多彩的服务内容。借鉴数据生命周期理论,构建了以数据管理计划为核心、数据组织为基础、数据存储和共享为关键、数据再利用为升华、其他各部分有机融合的研究数据管理服务内容框架。国外鲜活的服务实践和服务理论将会为我国图书馆开展相关服务奠定坚实的基础。

       引用本文格式 刘桂锋,卢章平,阮炼.美国高校图书馆研究数据管理服务内容研究[J].图书馆论坛,2015(8):137-144.

       收稿日期 2015-04-05

标签:;  ;  ;  ;  ;  ;  ;  

美国大学图书馆科研数据管理服务内容研究_数据管理论文
下载Doc文档

猜你喜欢