国外科研资助机构数据管理计划政策的调研与分析,本文主要内容关键词为:数据管理论文,科研论文,国外论文,机构论文,政策论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 科研数据(Research Data)是数字形式的研究数据,既包括可存储的数字式数据,也包括可转换成数字的非数字式数据,如神经图像、勘测数据、仿真数据等[1]。由于数据本身易丢失、损坏,难以长期保存,且多数科研资助机构有数据管理方面的相关要求,因而管理科研数据成为科研人员日常研究活动的重要组成部分。在这一背景下,数据管理计划(Data Management Plan,DMP)应运而生。DMP是一份详细记录数据管理活动,指导数据管理工作的纲领性文件,能够为科研活动中的数据管理提供有益指导,使各项数据管理活动遵循良好规范[2]。制定一份高质量的DMP,将能使科研数据的创建、保存、归档和利用有章可循、有据可依,同时也能保证共享、重用和长期保存数据的一致性、准确性与可追溯性[3]。 随着数据管理热潮的兴起,国外政府部门、科研院所、基金会等科研资助机构陆续出台了一系列DMP政策文件。美国国立卫生研究院(NIH)要求从2003年10月1日起,所有向NIH申请经费在50万美元以上的科研人员都必须提交一份数据共享管理计划或不共享数据的说明[4]。美国国家科学基金会(NSF)规定,基金项目申报者在2011年1月18日以后提交项目申请时,需提交不超过两页的标有“DMP”的补充文件,以说明其如何遵守NSF的数据共享政策[5]。英国高校更重视对数据管理工作的指导与服务,许多大学要求科研人员使用数据监管中心(DDC)研发的DMP Online软件对数据进行管理。2011年3月,DDC详细给出了DMP文档中应包含的八项核心内容[6]。国内学者对此也展开了积极探索,王凯等探讨了DMP的概念,并对其两种在线生成工具DMP Online和DMP Tool进行了对比分析[2];许鑫等总结了Data One(Data Observation Network for Earth,地球观测数据网)项目实施数据监管的关键流程,指出制定科学的DMP是其中关键一环[7];陈大庆则对英国主要科研资助机构的数据管理政策进行了调研分析,认为DMP是这些政策中亟待补充完善的内容[8];杨淑娟等从数据、数字监护、权限管理、计划执行四方面对英美国家基金项目中DMP的政策内容进行了概述,以期为我国的基金项目管理与图书馆服务提供指引[9];鄂丽君则调研了国外高校图书馆科研数据管理教育的现状,发现DMP已成为图书馆对科研人员进行教育培训的重要内容[10];李庆娜等指出数据管理是临床研究质量控制的关键环节,而撰写一份契合本机构实际情况的高质量的DMP十分重要[11]。 随着对DMP理论探讨的不断深入,其在实践应用方面也取得快速发展。近年来,英国、美国、澳大利亚等国家的一些大学图书馆(如爱丁堡大学图书馆、南安普顿大学图书馆等)都已经把开展数据管理服务作为其一项重要业务,其内容包括对科研人员进行数据管理意识、知识和技能等方面的培训。在数据管理大潮的冲击下,图书馆等科研服务机构亟须拓展新业务,开发新的服务模式来避免被边缘化,而主动为科研人员提供数据管理服务是其面临的重要发展机遇[12]。在这一背景下,了解国外科研资助机构的DMP政策有助于图书馆等科研服务单位更有针对性地开展数据管理服务工作。国内学者虽对DMP政策的有关内容进行了探讨,但这些探讨还不够系统、深入,难以一窥DMP政策的全貌。为此,本文将在相关研究的基础上,对国外政府机构、高校、基金会等科研资助机构的DMP政策进行系统地调研分析,以期为我国科研资助机构与服务机构把握DMP的内涵实质,进而有效推动国内的数据管理工作提供参考。 2 研究设计 2.1 研究框架 根据文献调研结果,在制定DMP时,科研人员通常会面临“存什么”、“怎么存”以及“怎么用”的问题。如果把这些疑问转化为系列的正式研究问题,也即:在制定DMP时,需要存储哪些数据?如何对这些数据进行组织描述?在数据存储、备份与长期保存中,需要考虑哪些问题?如何传播与共享数据?回答这些问题对于制定科学有效的DMP至关重要,因而需要相关的政策文件予以指导。本文在开展研究时,参考了《前瞻导论——推动政策与形塑未来》一书[13]第二章“前瞻方法”与第三章“跟踪扫描”中提到的相关研究方法,采用政策观测的方式,设置若干政策观测重点,并据此设计研究框架,将制定DMP时涉及的问题分为3大部分,每一部分又包含若干观察子问题,具体如表1所示。 2.2 研究对象 为解决上述问题,笔者在政策调研中选取了若干具有代表性的科研资助机构进行政策观测,这些机构来自美国、英国、澳大利亚、荷兰、比利时等多个国家,涵盖政府、高校与基金会三类机构,其中以高校居多。这些机构在科研数据管理方面均拥有丰富经验,且理论研究与实践探索均走在了同行前列,在业界拥有较强的影响力。各机构、政策名称及其发布时间如表2所示。 本研究的调研时间为2015年3月至5月,经过同年6月至7月的多次讨论与审核修订,于2015年8月正式完稿。以下根据研究框架,分别论述国外主要科研资助机构DMP政策的核心内容。 3 数据选择与标识 3.1 描述数据类型及其处理工具、方法等 在DMP中,应首先对科研数据进行简要描述,这几乎是所有科研资助机构的一致要求。描述内容主要包括数据性质、特点及其采集或创建方法、流程、工具,数据类型、规模及其产生速度,数据的分析、处理工具或软件等。此外,RUG[22]认为,如需收集敏感数据,还应对其必要性进行解释。 在描述数据概况时,应明确数据丢失或无法使用将会对研究工作产生怎样的影响,能否重新生成数据,还应考虑数据规模及其对数据存储、共享与传输产生的影响,数据可能面临的泄露风险等问题也应被慎重考虑。 3.2 评估、描述拟采用的第三方数据 创建新数据会产生成本问题,因而科研人员应首先考虑当前的已有数据能否继续使用,例如出版物、网站或进度报告中的数据等。如需使用第三方数据,则应考虑这些数据是否可用,能否获得版权许可来共享数据或其衍生数据。此外,还应从数据内容、来源、使用规定等方面对其进行描述,列出相关引用信息,如本地入藏号、DOI、URL等。 科研人员应明确所需数据的所有可能来源,这些数据是否有访问限制及其将如何影响数据存储、访问与保护;如需获取外部数据,则能否在本地建立数据副本;若数据源正在更新,用户能否得到通知或必须手动检查;若数据源不再可用(如网站不复存在、数据无法更新或已替换为更新版本等),将对数据获取产生怎样的影响。上述问题在使用第三方数据时均应认真考虑。 3.3 明确数据版权或知识产权的所有权 科研人员就科研数据的权属和相关法律问题进行明确规范,能够为科研数据的合理合法使用提供重要依据,因此多数科研资助机构都在DMP中强调了科研数据的所有权问题。如NSF[15]强烈建议,DMP中除应指明数据知识产权的拥有主体外,还应描述如何保护知识产权,注明所有的版权限制项目。ICPSR[17]认为,主要研究人员和其所在机构拥有数据版权。ESRC[18]则指出,在谈及数据版权问题时,应考虑其版权许可是否得到了同意或阐明,尤其当研究汇集了多个来源数据时。 USYD[27]对科研数据的版权归属进行了详细规定,明确了以下5种情况:一是数据创建者若包含USYD雇佣的研究人员,则数据版权通常属于USYD;二是数据创建者若为其他机构雇佣的研究者,则数据版权属于研究人员,先前另有约定的除外;三是数据创建者若为USYD学生,则数据版权通常属于学生;四是数据创建者若为USYD附属机构,且该机构未受雇于其他机构,则数据版权属于该附属机构;五是数据创建者若为USYD附属机构,且该机构受雇于其他机构,则数据版权通常也属于该附属机构,先前另有约定的除外;此外,还存在其他一些情况,如数据创建者为外部机构等。在制定DMP时,科研人员应与其资助或合作机构就数据权属做出明确约定,以规避数据保存、共享与传播中带来的不必要争议。 3.4 采用或创建适用的元数据标准 选用或根据需要创建一套适用的元数据标准是未来数据发现与共享的基础。CAMB[23]建议可使用都柏林核心集和文本编码倡议(TEI)标准来实现数据互操作,此外还可采用本领域当前广泛应用的数据描述标准,而受控词汇也有助于提高数据描述的一致性。ANDS[19]指出,应考虑如何命名数据文件,如何将数据组织到文件夹中,如何管理不同机器之间的数据传输与同步,以及如何跟踪不同版本的数据文档。NSF[15]强烈建议使用结构化或标签式的元数据标准,如XML,该格式展示灵活、机器可读且易于保存。ICPSR[17]从自身角度出发,认为元数据实体应依照与社会科学、行为科学和经济科学最相关的标准来制定。 在选用或创建元数据标准时,应明确何人负责创建元数据,何人负责更新元数据,若无适用的元数据标准,则在DMP中应指明这一点,并描述所使用的补充文档。此外,元数据存储格式以及是否采用不同格式进行数据共享或发布也是应当考虑的问题。 3.5 制定并实施有效的数据质量监管程序 准确的、高质量的数据记录是科学研究可信的前提,是决定项目效益、推动社会进步的关键。在数据监管时,应考虑如何进行数据检查和认证,是外部认证还是内部认证(内部认证需由数据采集者以外的人员来进行)。此外,还应考虑质量认证是否在数据的整个生命周期中都在进行,是否对认证步骤进行了记录,是否依据原始数据集对转录数据或复制数据进行了错误检查与审核(如选择随机样本进行检查、寻找异常值、核对图表数据和制图数据等)。ESRC[18]指出,应考虑制定科学的监管程序,包括数据验证方法,数据采集、输入所采用的标准,遵循的研究实践准则,所用的转录模板等。此外,还应确保数据质量问题在数据收集、数据录入、数字化或数据检查时就得到了处理。 3.6 提供检索数据、解读数据的辅助信息 在DMP中可制作专门的文档来描述数据采集方法,解释数据分析过程,介绍项目参与者与任务执行者的详细信息。此外,还可列出项目实施中开发或记录的所有辅助信息,如笔记、数据集列表、说明文件等。MU[25]认为,数据资产列表、元数据标准、识别符协议或参考编号、文件命名协议、文件结构协议等都有助于他人理解所共享的数据。NCL[26]建议,应确保描述数据组织及其所有辅助信息的内容能被存储起来。NEH[16]则规定,项目申请者应在DMP中描述数据格式、存储介质及其传播方式等。 在数据描述时,采用已定义的规范术语、叙词表和关键词表,有助于提高数据的易懂性、可移植性与可发现性,而清晰的、描述性的、独特的文件命名以及定义明确的参数单位对研究者查询、检索和发现数据也非常重要[7]。 4 数据存储与保存 4.1 选用本领域通用的数据存储格式 在存储数据时,应首先明确所采用的存储格式,如XML、SPSS、Word、Excel、AVI、NVivo等,并解释原因。CAMB[23]建议,可采用当前广泛使用的、本机构拥有相关使用许可的、正成为本领域标准的存储格式。MU[25]认为,国际或国家标准机构认可的、本领域公认的最佳实践标准是一个不错选择。ICPSR[17]则建议依照现行标准和实践进行数据存储,其当前以ASCII格式存储了大量数据,并采用XML和PDF/A格式来保存文档。注意,若使用无所有权或基于开源标准的数据存储格式,则应事前声明,以规避数据长期开放获取可能带来的风险。 4.2 描述数据存储地点与存储环境 存储地点是进行数据存储必须考虑的一个重要问题。USYD[27]建议,数字式数据及相关副本可存储在主题或领域知识库、USYD学术知识库、各院系网络硬盘等,亦可提交给本人所在教学单位,或在保留期结束之后安全销毁。CAMB[23]认为,可将数据存储在档案馆、知识库、中央数据库或数据中心,但应与这些机构提前沟通,以明确其存储标准及要求;若无法找到合适的存储地点,则应处理好数据的可持续利用问题,如选择开放的存储标准,或向所在机构寻求支持。 一般而言,科研数据主要有三个存储去向:政府或专门机构资助的大型数据一般存储在专门的数据中心或存储库中;小型研究则通常将数据存储在机构库或科研机构自己的存储系统中;还有部分数据会被科研人员直接存储到本地计算机或硬盘中。研究人员可根据数据规模及项目要求自行选择合适的存储地点。此外,还应考虑是否需要将数据存储于特定的环境中,如低温、低湿、低光照的条件下。对于非数字式数据、文献及其他项目资料,可考虑存储在学校、院系、机构或部门的安全设施中。一些资助机构可能会提供数据存储的相关费用,这一因素也应被考虑进来。 4.3 制定并实施完善的数据备份策略 数据备份是确保数据安全与可持续利用的重要保障。在备份数据时,应提供数据备份频率的详细信息,如按日、周或月等进行备份。此外,还应明确数据备份责任人,确定备份数据的存储地点,以规避设备损坏、硬件失灵、数据丢失等风险。CORNELL[24]建议,应描述备份数据时使用的硬件、存储环境、本地或外部服务,并可尝试将这些服务的成本纳入项目预算。RUG[22]认为,应制定合理的数据备份流程,若所在部门或研究小组已有一个备份程序,则可参考执行。ESRC[18]则对数据备份中的各类问题进行了综合考虑:(1)备份程序能否实现备份目的,应考虑研究涉及的所有机构的备份程序、备份频率等。(2)备份是否考虑了多种媒介和多个副本?(3)是否考虑了备份副本可用性的检查方法?(4)是否给出了信息描述机构、本地数据中心的备份政策?(5)如需采集敏感数据,是否考虑了与《数据保护法案》相符的保护方法?如数据加密、匿名化、谨慎传输等。(6)备份策略是否反映了现有的最佳实践?(7)是否描述了版本控制方法?即确保如果一个文档中的信息发生变化,其他文档中的相关信息也发生相应变化,同时跟踪记录多个版本及其存储地点。 在备份数据时,应考虑若数据被存储在别处,则其是否有适用的备份策略;数据及其副本是否以不同媒介被存储在了多地以防单点故障;是否有专人监管以确保备份顺利进行;是否有多人知晓数据存储地点及其访问方法;备份数据将被保存多久等。 4.4 明确数据管理责任人及其监管职责 多数科研资助机构都要求科研人员给出数据使用许可协议、使用限制、保密性或相关隐私问题等的处理方案以确保数据安全。显而易见,若研究涉及敏感数据,则数据安全问题将变得更为重要,这既适用于数字数据文件,也适用于实体数据文件,如访谈数据、血液样本数据、DVD等。COLUMBIA[21]认为,应明确三个问题,一是何人在何种层次上控制数据?二是数据是否有专门的隐私或安全保护政策?三是数据是否有延迟获取的时间段?NSF[15]建议,在DMP中应描述数据技术层面、程序层面的保护方法,包括如何实施数据许可、权限限制、延迟公开等。 为确保数据安全,应明确数据管理责任人,如首席研究员、数据管理员、助理研究员等,并提供其详细信息。此外,还应指出何人负责采集项目实施各阶段的数据文档,可通过哪些流程确保隐私数据得到保密处理,在何地存储数据副本,如何保证存储安全等。最后,是否还有其他影响数据安全的因素还需数据管理人员在实践活动中认真考虑。 4.5 指明拟保存的数据及其保存期限 DMP中数据保存计划的具体细节除与数据共享策略密切相关外,还取决于数据存储服务提供商,如外部知识库、数据中心或出版商等。一般而言,数据保存计划应着重考虑两方面的问题:一是确认相关部门、机构或项目的数据保存政策及其对数据长期保存的影响;二是明确保存的数据类型及其保存期限。MU[25]认为,以下7种数据应被永久保存:(1)研究具有争议性;(2)研究具有广泛关注性;(3)研究中首次采用了创新方法;(4)研究对传统范式具有挑战性;(5)研究不可再次进行或再次进行的成本较高;(6)研究具有长远价值;(7)研究能够支持专利申请或相关知识产权活动。对于可直接验证研究结论以及具有重用潜力的数据也应重点保存。此外,研究人员还应考虑在其离开某一领域后,如何确保自己的数据被保留下来,这对数字数据与实体数据都适用。 除上述问题,还应考虑如何保存实体数据,如野外记录簿、地图等;明确是否有专人负责迁移旧的过时格式的数据;若数据文件被迁移或转换,则是否有专人来核查原件及转换后的文件,以确保数据未被篡改或丢失。数据清理问题,包括清理哪些数据、何时清理、怎样清理等也应被纳入DMP中。 5 数据共享与传播 5.1 制定科学完备的数据共享计划 调研发现,14个科研资助机构都要求科研人员共享其研究数据,并在DMP中表明其共享意愿、共享方式等。为此,科研人员应明确是否进行数据共享,如果共享,则应解释如何共享,与何人共享,在何种条件下共享以及共享时可能面临的困难等。MU[25]将数据共享策略分为三种:一是不共享,仅本人可获取使用;二是内部共享,MU的员工和学生可获取数据;三是进行外部共享,如向其他机构等提供数据。此外,对于特殊数据,MU认为应根据其具体类型设置共享时段,如成年人心理测试或干预方面的数据可在该研究实施7年后共享,包含临床试验的医学数据可在15年后共享等。CORNELL[24]认为,应指明共享的数据内容及其所处阶段,如原始型,经过处理、精简或分析后的数据等。此外,DMP中还应:(1)描述共享数据所采用的文件格式,应选用可使数据得到最大重用的、持久的文件格式,如有必要,将目前的数据格式转换为这些格式;(2)给出他人重用数据的条件,描述数据适用的许可标准及其他使用条款;(3)给出数据的存储地点及其获取方式;(4)若共享第三方数据,则应介绍该数据或其衍生数据能否共享,在何种条件下共享;(5)指出数据所有者与数据共享责任人;(6)向用户介绍,当前的数据共享策略如何使他们将数据的价值最大化。 除上述问题外,USGS[14]指出还应考虑数据的安全性或敏感性问题,如不能立即公开数据,则应给出数据共享的时间安排。ICPSR[17]则把科研数据广泛提供给社会科学界使用,包括可公开获取的、限制获取的以及延迟发布的数据文件等,并针对这些文件制定了不同的访问策略。ESRC[18]建议,应认真考虑数据共享面临的所有问题及其解决方法,如征求受访者的共享意见,将数据匿名化或清除个人隐私信息后再共享等。 5.2 对数据访问权限进行有效管理 数据访问是数据共享政策中的一项重要内容,在对共享数据进行管理时,应明确何人拥有数据的访问权限,如何对这些权限进行管理。对于敏感数据,应采取保密措施,制定正式的获取与使用规范,保护其免受未经授权的访问。此外,在DMP中还应对所有有权访问共享数据的人员进行介绍,如果访问限制因数据集的不同而变化,则应在数据共享政策中澄清这一点。最后,需明确其他研究人员在何时能够获取数据?在项目实施中的任何阶段,在研究成果发表或交流之后,抑或在一定的迟滞期之后,还是永不可获得。这些都是数据访问管理中应考虑的问题。 5.3 正确处理数据中的伦理及隐私问题 科研人员负有伦理或法律上的保密义务,包括保护研究对象的隐私,或其他情形下要求的安全存储及访问限制,例如可能阻止数据共享的许可限制等。ICPSR[17]的伦理与隐私保护内容包括两项:一是知情同意,即对于特定项目,知情同意声明将不包括禁止数据在研究领域内共享的内容;二是信息泄露风险管理,即研究项目在将数据存储在ICPSR之前,需删除其中的所有直接标识符,而一旦进行存储,这些数据将经过一个严格的处理程序,以保护个人隐私。NCL[26]建议,数据管理中若涉及伦理及隐私问题,应:(1)介绍数据中敏感、机密或受保护隐私信息的管理方法,如加密技术、密码限制等;(2)提供伦理或隐私方面制约科研项目共享或公开研究数据的事项;(3)提供数据保存、隐私及机密保护方面包含参与者同意信息的详细内容;(4)提供保护隐私及机密数据的流程或步骤信息,如匿名化处理等;(5)提供与其他机构或组织签署的数据知识产权协议方面的详细信息,如协议内容、签署地点和日期等;(6)提供数据版权限制方面的信息;(7)提供数据授权方面的信息,在这一条件下,数据可以被重用。上述内容基本囊括了数据管理中的各项伦理及法律事项,在具体的实践活动中可根据项目要求及实际情况参照执行。 6 结语 根据以上分析论证,本文认为一个完整的DMP应包含数据选择与标识、数据存储与保存、数据共享与传播三项主要内容,具体如表3所示。尽管DMP在科研项目的概念化阶段就已经被创建,然而在实际应用中其还需不断更新完善,以便在项目生命周期的各个阶段都能为科研人员的数据管理工作提供科学有效的指导。 本文通过对国外典型科研资助机构DMP政策的调研分析,一方面有助于国内科研资助机构加深对DMP政策的理解,促进其尽快建立和完善相关的政策规定,推动国内数据管理实践活动的开展。如在项目申请阶段便明确要求申请者提交相应的DMP文件,并在项目中期与完结时对计划实施情况进行监督、考核,且给出具体的奖惩措施等。另一方面也有助于图书馆等国内科研服务机构更好地把握DMP的内涵实质,领悟其政策要领,进而为科研人员提供更具针对性的数据管理服务。由于本次调研分析的对象局限于国外若干科研资助机构,因而在国内推广应用其DMP政策时,各机构还需结合自身的实际情况,考虑具体的应用情境,对上述政策进行针对性的选用。此外,在国外DMP政策内容的基础上,在科研数据的整个生命周期中处理各利益相关方的数据权益关系时,国内科研资助机构还需对数据管理的具体模式进行实地考察,包括对科研人员、图书馆员、学科馆员等进行访谈调研等,并在进一步结合其他相关数据政策的基础上,制定出契合实际、符合我国国情的数据管理政策。同时,我国科研服务机构,如图书馆、信息中心等也应及时跟进,密切关注国内外数据管理政策,尤其是DMP政策的最新理论与实践进展,针对科研资助机构的具体要求不断为科研人员开发新的服务内容与服务项目,在服务科研的同时推动自身发展。国外科研资助机构数据管理计划政策的调查与分析_数据管理论文
国外科研资助机构数据管理计划政策的调查与分析_数据管理论文
下载Doc文档