国际科学数据共享政策法规体系:Linked Science制度基础,本文主要内容关键词为:政策法规论文,体系论文,制度论文,基础论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言:从e-Science到Linked Science
随着计算机技术、网络技术和通信技术的发展,人类可以利用面向服务的基础架构、网格基础架构、先进的数字图书馆服务时,e-Science环境随之出现。2000年,英国学者提出了e-Science这一概念。在互联网环境下,e-Science涉及越来越多地通过分布式的全球合作实现的大规模科研,e-Science是“在重要科学领域中的全球性合作,以及实现这种合作的下一代信息基础设施”,它是一种以网格为基础的科学研究环境[1]。e-Science环境的显著特点主要表现在以下几个方面:数字化科研机制出现,计算机仿真和模拟等新的科研模式产生,知识发现和创新活动日益增多,虚拟组织越来越发挥重要的作用[2]。e-Science的核心理念就是科学研究活动中借助先进的网格技术进行全球性合作。
2006年7月,Tim Berners-Lee提出了关联数据这种万维网上的数据发布方式。这是一套W3C推荐的应用规范,由于其不是难度很高的技术开发,很快便成为了互联网研究和应用的一个热点领域[3]。关联数据一般要求采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据。关联数据实现了数据与数据的连接。从技术上看,关联数据是在万维网上发布任何“资源”的一种方式,而“资源”是“任何有URI标识的东西”[4]。科学数据作为一种重要的资源,若采用关联数据的形式发布,就可以再次变革全球科学研究方式(上一次是e-Science对传统科研方式的变革),这就导致了关联科学(Linked Science)的产生。关联科学是一种实现科学资产互联的方法,这些科研资产支持透明的、可重复的和跨学科的研究[5]。在关联科学环境下,科学资产共享是促进科研的可重复性以及学科内与学科之间合作的关键。但是,这种集成的过程还没有建立起来。书目内容仍然被认为是主要的科学产品,相关科学数据、模型和软件或者没有发布,或者发布在不同的地方,往往没有与其他相关文献进行关联[6]。2011年初,德国明斯特大学的地理信息学研究所创建了LinkedScience.org。为了推动关联科学的发展,LinkedScience.org分别于2011年和2012年组织召开了两届国际关联科学国际研讨会(International Workshop on Linked Science)。
2 开放共享的科学数据:Linked Science的资源基础
关联科学方法是一种科学资源与数据的发布、共享和互联机制,其核心是实现科学资源和数据的共享。没有科学数据的开放与共享,关联开放数据技术在科学数据面前也会黯然失色,关联科学也就无法建立起其资源基础。幸运的是,随着e-Science、开放存取运动的迅速发展及相关政策法规的推动,科学数据共享理念与实践在全球范围内逐渐深入和开展。由于科学数据对人类文明发展具有巨大价值[7-8]但又无法共享所带来的问题[9],经济合作发展组织(Organisation for Economic Cooperation and Development,OECD)等国际组织采取了相关措施促进科学数据共享。2004年,OECD发布了《促进公共研究数据存取,推动科学、经济和社会发展》报告,该报告强调了以下两个原则:公共资助的研究数据是一项公共利益,其生产符合公共利益;公共资助的研究数据应该最大程度的开放获取。该报告认为,广泛的数据共享能够助力科研人员,赋予公民权利并且能够转化为巨大的科学、经济和社会利益[10]。近两年来,为了进一步促进科学数据共享,国际上召开了多次会议,比如“共享和获取基因数据,促进科学发展”研讨会(Advancing Scientific Progress through Genomic Data Sharing and Access)。此外,2012年7月,国际科技数据委员会和中国科学院联合主办,中国科学院计算机网络信息中心承办了“发展中国家科学数据管理和可持续利用国际培训班”。
目前,世界范围内已经存在了众多专门保存科学数据的数据库,比如世界数据中心(World Data Center)、地球观测网络数据(Data Observation Network for Earth,DataONE)、国际树木年轮数据库(International Tree-Ring Data Bank)以及我国的基础科学共享网,等等。这些数据库给科学数据存档与共享提供了基础平台。但要真正实现科学数据共享,不能仅仅依靠这些数据库,必须制定相关政策法规并严格执行。令人振奋的是,国际上已经存在相对完备的促进科学数据共享的政策法规体系(包括宏观、中观、微观三个层次),而这在保障科学数据共享的基础上,奠定了关联科学的制度基础。
3 科学数据共享政策法规体系
根据产生效力范围的不同,笔者把目前国际上的科学数据共享政策法规体系分为宏观、中观为微观三个层次。宏观层次的科学数据共享政策法规包括联合国等国际组织发布的科学数据共享的宣言、指南、原则等,国家或地区制定的科学数据共享法律或政策;中观层次的科学数据共享政策法规主要是科研资助机构制定的科学数据共享的政策、指南;微观层次的科学数据共享政策法规主要包括期刊制定的科学数据共享政策以及科研机构制定的科学数据共享政策,见图1。
图1 科学数据共享政策法规体系
3.1 宏观政策法规
3.1.1 科学数据共享的国际指南
科学数据共享的国际指南、原则、宣言可以在全球范围内营造一种科学数据共享文化,推动国家或地区通过立法确保科学数据共享的实现。早在1992年7月,联合国环境与发展大会在巴西里约热内卢召开,这次大会通过了联合国《环境与发展里约热内卢宣言》。该宣言一共包括二十七个原则,其中第十个原则强调“……每个人都应当有合理获取公共部门掌握的环境信息的权利……和参与决策制定过程的机会。国家应该通过让信息可以广泛获取的举措,促进和鼓励公共意识和参与……”[11]这次宣言宣扬了公众自由获取信息的权利理念,促进了全球范围内信息自由/权利法的制定。
2004年,OECD发布了《公共资助科学数据存取宣言》[12],中国、美国、英国等34个国家签署了该宣言。2007年,在全球许多国家都制定颁布了信息自由/权利法,科学数据共享已经有了较为广泛的法律基础的背景下,OECD制定了《OECD公共资助科学数据存取的原则和指南》,提出了开放、灵活、透明、遵守法律、保护知识产权、承担责任、专业、互操作、质量、安全、效率、问责、可持续等原则[13],其在给科学数据共享提供了实践上的可操作性指引的同时,促进了一种为了增加“科学研究对公共投资回报”、交换好的实践经验、意识到共享成本与收益的开放和共享文化的形成。2008年6月,OECD成员国在韩国首尔签署了《首尔宣言:互联网经济的未来》[14]。该宣言指出,为了促进网络经济的发展,成员国需要从四个方面的采取措施,其中之一就是要在互联网的发展、使用和应用过程中培育创造力,通过政策制定让包括科学数据、文化遗产在内的公共部门的信息和内容以数字形式更加广泛的获取。这些国际宣言、指南让科学数据共享的理念得到了广泛且深入的传播,指引着世界各国相关法律和政策的制定。
3.1.2 科学数据共享的国家法律
国际信息自由法是各国政府为了保障社会公众获取政府掌握的数据、信息而设置的法律。这些法律建立了一个“有权知道”的法律程序,通过该程序,公众可以请求免费或者最低成本获得政府掌握的信息。第一份信息自由法是1776年瑞士的《新闻自由法》(Freedom of the Press Act)。芬兰于1951年颁布了《开放公共文件法案》(Act on the Openness of Public Documents)。美国在1966年颁布了《信息自由法》。接着,挪威(1970年)、法国和荷兰(1978年)、澳大利亚和新西兰(1982年)、意大利(1991年)等国颁布了信息自由/权利法。到1990年,拥有信息自由/权利法国家上升到了14个。在20世纪90年代和21世纪初,随着信息环境的改变、民间社会团体力量的壮大以及公民信息权利意识的提高,越来越多的国家制定了信息自由/权利法。1996年,美国总统克林顿签署了《电子信息自由法修正案》。截止到2012年9月,全球范围内超过90个国家已经实施了某种形式的信息自由法。从理论上说,全球超过55亿人生活在有法定权利从本国政府获取信息的国度[15]。
大多数信息自由/权利法的基本原则是举证责任落在被要求提供信息的机构身上,而不是请求信息的人。请求信息的人不需要对其行为做出解释,但如果机构无法披露信息,就必须给出合理的理由。这些信息自由/权利法奠定了数据信息共享的法律基础,为相关机构制定数据共享政策提供了法律依据,并为这些政策的有效执行提供了法律保障。
3.1.3 科学数据共享的国家政策
为了更加明确具体地规定科学数据共享的相关流程和要求,使得科学数据共享实施过程中有据可依,许多国家制定了相关政策。比如印度政府为了促进数据共享和获取政府拥有的关于国家计划和发展的数据,于2012年制定了《印度国家数据共享和存取政策》[16]。该政策里的“数据”是指数据汇编、观察、文件、事实、地图、图片、图表、表格和数字、数字化的概念和(或)模拟形式等。政策内容主要包括出台数据共享政策的必要性、目标、适用范围(适用于获得印度政府或者印度政府授权的各部委、部门、组织、机构、自治机构等资助而创造、产生、收据和存档的数据)、数据共享政策的作用、数据分级、获取类型(开放获取、注册获取和限制获取)、数据共享与获取技术、法律框架、定价、实施、预算规定等方面。该政策规定将适用于本政策的数据存储在印度数据门户(Data Portal India)里,并且要求所有的印度政府部门都必须在政策发布后的3个月内上传至少5个高质量的数据集到该数据门户网站。
3.2 中观政策法规
在国际指南和国家法规的指导和要求下,国际上诸多科研资助机构制定实施了诸多促进科学数据共享的政策、指南。1999年10月,美国管理和预算办公室A-110通告要求所有联邦资助机构确保所有接受资助而生产的数据将通过建立在《信息自由法》基础上的程序提供给公众[17]。政府资助机构通过各种方式落实该要求。到目前为止,美国已经有26个联邦资助的机构颁布了科学数据共享的相关政策[18]。英国研究理事会等机构也颁布了科学数据共享的相关政策。下面选取几个有代表性的机构政策进行介绍。
3.2.1 美国国家科学基金会
美国国家科学基金会(National Science Foundation,NSF)是美国独立的联邦机构,其任务是通过对基础研究计划的资助,改进科学教育,发展科学信息和增进国际科学合作等办法促进美国科学的发展。NSF通过《传播与分享研究成果》政策,要求其资助的项目在合理的时间范围内同他人分享数据、软件、发明、样品、事物收藏以及配套资料;调查人员可以保持其对知识产权的合法权利,但他们也必须让其他人获得其调查结果、数据和收藏。为了强化数据保存要求,NSF实施了“数据保存计划”,要求在2011年1月18日及其以后提交的项目资助协议必须包括一份不超过两页的命名为“数据保存计划”的补充文件,里面必须描述该资助协议如何遵守NSF的“传播与分享研究成果”政策,大致内容包括数据类型、数据与元数据形式及内容标准、获取与分享政策、再利用规定、存储数据计划等[19]。2011年12月,为了促使NSF完成其数据共享使命,促进科学研究和工程实践的发展,美国国家科学基金会理事会发布了《数字研究数据共享与管理》[20],该文件提出了NSF资助而产生的数字科研数据的管理和共享的十大挑战和五项建议。
3.2.2 美国国家气候变化和野生动物科学中心和气候科学中心
2012年4月,美国国家气候变化和野生动物科学中心(National Climate Change and Wildlife Science Center,NCCWSC)和气候科学中心(Climate Science Centers,CSCs)共同发布了科学数据共享政策[21]。该政策要求所有被NCCWSC和(或)CSCs部分或者全额资助的项目共享科学数据和数据产品。该政策明确阐明,政策里的“数据”包括原始数据、经过处理的数据、出版数据、现场记录、观察和支撑文件。该政策要求提交给NCCWSC和CSCs的资助协议必须包括一份符合《NCCWSC/CSC数据管理计划指南和要求》的书面数据管理计划,其内容包括:描述新数据的收集方法或已有数据将会怎样被充分利用或再利用;识别有任何获取或再利用限制的数据(比如敏感数据、专有来源数据、受限数据、有特殊阅读或抽取软件需求的项目数据);阐明质量保证和质量控制过程;同意为所有支持美国联邦地理空间数据委员会标准的数据集和数据产品提供元数据;确定预期的数据类型和格式;指定数据转移到NCCWSC/CSC或者第三方存储库的方法。
3.2.3 美国国家卫生研究院
美国国家卫生研究院(National Institutes of Health,NIH)是美国卫生及人类服务部的下属机构,是美国主要的医学与行为学研究机构,其使命是探索生命本质和行为学方面的基础知识,并充分运用这些知识增强体质、延长寿命以及减少疾病和残障带来的负担。NIH不仅拥有自己的实验室从事医学研究,还通过各种资助方式全力支持各大学、医学院校、医院等机构及其他国内外研究机构的研究工作,并协助进行研究人员培训,促进医学信息交流。2002年,美国国家卫生研究院就制定了科学数据共享声明草案。第二年,发布了修订版《NIH科学数据共享最终声明》[22],规定从2003年10月1日起,每年申请科研经费超过50万美元的申请者,需要提交一份数据共享的计划,或者阐明无法共享数据的理由。与此同时,NIH还制定了《NIH数据共享政策和实施指南》等规章制度,以更好地实现科学数据共享。
3.2.4 英国研究理事会
英国研究理事会(Research Councils UK,RCUK)制定了《数据政策的共同原则》,该原则为单个研究理事会成员的数据政策制定提供了总体框架[23]。英国生物技术和生物科学研究理事会(Biotechnology and Biological Sciences Research Council,BBSRC)是英国研究理事会的七个成员之一,是英国最大的非商业生物科学公共资助机构,它主要资助英国科研机构和大学研究部门。其2011~2012年的预算大约是4.45亿英镑,资助了英国大学和科研机构的大约1600名科学家和2000名研究生[24],其科学数据共享政策也最具代表性。该机构依据英国研究理事会制定的《RCUK数据政策的共同原则》,在2010年7月颁布了《BBSRCS数据共享政策》[25],该政策包括四个部分:①BBSRCS数据共享政策背景;②BBSRCS数据共享政策声明;③政策实施1:将数据分享整合到已有的支持和监测流程;④政策实施2:促进数据分享的机制;⑤其他机构相关政策。其中第三部分是该政策主体,该部分详细规定了数据共享领域和数据类型、元数据标准、数据共享的方法(通过第三方共享和直接共享)、数据共享的时间框架、数据的第二次利用、专有数据、基于项目生命周期的数据管理、研究数据分享的资助以及数据共享过程中的伦理问题等方面的内容。
3.2.5 英国Wellcome Trust
英国Wellcome Trust是一个全球性的慈善基金会,致力于实现人类和动物健康的极大改善。为了实现这个目标,该机构资助生物学研究和医学人文中最出色的想法,其资助范围主要包括优秀的研究人员、加快研究进行应用转化的项目以及在历史和文化背景中探索医学的活动[26]。该机构在2010年8月发布了《数据管理和共享政策》[27],其政策声明:所有寻求Wellcome Trust的项目在研究建议书阶段就应该考虑管理和共享数据的方法,在被建议的研究可能产生对更广泛的研究团体具有重大价值的数据的情况下,申请者必须在Wellcome Trust做出是否资助决定前提交一份数据管理和共享计划。该政策体现了2007年的《OECD公共资助科学数据存取的原则和指南》、2003年的《劳德代尔堡原则》以及2009年的《多伦多声明》等政策的原则,也与其在《对发表研究的开放和非限制获取》、《好的研究实践指南》以及《知识产权和专利政策》的立场一致。
3.3 微观政策法规
微观政策法规主要是指单个机构为了促进科学数据开放存取而制定的方针、政策、指南。从国际上已有的政策来看,这方面的政策制定主体主要包括期刊以及科研机构。
3.3.1 科学数据共享的期刊政策
国际上很多期刊都制定了科学数据共享政策,这些期刊要求作者在向期刊投稿时必须向期刊编辑和同行评审专家提供相关的科学数据或者可以获得该研究涉及的科学数据的第三方存储库的存取号(accession numbers);如果不能提供,则必须进行说明。下面选取几个有代表性的期刊政策进行介绍。
(1)《美国自然学家》(American Naturalist)。《美国自然学家》创办于1867年,由美国自然学家协会主办、芝加哥大学出版社出版。自从创办以来,该刊一直是世界生态学、进化、人口以及综合生物学研究领域最知名的同行评审期刊。该期刊网站显示,2011年JCR排名中,该期刊在生态学领域的排名是21/134[28]。该期刊要求作者将被录用的论文和数据以公共档案的形式进行存储。基因序列数据和系统进化树被要求分别存储在GenBank或TreeBASE里面。目前存在许多可能适合特定数据集的存储系统,包括保存生态和进化生物学数据的Dryad仓储。该期刊要求文章出版前,作者被录用的底稿里必须包括GenBank、DataBASE或Dryad存取号。如果作者论文中涉及的数据存储在其他地方,必须提供链接。如果数据来源于已经出版的文献,必须将该数据整理好后存储在Dryad,以方便读者。数据共享的障碍应该在作者提交论文时向编辑阐明理由,以做出适当的安排[29]。
(2)《自然》。作为国际顶尖杂志,《自然》杂志也制定了严格促进科学数据共享的政策。该杂志认为,出版的固有原则就是其他人能够复制并得出作者在文中的结论。因此,在《自然》杂志发表文章的条件之一就是要求作者将材料、数据及相关的实验报告及时地提供给读者。作者在提交论文给编辑的时候必须解除对数据或者信息的任何限制,包括读者如何获取数据或信息的细节。如果论文中的材料来自于一个营利性机构,作者必须在文中进行说明。在作者没有充分证明他们能够遵守该杂志材料共享方面的要求时,《自然》杂志保留拒绝出版论文的权利。在出版后,如果遇到作者拒绝遵守向其提供相关材料的政策的情况,读者可以和编辑部联系。如果编辑部解决不了该问题,该期刊就可能将该问题移交给该作者的资助机构和(或)在网上发表一份正式的纠正声明,声明读者无法获得重复该发现的必要材料。对于生物材料,自然系列期刊要求作者使用已建立的公共典藏库(如UK Stem Cell Bank),并且要提供存取号[30]。
(3)《科学》。《科学》杂志支持数据库汇集已出版的数据以让科学界利用的努力。该杂志要求理解、评估和扩展论文结论所需要的数据必须对所有《科学》读者公开;所有包含在创作或者数据分析过程中的计算机代码也必须让所有《科学》读者获得。文章出版之后,所有对数据和资料的合理请求必须得到满足。在论文提交后,必须对编辑解除任何关于数据、代码或资料(包括费用和从其他来源获得的原始数据)的限制。如果有任何与该研究产生的数据或资料的资料转让协定,抑或是作者已经同意在研究过程中限制作者对他人提供数据或者资料的协定,作者必须对此进行说明并且给编辑发送一份这些特殊资料转让协定的副本。化石或其他珍稀标本必须存放在公共博物馆或者存储库中,并且确保可用于研究。合适的数据集必须被存储在一个得到认可的数据库里面,并且发表的论文中必须包括存取号或特定的存取地址。这些数据集包括但不限于分子结构数据,DNA和蛋白质序列、基因芯片数据、气候数据。比如,分子结构数据可以存储在全球蛋白质数据库等得到认可的数据库中。该期刊鼓励遵守《生物和生物医学调查的最低限度信息》指南[31]。
3.3.2 科研机构的科学数据共享政策
在开放存取运动的推动下,部分科研机构也制定了本机构的科学数据保存与共享政策。在20世纪90年代到21世纪初,日本、欧盟和美国国际地球观测系统合作者制定了一套数据交换和存取原则。美国航空航天局(National Aeronautics and Space Administration,NASA)采用了其中的一些数据政策,其数据是指“观测数据、元数据、产品、信息、算法、科学源代码、文档、模型、图片及研究结果。”[32]NASA承诺向所有用户在第一时间全面且开放地共享来自于NASA地球观测卫星、亚轨道平台和实地活动获得的地球科学数据;所有NASA的地球科学任务、项目以及资助与合作协议应包括数据管理计划,以推动实现这些数据原则的实施;NASA遵循OMB A-130通告,将收取不超过数据传播需要的成本;通过与合适的机构间的合作伙伴建立备忘录和协议,NASA确保地球系统科学研究需要的所有数据进行存档;数据档案包含易于获得的关于手头数据的信息,包括质量评估、支持相关信息、定位和获得数据的指导;NASA会与其他联邦机构持续合作,其主要合作包括来自于卫星和其他信息源的数据共享,相互验证和校准数据,能力和功能的不断整合;在符合美国法律和政策的前提下,NASA与国际伙伴进行谈判并进行合作以满足美国在数据采集、传播和存档需求。
4 结语
本文从纵向上分宏观、中观和微观三个层次介绍了国际科学数据共享的政策法规体系,这一较为完备的体系为科学数据共享奠定了制度基础,而科学数据共享是实现关联科学的前提。因此,这一体系间接上奠定了关联科学的制度基础。尽管关联科学还是一个全新的概念,但在制度基础(科学数据共享政策法规体系)、技术基础(关联数据等技术)和资源基础(开放共享的科学数据)的支撑下,关联科学将会得到迅速发展。
(收稿日期:2013-01-10)