国内外科学数据发布研究进展_科学论文

国内外科学数据出版研究进展,本文主要内容关键词为:外科学论文,研究进展论文,国内论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250

DOI:10.13266/j.issn.0252-3116.2014.05.018

修回日期:2014-02-20 本文起止页码:104-110

1 引 言

数字时代的数据出版是指在互联网上公开数据,并且支持除数据提供者之外的研究人员或者组织机构下载、分析、再利用以及引用数据[1]。从广义上讲,任何将数据上传到互联网或者数据库并支持开放获取的行为都可以称之为“数据出版”[2]。对科学数据而言,数据出版是指数据达到可引用和追溯的状态,核心内容是为数据引用提供标准的数据引用格式和永久访问地址[3-4]。数据出版强调的是直接出版数据,而不是从中分析或者获得结论,因此数据出版对于保持数据的完整性、防止科学造假、减少重复的时间及资金投入、提高数据的发表者或者发表机构在科研领域的知名度和影响力以及减少跨学科研究的障碍、提高科研合作机率等具有极大意义。然而科学数据因为其自身的特殊性,分散在不同的国家地区、不同的研究项目以及不同的科学家手中,因此如何促进数据共享、推进科学数据的最大化使用是目前许多国际科学组织积极探讨的问题,而数据出版正是促进数据共享的重要手段。

2 科学数据出版现状

科学数据出版具有完整的生命周期,包括数据生产、提交、数据审核、出版、保存到公开获取。国内外对科学数据出版进行了广泛的研究,本文对图情领域的研究论文进行整理、归纳,从科学数据出版的政策、态度以及对科学交流的影响3个方面对其现状进行总结。

2.1 科学数据出版的相关政策及各方态度

2.1.1 期刊出版界 科学论文的质量取决于支撑其论述的科学数据的质量,为了提高论文同行评审的严谨度并且促进数据的重复利用,目前许多期刊要求作者在论文发表之前,先将数据注册到相关数据库中,或者要求在文献发表之前公开其数据。如自2000年起,由ESA(Ecological Society of America,美国生态学会)创办的期刊要求作者将与论文相关的数据注册到由该学会创建的数据库中,数据库会在科学数据及科学文献之间建立链接[5]。Nature要求作者在投稿时必须向期刊证明与论文相关的科学数据已存储到可公开访问的相关数据库中,如与DNA、RNA相关的序列数据可存放到Genbank、European Nucleotide Archive或Protein Databank中,并且要求自数据出版当日开始就提供免费获取[6]。为了配合数据出版,促进高质量科学数据的永久保存及共享,一些学科出现了数据期刊(data journal),专门刊登与数据有关的文章。例如,ESSD(Earth System Science Data)是一个只出版原始研究数据的国际跨学科期刊,创办于2009年,其宗旨就是促进有益于地球系统科学的高质量数据的分享利用或者引用[7]。

2.1.2 国家基金组织、科研机构 2004年,经济合作与发展组织在其部长级会议上发布了《21世纪科学技术与创新公报》[4],提倡所有获公共资金支持的研究数据都应能被公众获取和共享。2007年,该机构又发表了《公共资助科学数据开放获取的原则和指南》[8]。在此政策的引导下,美国、英国等一些权威的科研基金组织及科研机构相继推出了支持数据出版的政策,如美国国家科学基金会(National Science Foundation,NSF)在2010年发布声明,要求申请NSF资助的项目必须提交研究项目的数据管理计划,内容须包括数据的范围、类型、标准、元数据、数据共享方式、获取权限和时限等[9];美国国家航空航天(National Aeronautics and Space Administration,NASA)[10]、英国研究理事会(Research Councils UK,RCUK)以及美国国立卫生研究院(National Institutes of Health,NIH)等要求凡是受其基金资助的项目必须提供科学数据的公开获取。新西兰健康研究委员会(The Health Research Council of New Zealand,HRC)等17家健康机构于2011年共同签署了关于共享科学数据的联合声明,提出通过建立数据管理和共享框架及标准,不仅能够促进医疗卫生业更快地发展,而且能够使科研基金发挥最大的资金价值,更好地促进科学研究的发展[11]。2013年美国科技政策办公室关于“提高联邦政府资助的科学研究结果的访问”的备忘录提到,由联邦资金全部资助或部分资助产生的非保密的科学研究数据必须为公众提供免费的最大化访问,支持数据的检索、查询和分析。

2.1.3 研究人员 2003年德国、法国、意大利等科研机构联合签署了《关于自然科学与人文科学资源的开放获取的柏林宣言》,鼓励科研人员与学者在开放获取的原则下公开他们的研究工作,以激发科研人员对开放获取的热情,同时科研人员不仅需要提供对全文的获取,更需要提供对科学数据的获取。2010年,P.M.Rust等科学家提出了“潘顿原则——开放科学数据原则”,认为开放科学数据意味着允许任何用户以任何目的免费通过互联网对数据进行下载、复制、分析和重新处理利用,不受资金、法律或其他技术壁垒的制约[12]。C.L.Borgman在一项研究中对1700名研究人员进行了调查,结果表明只有22.6%的研究人员会经常访问或者使用已经发表的数据,21.4%表示会但不经常访问或使用科学数据,而56%的研究人员则几乎不访问或者使用[13]。H.A.Piwowa[14]在对2000~2009年公开发表的基因芯片研究论文的统计中发现仅有45%的论文提供了可公开访问的研究数据,通过对数据共享因素的回归分析发现,期刊的类型以及期刊的数据出版强制政策和支持基金的强制性是数据出版的主要原因。A.Mulligan在其调查研究中发现研究人员希望使用其他研究者的数据,但不太乐意分享自己的数据[15],主要原因在于他们不了解数据出版对学术交流的影响,不清楚进行数据出版能否获益。这些都表明虽然一些科学家积极倡导科学数据的公开出版,但其思想并未广泛传播,没有形成有影响力的科学数据出版模式和激励机制,仍有部分甚至是大部分的科学人员并不了解数据出版,也没有主动访问和使用公开数据的意识。

2.2 科学数据出版对科学交流的影响

为了研究科学数据出版对学术交流的影响,学者们从不同角度开展了一系列定量和定性的研究。2007年,H.A.Piwowar等在对数据出版与期刊文献引用率的相关关系的研究中发现,在参加实验的85种期刊中,支持研究数据公开获取的期刊的引用率占所有期刊引用记录总数的85%。在去除期刊影响因子、出版时间以及作者机构等影响因素后,利用回归的方法计算得出公开出版的数据对期刊的引用率有69%的影响[16]。随后H.A.Piwowar等根据期刊对数据出版政策要求的不同将70种生物医学类期刊分为3类:①无政策类,即没有要求进行数据出版的政策的期刊;②弱政策类,即仅仅要求研究人员公开数据,而不要求研究者提供数据公开凭证的期刊;③强政策类,即要求数据出版且必须提供数据出版的序列号才能进行论文发表的期刊,并在后续研究中发现这3类期刊的影响因子分别为3.6、4.9、6.2[17]。以上研究表明:数据出版与期刊的影响因子、文献的引用率是呈正相关的。因此,数据出版不仅有利于数据的再使用,也能够有效地提高期刊论文的引用率,扩大期刊和研究人员在学科领域的影响力,这无疑是促进研究人员进行数据出版的最好动力。

3 科学数据出版的主要模式

由期刊杂志到基金组织的政策发展可以看出,为了促进科学数据的交流以及数据出版的规范化,许多研究机构、期刊杂志都在研究不同的出版方式以支持科学数据出版,笔者归纳了当下几种主要的数据出版模式:

3.1 数据仓储

数据仓储是指由科学数据仓储库支持的、不限期刊种类、支持研究人员自由选择仓储库的数据出版模式。下文介绍3个功能相对比较完善的数据仓储库,见表1。

由表1可以看出,不同的科学数据仓储库各自拥有其支持的科学领域,提供隐私保护和开发的数据接口,并且遵循CC(Creative Commons)许可协议,支持多项有学科针对性的检索字段;从数据出版角度看,仓储库支持的数据格式相当广泛,几乎没有限制,并且仓储库都为科学数据提供数字唯一标识符DOI。这些特点为科学数据提供了永久、稳定、可信赖的出版环境,有利于科学数据的交流、使用和保存。

3.2 机构库

公共仓储库不限期刊、国籍,支持期刊将其设置为指定数据发表库,而机构库则是为特定期刊或者特定机构而构建的科学数据库,如Ecological Archives机构库专门用于存储发表在由美国生态学会所创办期刊上的科学论文的相关科学数据。Ecological Archives[5]具有非常完整的数据出版体系,支持3种出版形式:①论文附件(appendices),指科学论文主要内容的支持数据,包括图片、方法、表格、方程、视频或音频文件;②论文补充(supplements),指一些电子格式有效的而不适合印刷出版的文件数据,包括原始和衍生数据集、仿真模型数据代码、统计分析软件;③数据论文(data papers),指专门用于出版大型数据的一种形式,需要通过同行评议。论文附件和论文补充是科学数据出版最主要的形式。论文附件和论文补充最大的区别在于前者主要包含支持科学论文的数据,而后者则是科学论文使用的软件、模型等工具。两种出版形式包含的信息恰好是完成科学论文所需要的全部信息,而要求发表论文附件和论文补充对于防止科学造假是非常有效的。

除依附杂志存在的机构库外,另外一种机构库则由大学发起,依附大学图书馆而建设,主要存储本校研究项目产生的科学数据。本文主要列举了在数据出版方面较有代表性的康奈尔大学[18]、哈佛大学[19]和普渡大学[20]3所大学的机构库(见表2)。

由表2可以看出,以大学图书馆为依托的机构库主要服务对象为本大学内的科研人员、学生或参与本校研究项目的研究人员,因此其支持发表的科学数据具有局限性。以康奈尔大学的机构库为例,其数据发表条件十分严格,主要面向科研人员的教学和科研项目成果。相比之下,为期刊杂志服务的机构库的数据发表面向的研究人员和科研项目则更加广泛。不同的大学机构库对数据大小的限制各有不同,普渡大学要求存储者对超出限制范围的数据进行缴费,分为数据储存空间费用和数据发表空间费用。在数据引用格式方面,哈佛大学机构库明确规定了数据引用格式,而康奈尔和普渡大学并未给出明确规定。康奈尔大学和哈佛大学机构库支持数据永久保存,而普渡大学则保存10年,只有在足够资金支持下的特殊数据才可以得到永久保存,由此可见在数据保存方面,大学机构库还需要进行技术完善。

3.3 由期刊自行负责管理发表

当科学数据数量较少时,一些杂志期刊要求将其作为科学论文附件随论文一起发表,例如上文提到的Ecosphere期刊自己负责论文附件的发表;Pensoft公司要求不超过20MB的数据可以随论文发表,并且存储在出版社的网站上[2]。另外如生物信息学著名杂志Bioinformatics的绝大多数论文都附带了研究中所使用的训练数据、测试数据及部分源代码。与前两种数据出版方式相比,本方式涵盖范围更小,一般情况下,只有在数据较小、无法找到与之匹配的公共数据仓储或机构库的情况下,才会选择此种出版模式。通过对支持数据出版的论文附件的调查统计,发现此种模式出版的数据大都为EXCEL、WORD、PDF、TXT等格式的附件数据,大都是论文的补充性说明文件。因此,这种模式不具有广泛性。

3.4 3种出版模式的比较分析

数据仓储、机构库、期刊自行负责3种模式基本涵盖了目前科学研究领域数据出版的方式。本文对动物基因组研究中的118篇文献进行了统计分析,发现其中进行数据出版的文献占全部参考文献的78%,以数据仓储模式(存放在EMBL、DDBJ、GenBank等公共数据库中)出版的数据共计60次,以期刊自行负责方式出版的共计38次。并且这两种数据出版方式有交叉,一些期刊的科学数据既在公共仓储库中出版,也发布在期刊网站上供下载。

从数据统计中不难发现,大部分的科学数据选择以公共仓储的方式进行出版。笔者认为以公共仓储库的形式进行数据出版,是最具代表性的模式,也是目前最为完善的数据出版模式,机构库和期刊自行发表则是公共仓储的补充形式。如表3所示。

4 科学数据出版中的关键问题

科学数据出版是一种新兴的出版模式,目前还没有完善的体系及理论框架,尽管在国际组织、期刊及研究者的共同推动下取得了很大的进展,但其发展中还存在着一系列待进一步解决的关键问题。

4.1 元数据

由于科学数据结构内容的复杂性以及出版格式的多样性,科学有效的元数据系统对科学数据的提交、组织、存储、检索尤为重要。在科学数据库及仓储库的构建过程中,元数据扮演着支撑各种不同系统功能需求的结构化数据的角色。对独立的科学数据库来说,元数据的架构不仅影响科学数据管理的有效性,存储的有序性、检索的响应速度,也直接影响数据库操作的便利性。采用统一的元数据构建标准,有利于数据交换共享及不同平台互操作的实施。通过对科学数据进行完整的标注、解释和存储,用户可以快速识别数据信息,提高数据检索和使用效率[21]。笔者对地理空间领域的8个元数据描述标准作了调查[22],发现只有2个元数据标准包含了包括数据质量、空间参考、数据使用信息和元数据信息等所有的测试元素。科学数据元数据的构建标准虽然在不同国家组织中各有不同,但是能够完整表达科学数据内容的元数据标准还比较少。

4.2 科学数据的隐私保护

一些学科如心理学、医学、生物学等领域的科学数据在获取、收集的过程中可能涉及被调查者的个人隐私,因此如何确保科学数据在开放获取的同时能够支持隐私保护,也成为科学数据出版过程中必须要考虑的问题。GenBank在涉及个人隐私的数据情况时要求,如果研究人员提交出版人类基因序列,其数据不能带有任何可以揭示实验者身份的信息,并且GenBank默认研究人员已经获得了实验对象对数据公开行为的许可[23]。心理学、临床试验等特殊学科,其科学数据必定包含患者或者实验者的重要信息,因此匿名出版或者敏感信息与试验数据分开存储是未来发展的一种趋势。功能完善的科学数据库,在科研人员进行数据提交时,应当提供隐私仓储和公开获取两部分,如果需要隐私仓储,须提供必要的证明材料。

4.3 科学数据的组织技术

数据出版的最初目的就是促进数据的重复利用,而不是简单的数据公开发布或者简单的数据仓储,因此如何有效地组织内容复杂、格式多样的科学数据,是能否高效准确地检索、获取、引用数据的关键。语义网和关联数据技术对提高科学数据的服务质量具有很大的帮助。传统Web环境下各类科研方法、实验结果、机构知识库等科研数据均缺乏有效的语义描述,同时隐藏在数据之中的实体与概念也无法作为独立的知识单元实现开放获取,因此要消除科研数据共享的语义结构障碍,首先必须将科学数据以关联数据形式予以发布[24]。关联数据技术可以应用于科学数据资源的揭示和利用,整合孤立的数据,提供开放的元数据服务,实现语义互操作和Web of Data服务[25]。由德国联邦经济与技术部发起的Medico项目就是利用LODD(Link Open Drug Data)数据库支持医学图像数据库的语义访问。当一个查询图像被使用后,它会自动分解可用于搜索的关键字,用户可以通过关键字搜索已经进行语义标注的医学图像数据[26]。

4.4 科学数据的知识产权保护

科学数据知识产权保护和科学数据共享是一对矛盾体,如果过分强调科学数据的知识产权保护将妨碍数据共享,但忽视数据知识产权保护将打击数据生产者的积极性。与科学数据相关的核心知识产权包括署名权、发布权/再分发权和再编译权。数据的分发权和再编译权一定程度上会妨碍数据共享和二次加工,因此国际上一般建议数据作者放弃数据的分发权和再编译权这两项权利。潘顿原则要求科学数据出版前,科研人员做出明确清晰的数据使用权限声明。如果希望科学数据被其他人员有效地使用,必须进行完全公开获取。Open Data Commons Attribution License(ODC-By)v1.0[27]允许用户自由分享、修改和使用公布的数据,Creative Commons CC0[28]则规定进行数据出版时就默认放弃了所有相关的法律权利,使用者可以自由复制、修改、使用和分发科学数据,甚至可以用作商业目的。因此,在知识产权保护和数据共享之间需要有完善的引用和激励机制协调和二者之间的矛盾。

4.5 提高研究者出版意愿的激励机制

同科学论文的出版流程一样,科学数据的出版也包括数据提交、专家评审、数据发表、数据存储、数据引用、影响评价等步骤。理想的数据引用应与传统文献引用方式一样,在参考文献部分对数据进行引用标注,将引用排名纳入科学评价体系。因此,提供永久性和高质量的科学数据是提高数据出版意愿的重要前提[4]。基于数字对象唯一标识符(DOI)的数据引用是推动数据出版的重要环节,通过解析系统和管理维护系统可以保证DOI编码所指向的数据资源永久有效[29]。科技论文的产出以及影响力评价已经拥有非常成熟的模式,之所以在没有期刊或者基金组织的政策的强制要求下,大部分科学家不去主动进行科学数据出版,其主要原因就是科学数据出版还不具有成熟的出版模式。因此,建立一个合理的科学数据引用评价激励机制,如数据引用排名、数据影响因子计算等,同时完善出版流程,是提高研究者出版意愿的重要措施。

5 结 语

在政府、专业团体、期刊杂志、科研机构以及科研人员等几方面的共同推进下,科学数据出版的模式已初步形成,但目前科学数据的出版更多地是对相关期刊论文的佐证和支持。

健康完善的科学数据出版体系需要各方面的支持努力,首先是研究人员的态度,这不仅体现在对数据出版的意愿上,也体现在研究人员对科学数据质量的控制上;其次,如何选择专家进行科学数据的评审是控制科学数据质量的关键步骤;最后,科学数据库的维护、元数据的构建、科学数据的知识组织技术,不仅有利于科学数据的有效管理,也可以促进相同学科不同数据库,甚至是不同学科不同数据库间的互操作,便于不同科学数据库之间进行数据的交换互通,这将真正实现科学数据间的无缝链接使用。不难想象,未来科学数据出版会具有更加独立于期刊论文的完整的出版模式。科学数据将如同当下的科学论文一样,可以通过Google等搜索引擎就能完成基于内容的检索获取,并同样拥有引用机制、影响因子计算等。所有这些,将促进科学研究的进一步发展。

标签:;  ;  ;  ;  

国内外科学数据发布研究进展_科学论文
下载Doc文档

猜你喜欢