数据论文的产生与发展_元数据论文

数据论文的出现与发展,本文主要内容关键词为:数据论文,论文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      中图分类号:G237.9;G255.7 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2015099

      1 引言

      在数据密集型研究的“e-science”时代,科学家开展科学研究依赖于从实验、数据模拟和观测等手段获得的数据(集)。在现代复杂科研环境下,单个科学家很难在兼顾科学研究的同时完成科学数据的采集、处理、加工、分析等全部工作,数据共享成为利用他人科学数据的重要手段,自20世纪80年代以来就一直是学术界讨论的热点话题[1-5]。

      为使得科学研究过程可以重现,同时保护数据工作者的知识产权,可将数据以特定的形式“出版”,出版商支持数据出版的早期尝试包括:(a)数据作为文章的一个组成部分;(b)数据作为补充文件附在论文之后。到2009年左右,大多数期刊接受数据(以及其他材料)作为补充文件,与研究文章的在线版本一同“发表”,但经常限制文件的规模和数量[6]。这种出版模式的缺点是,出版商需要管理和保存这些文档,读者难以独立于主要出版物查找和链接数据。

      但是Rees[7]指出,即使数据已被链接到一个同行评论文章,它仍然应该自由出版,从而表明“材料和方法”而不是使用数据产生的结论。而且如果数据由不撰写学术论文的人员使用,这个数据则无法表现为传统期刊文章的补充,更需要作为有各种权利的出版物来描述数据。在这种要求下,基于“数据论文”(data paper)概念的新数据出版模式开始被普遍认可[8-9],出现了同时发表学术论文和数据论文的重叠期刊(overlay journal)[10]、纯数据期刊(pure data journal)[10]等新的出版物形式,生物信息学、生态学、海洋、环境、医学等各个领域都出现了大量的数据期刊。2014年5月,自然出版集团宣布推出出版有科学价值数据的开放存取期刊《科学数据》[12],将数据出版的研究和实践推向高潮。在当前数据论文数量不断增长的情况下,本文对数据论文的概念内涵、基本特征以及出版流程等进行介绍,以期推动我国数据论文出版的发展。

      2 数据论文及其特征

      2.1 概念与内涵

      数据论文是以标准的学术形式出版、可被查询的学术出版物,描述关于一个或一组数据的元数据文档。“数据论文”对数据采集过程中数据收集、处理、内容、使用软件、文件格式等进行详细的描述,类似于传统研究文章中的“方法”(Methods)部分,但不提供任何分析,也没有新的结论产生,其内容只和数据有关,可以在数据制作完成后迅速发表[9,13-15]。数据论文可以在传统学术期刊上与学术论文一起混合出版,也可以在专门数据期刊出版,其主要目的是描述数据,而不是研究[9],不同的期刊用不同的方法实现数据论文的管理。数据期刊发表数据论文,数据论文为该期刊关注的主要对象,数据被视为次要的对象,可由杂志社进行编辑或管理,但更多地是由专业的第三方数据仓储管理。

      

      图1 数据论文及其作用

      数据论文要求至少有两类具体的、可识别的信息对象:数据(数据论文的对象)和数据处理信息(描述数据产生的过程)。数据论文与传统期刊文章相同,可以包括标题、作者、摘要、章节、和参考文献等内容。无论是数据论文,还是数据都与其信息对象(元数据)相关联[16]。

      可以说,数据论文已经存在相当长时间。例如,美国物理学会杂志The Journal of Physical-and Chemical Reference Data从20世纪70年代早期就开始描述物理和化学材料的一般特性,目前仍在出版。美国生态学会2000年在Ecological Archives开始发表数据论文,《地球系统科学数据》(Earth System Science Data)[17]、《CMB数据论文》(CMB Data Papers)[18],(BMC Data Notes)[19]和《国际机器人研究》(International Journal of Robotics Research)杂志[15]都有一些零星数据论文出版,这是一种新的出版形式,数据是开放获取的,可以阅读数据描述文件然后下载数据。然而,从丰富的科学数据元数据生成数据论文手稿的机制以及相关工具还远远没有形成主流。

      最近几年,出版商、期刊、科研基金资助机构等支持推广数据论文。例如欧盟资助的项目ViBRANT(Virtual Biodiversity Research and Access Network for Taxonomy)和BioFresh(a program to support freshwater biodiversity)积极参与数据论文推广,还建立下一代《生物多样性数据杂志》(Biodiversity Data Journal)。哥伦比亚的亚历山大洪堡特生物资源研究所(Colombia's Alexander von Humboldt Biological Resources and Research Institute)也致力于出版数据论文[20]。2014年5月,自然出版集团宣布推出出版有科学价值数据的开放存取期刊《科学数据》[21],将数据出版的研究和实践推向高潮。

      数据论文中描述的数据大多存储在数据仓储或数据中心,如DAACs、Dryad、PANGAEA,通常被视为发表文章的次要部分或补充,数据论文的一个重要特点是,应该和他们所描述的数据相关联,而这个链接(例如URL,DOI)应该在发表的数据论文中公布以便读者可以发现和查找数据。同样,存储该数据的数据仓储中的科学数据元数据也应包括这些内容。

      2.2 特点

      数据论文和学术论文都可以视为科研成果出版的形式,与传统学术论文相比,数据论文存在以下特点:

      (1)数据论文包括利用所描述数据产品的相关信息(技术、公式、软件等),它为传统期刊论文定义了使用数据的方法。和传统期刊论文不一样,数据论文不包括结论,与学术论文隔离,可以作为学术论文的补充[22]。

      (2)数据论文需要通过永久的超链接或数据标识体系连接到数据[8],在此过程中,数据仓储、机构知识库等数据存储机构承担了唯一标识(例如DOI)的创建和管理方面的工作。

      (3)数据论文像期刊论文一样需要进行同行审查,而其描述的数据可以被同行审查或非同行审查,但必须声明这一状况。如果进行数据的同行审查,必须详细描述该过程。数据论文描述的数据可以在其进行同行审查之前或者同行审查完成之前就发布,因为对于科学数据来讲,只有发布后被广泛使用和注释才会更清晰地体现其价值。从这点来讲,传统的预印本论文与数据论文有相似之处。

      (4)为了更好地利用科学数据,可以在不影响数据完整性、准确性的情况下校正,但需要明确数据版本,需要清楚地在数据论文中说明修正后相应的数据版本,以便发现这样的数据[23]。

      (5)同学术论文一样,数据论文也会受物理页码和格式限制。同时,其描述的数据会有物理存储器大小的限制,获取数据时有特定硬件或软件方面的限制。

      (6)数据论文不需要包含所有的数据描述,除论文内容之外的数据描述信息和处理信息分布在多个数据档案中心,可以通过引用或关联指向更详细的描述。因此在撰写数据论文时,需要把与数据相关但是与数据查找和发现无关的内容区分出来,一般数据论文不需要这部分内容。

      (7)经过同行审查的数据论文可以形成新的出版类型,从期刊的期(issue,连续的或不连续的)到编辑成卷(volume)。在此过程中需要像传统的学术期刊一样创建一些其他的结构要素,包括封面、前言、目录、编辑政策、投稿指南等,这些对于作者来讲是熟悉的。

      2.3 功能

      数据论文的目的是描述一个给定的数据,正如科学研究论文介绍研究结果一样。数据论文通过描述创建和处理数据方法的细节、数据的结构和格式、再利用的潜力等内容促进数据开发和利用。数据论文没有利用数据进行科学的分析,也没有结果或结论。提倡发表数据论文的原因包括:第一,是要解决科学数据利用过程中数据发现的关键需求,提供特定时间数据的特定位置、特定存在形式、特定使用方法等,使数据和所有必要的方法文件和其他细节共同出版[24]。第二,数据论文发表可以更好地提升数据工作者的地位,通过引用正式出版的数据论文来体现和强化数据工作者在科研工作中所做的贡献。

      因此发表数据论文的目的包括:提供可被引用的期刊出版物,为数据出版者带来学术认可,作为其个人履历(Curriculum Vitae,CV)的一个重要部分;以机器可读的形式描述数据,促进数据利用的自动化和便捷性:引发学术界对数据的关注。

      (1)对于研究者,这使他们获取有价值的数据更为便利,同时这种学术上的认可机制也促进他们将其在科研过程中形成的各类数据发布,促进了数据共享,提升了科研经费的综合使用效率。

      (2)对于出版商,数据论文这种新的形态可以帮助其发展更详细的出版指南,拓展其业务领域,改变其工作流程,更好地为科学交流服务。

      (3)对于数据仓储,与数据论文有关数据使用的最佳实践案例整理将使他们提升数据管理的流程,和期刊交互将提高自己的知名度和声誉。

      (4)对于数据服务商,数据论文的元数据可以用于任何对传统研究论文处理和服务的工具,例如索引和引文分析工具,使其服务产品更加丰富。

      (5)对于科学共同体内为更广泛的利益相关者(包括科研资助者、管理机构、学术团体、企业和社会公众等),则可以获得整个学术交流与传播体系中更加全面的信息[13],例如可以根据数据论文的引用情况来评价数据工作,Kervin等[25]就分析了美国生态学会(ESA)期刊Ecological Archives发表的53篇数据论文的质量问题,包括每篇文章在数据分析、集成、发现、保存、描述收集等阶段出现质量问题的数量、比例等。

      3 数据论文形式、内容和结构

      3.1 形式

      最早在期刊出版界,出现了学术论文的“补充材料”(Supplemental Material,SM),这种信息也称为“Data Application Appendix,DAX”,这些论文中没有提到的其他细节支持出版论文的主要结论,但本身并不包含在出版内容中。例如Cell出版社有三个层次的附件材料:对文章中的主要观点进行支持的证据、网络发布的大型数据集和多媒体、研究方法的详细信息[8]。

      数据论文出现之后,其形式也是多种多样,data paper是最常用的名字,但不同的期刊的名称不同,不同的名称也反映出数据论文的特定目的。例如在《国际食品污染期刊》(International Journal of Food Contamination),数据文章(data article)是主要的论文类型,该杂志发布不同食品污染物浓度重要数据;Dataset Papers in Science发表数据集论文(Dataset Papers)是用来描述数据集;Scientific Data发表数据描述(data descriptors)用来描述高价值的科学数据集;Genomic Data发表数据简述(data in brief)用于详细描述基因组数据,包括实验方法和质量控制分析;《生物医学中心期刊》(BioMed Central Journals)发表数据注释(data note)来描述生物医学数据集或数据库,并可以直接获取或连接到源数据;《神经信息学》(Neuroinformatics)发表数据原创文章(data original article)用来记录原始数据发布用以体现重要数据的贡献;《生物医学中心期刊》(BioMed Central journals)发表数据库论文(database article)来描述新的生物医学数据库;PLoS ONE发表数据库论文(database paper)来描述数据库,包括该数据是如何策划以及长期的数据库维护、发展、稳定的细节:在人类基因组数据库“Human Genomics Biomed Central”,基因数据库(genome database)用于描述提供关于人类基因组的信息或评价的数据库。

      在某些情况下,相同杂志有不同类型的数据论文,例如,Springer plus出版商发表数据注释(data notes)来描述生物医学数据集或数据库文章,发表数据库论文(database article)描述一种更加广泛使用的新数据库。Pensoft最近推出的《生物多样性数据》(Biodiversity Data Journal),发表数据论文(data papers)对大型数据集描述,发表物种库存(species inventory)对特定领域的数据进行描述、分类或命名行为,系统列出类群物种的观察笔记和库存品种[16]。

      3.2 内容

      对于传统的研究论文,每一个杂志提供作者有关论文的类型、结构、格式的指南和模板。数据论文虽然不同于研究论文,但也有一些共同的元素(例如,每个论文必须有作者、工作部门、标题、摘要等)。在某些情况下,这些规定非常详细,有些还要求相应的手稿必须是结构化的(例如BMC期刊),每一个期刊的指南虽然是通用的,但每篇论文的内容却仍有一定的自由程度。

      目前数据论文的论文要素一般包含两类规则和信息:传统学术交流相关信息和数据集相关信息。传统学术交流相关信息包括标题、作者、摘要、关键词、参考文献等,这些信息也可以称之为数据论文的“书目信息”。数据集相关信息(即数据论文描述内容)包括:数据集基本信息(data sets)和数据处理信息(data processing information)。

      对于数据集相关信息,Kunze[9]指出数据论文描述的内容可以包括:算法过程和技术理论的补充叙述、实现算法的程序代码、准确识别数据集子集的来源列表、数据生产者和集成者的属性列表、图表中数据值的字段定义、描述数据应用条件的元数据、支持出版图的处理表格、记录数据等。Penev[26]指出数据论文的主要要素包括:数据收集的方法、覆盖的数据种类、覆盖的空间、时间和地理范围、数据的收集者和拥有者、用来生成和使用数据的软件等。Chavan认为数据描述应包括以下重要的元素(通常称为元数据元素或数据描述metadata elements or “description of data”):数据收集方式、数据涵盖范围、时间和空间范围、数据记录覆盖区域、收集和拥有者信息、查看工具软件等[9]。

      对于数据集相关信息,根据上述学者的建议,参考已经出版的数据论文,数据论文中描述数据集应体现以下重要内容:

      (1)数据可用性(Availability):提供数据集访问的属性,即DOI或URI。数据论文非常重要的特征是他们必须与其所描述的数据集相关联,可能通过DOI或者URI,而且这些唯一标识符应该包含在出版的数据论文当中。一旦数据论文发表,数据中心所拥有的数据集必须包含其所有详细的描述信息,包括与之相连的DOI。在提交数据论文的时候,其描述的数据必须在线并可以自由查看,可以被检索、多次利用、重新组织和分发,在这些过程中需要以相应的格式(例如数据引用data citation,即用类似于参考文献的方式来表明对数据的参考与使用)来表明数据生产者的贡献即可。

      (2)数据覆盖范围(Coverage):提供数据集的“extent”的属性,包括空间和时间覆盖。

      (3)数据格式(Format):提供促进数据集实际使用的信息,如数据格式、编码、和语言。

      (4)数据许可(License):提供控制数据集使用的政策。

      (5)贡献(Micro attribution):详细描述每个数据论文作者的贡献。

      (6)来源项目(Project):提供导致数据集产生的科技计划信息,包括目标和资金来源。

      (7)数据来源(Provenance):提供导致数据集产生的信息描述方法(包括工具)。

      (8)数据质量(Quality):提供数据集质量方面的定性信息,包括数据集的局限性和异常。

      (9)数据重用(Reuse):提供促进数据的潜在使用的信息。

      4 数据论文出版流程

      数据论文的出版流程与传统论文一样,包括论文手稿的撰写、论文提交、同行评议、修改、定稿和发表等环节。目前在生物多样性领域,数据论文出版已经可以通过自动的数据论文审阅和提交平台CBIF集成发布工具包(GBIF Integrated Publishing Toolkit,IPT)自动撰写和发表[27],并与GBIF、Scratchpads、Dryad、EDIT、CBOL等数据仓储平台相连[26]。

      本文以生物多样性领域为例说明数据论文出版的步骤,主要包括组成:

      (1)利用达尔文核心档案(Darwin Core Archive DwC-A)制作元数据:由存储生物多样性领域数据的数据仓储利用该领域的元数据标准DwC-A生成数据元数据,每个达尔文核心档案至少包括三个文件:①制作一个或多个数据文件使所有特定的数据集记录保存在一个表格,如逗号或制表符分隔的列表;②利用文件描述符(meta.xml)描述单个数据文件使用的列,并将它们映射到DwC的条款;③基于EML(生态元数据语言)生成描述整个数据集的元数据文件。

      (2)存储数据到领域数据仓储:将数据论文要描述的数据存放到公共数据仓储,例如,可将Phylogenies数据存储到TreeBASE,可将基因数据存储到GenBank。其他学科常用的数据仓储包括:Dryad(综合学科)、PANGAEA(地球科学)、Knowledge Network for Biocomplexity(KNB)(生态和环境科学)、National Biological Information infrastructure(生物科学)、DataBasin(空间科学)、DataONE(跨学科)、PaleoBiology Database(古生物科学)、Protein Data Bank(PDB)、The Universal Protein Resource(UniProt)(序列和注释数据)、INSPIRE(空间科学)。存储数据可以在给期刊提交稿件之前或提交同时,也可以在稿件接受之后但最后修改稿准备出版之前,以保证读者可以根据数据论文的标识符链接到相应的数据为原则。在存储数据时,可以将一篇或多篇数据论文描述的数据合并成一个数据包提交。如果存储数据到Dyrad,同时会获取Datacite分配的唯一标识符DOI。

      (3)论文形成及发表:通过Pensoft出版集团提供的GBIF Integrated Publishing Toolkit(IPT)工具自动从第一步产生的元数据中提取相应内容产生数据论文初稿,作者进行相应的检查、补充并在线提交。然后进行类似于传统学术论文出版的流程:进行同行评议、通讯作者修改同行专家提出的意见、生成最终修订的数据论文手稿、提交数据论文进行终审、分配DOI、数据论文发表(印刷格式、PDF格式、HTML格式、最终出版XML被存档在PubMedcentral)、数据论文DOI与元数据文档关联、数据论文通过商业数据库(ISI、PubMedCentral、Scopus、Google Scholar、CAB Abstracts、Directory of Open Access Journal(DOAJ)、EBSCO)等进行传播。

      5 结语

      作为一种新兴的出版物模式,中国也正加快数据论文出版方面的步伐,2014年,《地理学报》以发表数据论文的形式出版增刊,2015年,由中科院主办的数据期刊《中国科学数据》通过国家新闻出版广电总局审批。可以预见,随着科学数据对科学研究重要性的不断凸显,数据论文将成为学术出版的重要方式,因此对于我国来讲,需要:

      (1)建设数据论文出版基础设施。第一,利用公共财政资金或引入商业化模式建设面向各个学科的公共数据仓储,供所有数据工作者撰写数据论文时存储数据;第二,研制科学数据的唯一标识体系,建立数据论文与存储在数据仓储的数据之间关联的方法与解析系统;第三,形成各学科领域科学数据描述的元数据标准;第四,建设类似于GBIF IPT,简单易用的数据论文撰写、提交、审稿、修稿、发表平台,开发与之相适应的各类软件与工具。

      

      图2 数据论文发表流程[26]

      (2)重视数据论文的质量评审。第一,制定相关期刊发表数据论文的指南、模板,确立数据论文要素和格式,在此基础上建立数据论文的同行评议制度,并与相应的数据集建立关联,通过数据集的使用情况反过来评审数据论文质量;第二,建立对数据论文所描述的数据进行同行评议的准则,相关工作可以由数据仓储来完成。

      (3)明确数据论文出版中各个利益相关者的角色和任务。第一,数据工作者负责生产数据或者收集数据,生成数据的元数据,将数据存储在可以信赖的数据仓储;第二,数据仓储负责对数据进行保存,组织同行评议,对存储的数据进行严格的编辑和审查,制作数据索引,发布与数据论文相关的数据供各类用户检索查询;期刊和出版商负责数据论文的审查、编辑与发表;还有其他利益相关者如图书馆开展数据监管(data curation)服务,指导、教育和支持研究者开展数据管理,诸如Exhibit[28]的技术公司或者研究机构来开发一些支持互操作的数据工具,诸如汤森路透的公司开发数据索引工具。

      (4)鼓励数据利用,强化数据引用。第一,鼓励科研工作者利用出版的数据论文相关信息,更加方便地对数据进行后续操作、编辑和注释,不断提升数据的可用性[29];第二,编制和开发同时面向数据论文和其描述数据的索引工具,便于读者发现数据;第三,研制科学数据引用标准,促进科研工作者在各种出版物和媒体上对使用数据的行为进行著录,一方面可以通过同行认可激励各类数据工作者出版数据,另一方面可以促进数据价值增值。

标签:;  ;  ;  ;  ;  

数据论文的产生与发展_元数据论文
下载Doc文档

猜你喜欢