数据期刊发展探究,本文主要内容关键词为:期刊论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号G255.2 1 引言 在实证科学领域,以往科学数据都作为完整学术报告的一部分,并不会脱离科研分析和结论以单独出版的方式出现。面对数字化数据大量涌现的现状,传统的出版模式已经无法满足科学家对数据共享的需求,数据期刊作为一种更有效更快捷的数据分享方式应运而生[1]。 计算机辅助的学术报告出版在上个世纪60年代已经存在,然而现如今学术出版与网络信息传播联系越来越紧密,更多更有效的应用开始涌现。英国国家日报The Guardian率先于2009年3月推出其在线数据分享工具“Datablog”。而谷歌推出的“Fusion tables”让数据网上共享更加流行。在这种趋势之下,科研出版的业界人士认为这种利用联机实现快速即时的数据共享已经成为一种新兴的出版产物——数据出版[2]。 数据出版的出现有望在根本上弥补传统期刊在数据共享方面的重大缺陷。通过阅读数据期刊,读者可以实现对原始研究数据的应用,因此数据出版可以最高程度地保持数据的完整性,它能积极防止科学造假,帮助科研工作者减少重复的时间、资金的投入以及跨学科的研究障碍。这些对于提高数据发表者和数据发表机构在科研领域的知名度和科研合作几率等具有重大意义[3]。 数据出版是一种通过控制数据质量提高数据共享效率的新概念出版方式,它的形式多种多样,数据期刊则是其中一种新型的出版形式。描述数据集收集处理、过程、格式等细节,Data Papers是数据期刊的主要特征。Data Papers一般用较短的篇幅让读者以最高的效率了解数据集的所有相关细节,以提高他们对数据进行引用和应用的可能。在这种机制的支持之下,科研数据得到良好的管理,科研方法和结果高度透明,给后继的科研项目提供了永久的可解析的数据获取路径。 2 数据期刊的兴起与发展 2.1 数据期刊的产生及兴起 数据期刊的兴起源于欧美发达国家。作为一种新型出版形式,它的发展和兴起经历了较为漫长的过程。虽然以数据统计和分析作为主要内容的出版物在18世纪中期就已经出现,但是在当时出版界对于数据出版的重要性并没有给予足够的重视。在互联网和计算机辅助出版之前,数据出版只能作为书籍出版的一部分,可利用程度受到了极大的限制。即使在欧盟委员会的指导支持下,大部分欧洲国家的数据开放进程仍然非常缓慢[4]。随着数据时代的到来,联机数据共享的实现,数据出版的重要性日益凸显,引起了各界人士越来越多的关注,在这种趋势之下,其兴起成为了一种必然,让数据出版成为一种特殊专业以至行业共识的呼吁日益高涨[5]。来自USA Today's Anthony的DeBarros指出,各种计算机辅助的数据处理工具的诞生使科研者处理来源于网络数据库的数据集变得越来越简单,这同时也极大地刺激了数据在线共享的需求并推进了数据期刊的兴起[6]。数据期刊的兴起从根本上顺应了信息时代对数据高速高效共享的需求,并且以多样化的出版形式在科研界以外的各个行业内产生着广泛的影响。 2.2 数据期刊的当前现状 作为一种新型的学术出版形式,数据期刊还存在着各种各样的问题。除了需要更进一步提高科研工作者对其的认可度、接受度和利用率之外,在期刊出版的过程中也存在着一些无法忽略的问题,如对数据知识产权保护的进一步完善,推广DOI系统一般的数据唯一标识,开发数据集成和二次加工的方法,对数据的管理方法进行创新等。无论国内还是国外,数据期刊的出版都面临着各种各样的挑战与机遇。 在国际上,科研数据公开已经成为一部分科学家的自主自发行为。一些国际上知名的数据库建设就是为了满足这种数据共享和再利用的需求,很多期刊也积极配合数据库的建立,鼓励科研工作者发表学术论文的同时也将原始研究数据注册到相关稳定的开放性的公共数据库之中,为后继研究者提供便利。但是这些数据库的维护也面临着挑战,因为在缺乏约束的情况之下,科学家们并不会自主的对记录进行更新。除此之外,因为作者对于自身数据知识产权仍旧存在忧虑,一些作者会在发表学术期刊之后回避数据公开这一话题,为数据共享和再次利用造成障碍和困难。为了改善这种情况,推进数据期刊的出版,国际上很多出版机构对科研成果的发表做出了一些相关规定,如要求作者在论文正式发表前将科研数据提交并注册到相应的数据库中,获取永久标识;对数据集进行严格的同行审议,再将数据资料以Data Papers的形式先行发表;与作者签署数据授权协议等。除此之外,期刊与数据中心形成联合互动的管理机制,科学数据评价指标的建立,都为推行数据期刊,推进数据出版产生了积极的作用[7]。 在国内,一些著名的数据中心也采取了各种举措推行数据共享和数据期刊的出版。如冰川冻土科学中心等计算机网络信息中心要求读者在再次利用科研工作者在网络上共享的数据时注明数据来源,并且严格规范了对数据使用声明的要求。为了减少国内科研工作者对于数据知识产权保护的忧虑,国内的数据中心也建立了科学数据引用规范。因为国内科研数据共享起步较晚,至今并没有形成完善的数据期刊出版框架。 除了数据期刊本身存在的问题之外,各领域学科也在探索符合自身学科特点的数据期刊发展模式。如医药生物学领域的PLoS One、Biodiversity Data Journal(BDJ)等数据期刊,是以出版学术论文为主,并将数据集作为补充性文件储存于出版商数据库为出版形式的数据期刊。而在气象学和考古学领域,数据期刊Journal of Open Archaeology Data和Geoscience Data Journal(GDJ)是以出版Data Papers为主的数据期刊。 因此,为了推动数据期刊的发展,各方利益相关者应该照顾彼此的需求,共同为提高数据期刊在科研界的影响力和认可度,完善数据的储存和管理,提高在线出版平台的质量,完善知识产权保护体系和建立数据评价指标而努力。只有这样数据期刊才能形成一个行之有效的发展模式,并且满足各界对于数据共享和再利用的共同需求。 2.3 数据期刊对科研现状的影响 数据期刊的兴起极大地改变了科学研究的现状,弥补和完善了传统学术发表在数据共享上的不足,提高了数据共享的效率,并且在一定程度上消弭了跨学科研究的障碍。因为数据期刊具有快捷、高效等特点,从某种意义上说鼓励了科研工作者的积极性,促使他们投入更多精力和时间去准备科研数据,提高自身在科研领域声望的同时实现科研数据的共享和再次利用[8]。对于这种现象,Pensoft出版商Lyubomir Penev在一次采访中做出了合理的解释:首先,数据采集者、数据管理者和作者将获得Data Papers的优先注册和引用的权利;其次,数据期刊会将与科研数据集相关联的扩展数据集以准确的集成的方式描述和出版,极大地提高了其他科研工作者对于数据的使用、复用及共享的效率,促进了科学研究机构和其他科研团体之间合作的可能性;最后,原始数据集的公开和收集数据集的再利用,使公共投资资金在管理这些数据方面更有效率,节省了时间和经济成本。 3 数据期刊的出版模式 3.1 以出版短Data Papers为特征的数据期刊 Geoscience Data Journal是这个类别的代表期刊。Geoscience Data Journal(GDJ)广泛涵盖地球科学领域的相关学科,包括生物学、气象学、海洋学等。GDJ出版Data Papers的主要目的是为地球科学领域学者提供一个开放式的数据获取平台[9]。GDJ出版的工作流程包含4个步骤,以保障读者能够快速便捷地获取科学数据及其处理细节。这4个步骤分别是:①作者向GDJ编委会提交Data Papers并对Data Papers中数据集的收集方式、处理方式、数据集格式、大小等细节信息进行详细的描述;②作者必须将数据储存于合适的数据仓储中并获得DOI才能进行Data Papers的提交;③Data Papers与其连同提交的数据集将经过GDJ编委会严格的同行审议;④Data Papers通过审议并被采纳之后,作者的文章与其获得的DOI会一同发表于GDJ的在线期刊。通过这种途径实现的数据发表可实现读者在浏览Data Papers的同时对科研的原始数据集进行浏览和获取。 在这个类别之中Journal of Open Archaeology是另一个代表性的数据期刊。该期刊服务于考古科学,为考古科研者甄别具有较高的再次利用价值的数据论文,并对其连同的考古数据集进行严格的同行审议。在这个过程之中,Journal of Open Archaeology(JOAD)会严格按照期刊标准进行审议,以确保数据论文中数据集的科学性和准确性。JOAD要求作者将数据上传于公共数据储存仓储,并且这些仓储能够允许读者在浏览Data Papers的同时无限制地访问这些开放浏览许可之下的科研数据[10]。与此同时,作者可以向JOAD提交与数据集相关的研究性文章。这些文章会与数据集描述一同在线发表,给予读者更多的科研参考。 结合对两种代表性期刊的研究可知,出版Data Papers的数据期刊有以下4个特征:①出版编委会不会对作者提交的原始数据集进行任何进一步的研究处理,包括数据分析、假设和推演;②确保读者在浏览Data Papers的同时有快速便捷的途径浏览作者提供的科研数据集,这种集成统一的数据管理方式进一步推进了数据再利用的可能性;③以简短精练的Data Papers为主,包含作者对数据集的详细描述;④按照期刊标准对数据进行严格的同行审议,确保数据集的质量。 3.2 以整合出版为特征的数据期刊 Biodiversity Data Journal是一个典型的以整合出版为特征的数据期刊。该期刊涵盖生物多样性领域的各种学术论文,并将数据和论文进行集成在线出版[11]。Biodiversity Data Journal(BDJ)的出版方式让读者获得一个开放获取、综合性的在线学术数据的共享平台,是数据期刊的又一种应用和实践的方式。BDJ并不止要求作者提交Data Papers,而是要求作者在提交其研究论文的同时在文章中保留单独的“数据资源”。这种“数据资源”要求是DOI或者是其他永久链接标识,以为读者提供一个稳定的、开放性的科研数据浏览途径[12]。这一类型数据期刊的出版特点包括:①数据文件与学术论文一同在线发表,数据文件中要求包含参考文献、数据目录、数据资料表和数据集等;②研究假设、结果和支撑图表全部作为“数据”同文章一起发表,成为补充资料文件;③同BDJ一样,与大型国际数据仓储合作,集成出版研究论文和数据,并且文章以XML格式发布,保证机器可读。这种类型的数据期刊会将每篇研究论文中的数据资料进行整合,并将其与其他资料一同以补充文件的形式“打包”,使其可以上载到该期刊的网页上同学术文章一同发表,成为特殊的“数据资源”部分[13]。 GigaScience数据期刊则侧重于生命科学和医药生物领域发布的“大数据”的研究。它通常与提供数据分析工具和云计算资源的大型数据仓储进行合作,要求作者将支持性数据及源代码等数据储存于这些数据仓储中,同科研论文一同提交。GigaScience强调为读者提供优质数据集,其中包含彩色插图和活动图像,使读者根据需求对数据进行操作[14]。此期刊也以DOI为桥梁,提供已发布论文和相关科研数据之间的直接链接。 3.3 将科研数据作为补充资料出版的数据期刊 Earth System Science Data(ESSD)是一个国际性、跨学科的期刊,也是将科研数据作为补充资料出版的代表性数据期刊。ESSD的文章包含3个板块:固定长度的文章、短篇的数据集补充资料以及注释。数据资料部分一般会介绍数据的计划、收集、实验、操作等具体方法和途径;注释部分包含对数据非常规含义的释义以及文章描述方法等。ESSD的出版过程分为两个阶段:第一阶段是基于地球卡系统科学数据科学论坛(ESSDD)的快速网络出版;第二阶段是同行评议之后,文章将经过修订再最终发表于ESSD[15]。无论是ESSDD还是ESSD都注册了ISSN号,支持永久存档和完全引用,很好地保护了作者的知识产权。 在这个类别中,另一个例子是Ecological Archives,该期刊包含3种出版产物,分别是附录、副刊和Data Papers。这3种出版产物通常作为补充性资料出现。其中附录是包含主体文章支撑信息的在线出版物;副刊包含不适合印刷出版的文件,一般是数字格式的文件,包括原始和派生数据集等;Data Papers则是用来呈现包含元数据描述的巨大数据集。以该出版模式出版的数据期刊有两大特点:①科研数据作为论文的补充资料出版;②出版过程十分注重时效性。 4 数据期刊的未来发展趋势 虽然当前数据期刊的发展仍旧面临着一些问题和挑战,但是作为推动科学数据共享进程的新形势,其潜力是不可估量的。数据作为实证科学研究的基石,科研界对其共享和再利用需求的不断增长。在这种需求的促进下,数据期刊在不断完善自身的过程中日臻成熟,必在未来有着更长远的影响和发展。 数据期刊未来的发展主要包括以下几个方面:逐渐完善出版流程、明确数据质量控制方法;加强出版平台功能,建立数据中心数据存储的统一规范与标准;提高出版质量,增加被各类重要引用文库的收录;完善数据知识产权的保护机制、保证作者的学术研究、改进弥补共享策略缺陷,避免“数据滥用”超出的作者个人信用损失[16]。具体而言,数据期刊的发展与完善有以下几个趋势。 4.1 数据出版平台的完善与规范 所有的数据期刊都需要与公共数据仓储、图书馆等数据整合出版平台的合作。作者需要将数据包储存于定向储存库,建立研究论文与原始科研数据的关联,再通过数据期刊的发表为读者提供唯一数字对象标识或者永久的URL地址,使其能准确链接到数据集所在,实现对数据集的开放式浏览和获取。数据期刊可以达到一种多角度关联、多终端传播的立体出版形态,由此实现一键式关联数据共享机制。 4.2 数据期刊与传统学术期刊的联合发展 传统学术期刊的出版机制十分成熟,一直以来是学术交流、科研成果传播的主要平台。数据期刊的出版可以巧妙地利用这种成熟的发展模式,与传统学术期刊相结合的同时,将科学数据出版嫁接进来,使数据期刊和学术论文得到平等的待遇,并经过在线联机出版的方式将科研成果与其数据支持展现于读者面前。科学界的顶级出版商Nature出版集团在今年推出了一个数据期刊——Scientific Data。Scientific Data采用Data Descriptor的形式将作者提交的数据(集)进行出版,使存储在定向存储库中的数据集同外部出版物或检索平台相关的论文形成一个关联检索过程,实现科学数据的引用与再次利用。在这种形势下,数据期刊与传统学术出版产物有机结合,注重时效的在线联机出版不仅提高了出版过程的效率,而且使得读者对研究论文和数据的再次利用更加便利。 4.3 跨学科数据库的建立与发展 在当下,大多数数据期刊都是以特定的形式为某一学科领域进行服务,如生物学、地球科学、化学、生命科学等领域。但是考虑到数据期刊的不断完善以及学科交叉科研发展的推进,数据期刊注定不会一直以专注某一个特定学科而存在,各个领域的数据库必然会出现合并现象。在数据库合并之后,数据出版将建立更多统一的规范与标准,让各方利益相关者获得更多的合作机会,科研论文和科研数据的关联集成方式、数据期刊的出版形式都会随之发生改变并且得到进一步推广。数据期刊发展研究_大数据论文
数据期刊发展研究_大数据论文
下载Doc文档