国外科学数据引用研究进展,本文主要内容关键词为:研究进展论文,国外论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G254 1 引言 随着计算机辅助科研的大量应用,科研过程会产出海量的科学数据,科学数据是信息时代最基本、最活跃、影响面最宽的一种战略性资源,对于科技创新具有显著的支撑作用,从一定角度来说,未来的科研活动将是科学数据驱动的科研活动[1]。同时,数据密集型科学研究范式的兴起,使得数据引用问题日益受到关注。科学数据引用(data citation)[2]是指类似于研究人员通常为印本资源提供书目参考的方式提供数据参考的做法,通过一定的标识技术和机制,对所使用的科学数据资源进行描述,标识数据的来源,从而在一定程度上促进数据的知识产权保护,便于进行数据引用情况的统计和分析。数据引用对象可以是数据仓储、数据集或数据记录等。目前,国际社会对数据共享的需求日益强烈,一些地区性组织已经开展的关联数据(linked data)项目、政府数据开放(data.gov)运动等,也使人们的数据共享意识日益增强。因此,数据引用的规范化制定显得更加紧迫。 数据引用日益增长的需求及重要性与现实的反差引起了众多国际组织、科研项目、数据仓储或数据中心以及学术期刊出版商等的关注。2011年起,众多国际组织如Data cite[3]、IQSS[4]、ANDS[5]等纷纷开展以“Data Citation”为主题的研讨会与相关活动。2012年10月16日,全球领先的智能信息供应商汤森路透旗下的知识产权与科技事业部宣布推出数据引文索引[6](Data Citation Index,DCI)。国外数据引用的理论与实践研究早于国内,并已经取得了一些重要进展。本文从数据引用关键问题、数据引用规范、文献管理工具、数据引用利益相关者、4个方面对国外数据引用研究现状进行梳理与总结,以便对数据引用领域国际上的最新研究前沿动态进行实时跟踪,及时了解国内研究的不足之处并加以弥补。 2 数据引用的关键问题 2.1 数据共享和引用意识 数据引用目前最大的挑战就是数据的生产者和使用者没有数据共享和引用的意识。研究人员不愿意共享自己的数据的原因有很多,在《国外数据共享行为影响因素研究综述》[7]中,作者总结了影响数据共享的三大因素:①制度因素——数据引用政策与规范的缺乏;②技术因素——没有合适的可提交数据的数据仓储;③个人因素——得不到预期利益与承担共享风险等。此外,即使数据比如政府部门数据可以被广泛地共享,数据使用者也不一定能够用正确合理的方式引用它们。M.A.Parsons等[8]于2010年进行的一项研究表明,2002~2009年期间,引用了美国航天局(NASA)遥感数据的作者中,只有很少的作者提供了正式的引用方式。总体来说,数据使用少一部者通常缺少一些数据引用的意识:①不知道是否应该引用该数据集;②不确定应该怎么去引用数据集;③缺乏学术报偿体系(academic reward system),即使引用了数据,但因没有相应的学术激励体系而得不到鼓励,因此缺乏引用的动机。 2.2 引用对象 目前,还没有关于数据集统一的定义。数据集一般来说是“复合”型的,每个数据集下面可能会包含若干个子数据集。数据的使用者在面对引用时,不知道该引用完整的数据集,抑或是引用这个数据集的子集。因此,正如P.J.Hayes等[9]所说,数据引用本身是一个比较模糊的过程。此外,数据集具有动态性、不确定性以及边界的模糊性,这些都从一定程度上抑制了数据引用规范的向前发展。首先,数据集往往是高度动态化的,因此很难将数据集“语义化”。R.E.Duerr等人[10]将这种问题总结成“科学唯一性”,并指出现有的某些技术,如数字唯一标识符等并不能从根本上有效地解决此类问题。其次,为了保证学术优先权,将作者身份加入数据集同样也是比较困难的。以往在期刊论文、会议报告中,可以将作者信息加入到指定位置,但是在科学数据中,很难这样做。再者,在数据集中,署名也是有争议的,数据集通常是合作的产物,同一个项目中的不同生产者可能对数据集的署名以及责任归属有着不同的认识。 2.3 长期保存 目前全球范围内都在进行数字资源的保存研究,与传统学术出版不同,数据集有其特殊性,如何更好地进行数据出版,是要仔细考量的。并且目前的数据引用技术很少涉及数据的保存,这些都是需要进一步研究的。N.M.Weber等人[11]2010年的一项研究发现,大多数期刊没有明确的数据归档或引用政策。他们认为期刊的数据归档或引用政策在细节上可能是各不相同的,但保障正式出版和数据的持久性却应该是期刊共同的要求。数据的长期保存不仅仅需要解决“去哪儿”的问题,还需要解决“如何检索”的问题,这就涉及了为科学数据分配可持续性标识符问题,目前唯一标识符分配最常见的是DOI(Digital Object Unique Identifier)[12],此外,诸如Handle System[13]、Uniform Resource Name[14]等也经常被使用。 3 数据引用规范研究 在科学数据引用规范出现之前,国际通用的学术论文写作规范中已经有部分针对数据引用的要求。例如人文社会科学领域三大格式(The Big3)——APA Manual(第六版)[15]、MLA Manual(第三版)[16]、Chicago Manual(第16版)[17]中给出了与“数据引用”有关的说明。但是这些格式指南文件普遍存在一些问题:①由于并不是专门针对科学数据的引用规范,三大格式针对科学数据的引用对象分别为数据集、网络资源以及科学数据库,也即对引用对象的定义与划分缺少一致性,不能相互兼容。②由于科学数据的类型多样,数据的引用缺乏系统、统一的标准。③三大格式都没有包含唯一标识符。 国外专门针对数据引用规范的研究自2007年开始,M.Altman等[18]发表论文,对数据引用包含的最小元素集、可选元素等进行了具体分析,该文是最早探索数据引用标准的论文之一。此后,众多致力于数据引用的国际组织和数据中心等在此基础上提出了自己的数据引用标准。自2011年起,一些致力于数据引用实践的国际组织如DataCite[19]、OECD[20]、DCC[21]等纷纷发布了专门针对科学数据的引用规范指南文件。Data Cite[22]作为一个专门为推进数据引用规范化而设立的机构,是目前数据引用领域的研究主力。它的国际数据引用元数据工作组于2011年6月推出“DataCite Metadata Schema for the Publication and Citation of Research Data” Version 2.2,且于2013年7月更新到3.0版本。该规范给出了一些核心的元数据属性以及使用规则建议,以实现对数据的准确及持久的识别,从而方便数据引用及查询。它的引用对象是在线的科学研究数据(scientific data on the Internet),被引用资源可以是任何类型,典型的是数据集。推荐引用格式为:Creator(Publication-Year):Title.Version.Publisher.ResourceType.Identifier。笔者对这些国际组织的引用规范/指南文件进行比较发现,其都包含以下3个主要组成部分:制定规范的目的及意义、科学数据/数据集的定义、具体的引用格式介绍。这些文件制定的逻辑具有高度的一致性,并且也与先前出现的一些通用的文献参考格式标准,如APA、Chicago Mannul等所定义的规则保持一致,并且就科学数据而言,这些引用规范的元数据组成比通用的文献参考格式标准更加细化与丰富。 此外,一些致力于数据引用规范制定的科研项目也发布了相应的数据引用最佳实践与规范。由JISC资助的SageCite Project[23],旨在开发和测试一个将数据、方法与出版物关联的引用框架,并且提出数据引用的最佳做法:①数据引用所引用的对象必须具有唯一性;②数据集引用的元数据字段必须完整;③所引用的数据必须可以访问或获取;④数据引用除了能够引用某一数据集,还必须能够提供对其子集的引用;⑤数据引用能够被计算机处理,可以支持传统式的计量学分析。还有一些科研项目如由德国研究基金会(DFG)资助的STD-DOI[24](Publication and Citation of Scientific Primary Data)项目等也提出了数据引用格式:creator(s)(publication year):data set name,publisher.persistent identifier。 一些地球科学(如PANGAEA[25]、ESIP[26]等)、生命科学(如GBIF[27]、Dryad[28]等)以及社会科学(如Dataverse[29]等)等呈现数据密集型态势的学科的数据仓储或中心也发布了自己的数据引用规范,这些引用规范与前述国际组织所发布的引用规范的核心元素组成基本相同。 目前很多国外的期刊出版商也在逐步引入数据存档政策,这种存档一般以两种形式存在[30]:①鼓励研究人员在发表论文的同时,将相关的科学数据也一并提交,这类期刊大致有PLOS One、BMC Evolutionary Biology、F1000 Research等;②强制要求研究人员在发表论文的同时,将相关的科学数据提交到相应的机构仓储中,如Nature、BioMed Central等。 综上所述,不论是国际通用学术论文写作规范的最新版本中涉及科学数据,还是专门针对科学数据的引用标准的相继出现,都预示着科学数据引用问题正受到各方关注。将已有具体数据引用规范的文件进行对比,可以发现,author/creator(创建者/责任者)、title(标题)、publication year(发布年份)、publisher/archive/distributor(发布机构/存储机构/传播机构)、url/electronicretrieval location/external links(url/获取地址/外部链接)这4个属性在所有引用规范、写作指南等文件中都被提及并被作为强制要求性元素。唯一标识符(persistent identifier)作为比较新的事物,在较早发布的三大格式中都未被提及,但被上述提及专门针对科学数据引用规范的文件作为强制性元素。另外,resource type/material designator(资源类型/载体代号)、version(版本)也被大多数规范所要求。随着数据引用规范的元数据组成进一步丰富与细化,数据引用过程变得更加清晰,但正如关键问题所述,科学数据这一引用对象具有高度的动态性、不确定性以及边界模糊性,因此数据引用规范目前还面临着数据集粒度和动态数据集处理等诸多问题。另外,由于科学数据本身的复杂性,数据引用规范的制定目前呈现出各自为政的状态,各种引用规范之间的兼容也是亟待解决的问题。 4 文献管理工具 目前有许多文献管理软件(Reference Management Software,RMS)可以对各种资源进行引用,帮助用户高效管理和快速生成参考文献。绝大部分的RMS都是根据特定的资源类型,比如“期刊”、“专利”、“报告”、“电子资源”等生成由不同的元数据构成的参考引文实体。随着目前对科学数据引用的日益增加,在文献管理软件中专门集成科学数据等非文本资源类型显得更为急迫。 笔者根据下载使用、相关论文综述以及软件介绍说明等,对目前常用的18种文献管理软件的引用规范进行调研,结果显示目前很少有专门集成科学数据引文类型的软件。如表1所示。 由表1可以看出,在18个常用文献管理软件中,只有3个专门具备科学数据引用的功能,分别作为“数据库”、“表格”和“数据文件”的选项进行引用。在其余15种软件当中,有5种允许用户自定义引用类型如“数据集”选项,但并没有专门针对科学数据的引用元数据;另外10种软件则根本没有涉及科学数据选项。综上所述,目前常用的文献管理软件缺乏对数据引用的支持,对于科学数据等非文本资源类型引用的关注度还远远不够。 到目前为止,虽然还没有出现可以在学术论文中自动索引数据引用的工具,但是科学数据的引用越来越受到各大研究机构和企业的关注。比如汤森路透在2012年推出的数据引文索引工具(Data Citation Index,DCI)[6],作为汤森路透搭建的Web of Knowledge信息平台上的一个新的资源发现工具,将使数据集的发现和利用方式发生革命性变化。DCI支持研究人员在文献的上下文中发现、引用和查看相关数据,从而推动对数据集和数据研究的发现、使用及归属,促进对全球研究数据的再利用。此外,还有一些提供数据发现服务的工具,比如ChemSpider[31]、CrystalEye[32]等。这些工具主要面向特定的学科领域,对该领域的数据进行下载和聚合,并以增值资源的方式重新发布出来。 5 数据引用利益相关者探讨 从很多实际情况来看,数据引用实践的滞后并不仅仅是引用规范制定的问题,它还涉及多方利益相关者。许多致力于数据引用的国际组织都开展了有关数据引用利益相关者责任与能力的讨论,如ODE(Opportunities for Data Exchange)在2012年有关数据引用最佳实践的报告[33]中从不同利益相关者的角度探讨了数据引用实践给它们带来的机遇与挑战,CODATA-ICSTI数据引用标准和规范任务组也在2012年有关数据引用实践、政策以及技术现状分析的报告[34]中探讨了现有与数据引用相关的科研机构所承担的责任与义务,但总的来说,目前对于数据引用利益相关者责任与义务的探讨比较散乱,没有形成统一的体系。只有多方携手,才能从根本上推动数据引用实践活动不断向前发展。经过大量的调研,笔者大致归纳出以下6个与数据引用活动最相关的机构及它们的责任与义务,见表2。 6 结语 随着数字化科研时代的到来,科学数据成为越来越重要的科学资源,科学数据的引用也受到了更多的关注。目前,数据共享和引用意识缺乏、引用对象不明确以及数据如何长期保存是数据引用面临的三大难题。首先,纵观数据引用的国外现状,众多国际组织、科研项目、数据仓储、数据出版商等都致力于建立各自的数据引用规范,但科学数据本身的动态性以及边界的模糊性,规范的元数据组成以及相互兼容性问题还有待解决;其次,目前的文献管理工具中几乎没有涉及对科学数据的引用管理,科学数据的引用必须进行手动添加,增加了科研人员引用的障碍,需要文献管理工具对科学数据这一重要资源做出必要的支持;再次,数据引用的发展与实践还有待研究资助机构、研究机构、数据生产者和研究人员、数据仓储、图书馆以及数据出版商等各个利益相关者的共同努力。 对于科学数据引用所面临的关键问题以及未来研究方向,笔者有以下几点思考:第一,针对数据共享意识和引用意识缺乏问题,完善针对科学数据的学术报偿体系。将数据引用纳入科研评价体系,这是解决该问题的核心对策也是非常有价值的研究方向。第二,针对数据引用规范的兼容性问题,可以运用“本体”的思想,将常用规范之间进行本体映射或者根据已有规范制定国际通用的引用标准。第三,针对科学数据的长期保存问题,需要促进唯一标识符以及数据仓储的注册,目前许多国际性组织提供科学数据唯一标识符的注册,如DataCite等。另外,诸如OAD[35]、re3data.org[36]、Databib[37]等,能帮助人们注册识别和查找在线的数据仓储。我国目前的数据引用实践还处于起步阶段,需要借鉴国外的相关理论经验以及成功的实践案例,结合实际国情,在重点关注数据引用关键问题的同时,完善引用规范的制定、促进管理工具的开发以及鼓励各个相关机构共同努力,从而推动我国的数据引用实践不断向前发展。 收稿日期:2014-03-13 修回日期:2014-04-02国外科学数据引文研究进展_科学论文
国外科学数据引文研究进展_科学论文
下载Doc文档