研究数据引用研究,本文主要内容关键词为:数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
美国行政管理和预算局[1]认为研究数据是“通常被科学社会所接受的,用于验证研究发现的被记录的必要的事实材料”。本文引用美国国立卫生研究院发布的较为具体的研究数据定义,即为“记录的信息,不考虑信息记录的形式和媒体,包括手稿、电影、声音记录、图片出版物、绘画、设计或者另外的图像表述物、过程手稿、形式、图形、工作流图、设备、描述物、数据文档、数据处理或计算机程序(软件)、统计记录或另外研究数据”。
数据引用是指类似于研究人员通常为印本资源提供书目参考的方式提供数据参考的做法[2]。当研究人员在写论文时,很有必要在论文的参考书目或是页面的脚注部分去引用所使用的资源。这能给你的读者提供参考,使其更好地理解你的研究内容,同时也给参考资源的作者以认可。随着科研模式逐渐趋向于数据密集型,在传统的出版物例如期刊文章、书籍以及会议记录中增加引用所使用的数据集也变得更为重要[3]。
数据引用的突出优势表现在以下三个方面:一、数据引用通常作为一个数据定位或参考机制,可以通过其直接而明确的链接到所使用的精确数据。因此,对于读者定位并获取数据提供便利,增加数据重用性和共享能力。二、能够增加数据生产者和数据中心的认可度。类似于期刊的引文率,数据引用情况亦可以作为评价数据提供者和数据中心认可度的依据,为数据之后的使用提供一定的鼓励作用,并能追踪数据的影响,减小数据被剽窃的风险。三、利于科学研究过程的验证。通过数据引用获取研究过程的原始数据集,按照研究过程实施,可以重现研究过程,验证科学研究的结果。
1 关键问题分析
数据引用在数据出版框架中占据着重要的地位,然而标准的数据引用机制是其本质内容。缺乏数据引用标准可能导致对数据非正式参考并不能指向实际适用的精确数据。再者,研究数据作为一个独立的、可引用的、唯一的对象,亦需要有良好的引用标准。研究数据元数据形式多样,按领域异构,不利于创建索引,引用标准所含的元数据应为通用出版元数据为宜,用于编目分类,创建索引。实际上,本文所探讨的一个数据引用所含的元素,也就是相关数据出版元数据的一部分,用于明确引用和定位数据。主要探讨的关键问题包括:相关的引用标准,即数据引用所包含的元素和数据集相关的引用问题。
1.1相关引用标准
当前并没有商定一致的研究数据引用标准,尚未有国际信息标准组织编纂的标准手册。本文重点研究了研究数据引用相关的目前广泛认可的标准:Micah Altman等人提出的建议、经济合作与发展组织(OECD)的白皮书以及DataCite元数据方案。
2007年,Micah Altman、Gary King发表论文[4],对一个数据引用所应包含的最小元素集、可选元素等,进行了透彻的分析和建议。该文是最早探索数据引用标准的论文之一,具有较高的参考价值,众多大学图书馆和数据中心在此基础上提出了自己的数据引用标准。2009年,Toby Green发表论文[5],即是OECD的出版白皮书。该文分析了当前数据引用出版的实践、现状和需求,提出自身数据引用元数据并对比了和Altman等人建议的标准,而且提供了详细的数据集元数据和出版元数据列表。2011年,DataCite发布的元数据方案[6](Schema)是为引用和检索的目的,能精确而一致的识别数据所选取的核心元数据列表。
本文对以上三个标准所含的引用元素进行了对比分析。Toby Green论文指出一个数据引用的最小元素集,至少要包括6个所需的组件:数据集的作者、数据集的出版或以其他方式公开的日期、数据集的标题、唯一的全球标识符、普遍的数字指纹和桥接服务(bridge service)以及其他可以表示数据集的相关信息可选元素。OECD为出版数据集、数据集集合和单个表格建议实现的元数据标准,与Altman和King建议的标准有一定的区别。他们共同包含了4个强制元数据:唯一的、持久的全球标识符,主标题,作者,出版时间。OECD还包括了其他7个强制元数据:Next publication date(数据集下次更新的时间);Periodicity(数据集常规的更新频率);Variable Index(可变标题的分类);Short abstract(短摘要);Long abstract(长摘要);Has Physical Form(允许数据集以不同文件格式发布);Is Copyrighted By(表明在版权层次上拥有出版物的法律/组织体系)。此外,OECD还包括了15个可选元数据,但不包含数字指纹(UFN)元数据。
OECD建议用以下的方式来引用数据集:
(
(Accessed on
示例[16]:
OECD(2008),“Social Expenditures aggregates”,OECD Social Expenditure Statistics(database).
doi:10.1787/000530172303
http://dx.doi.org/10.1787/000530172303(Accessed on 2008-12-02).
DataCite方案包括5强制属性(标识符、创作者、标题、出版商、出版年份)和12个可选属性(主题、参与者、日期、语言、资源类型、替代标识符、相关标识符、大小、格式、版本、权利、描述)。推荐的格式如下:
Creator(PublicationYear):Title.Publisher.Identifier
元数据方案强制性属性至少要由标识符注册机构所提供。数据中心和其他机构可以选取可选属性来更加清晰的识别他们的数据。
以上三个标准都提到了一个引用必须包含的四个强制元素:唯一标识符、标题、作者和出版时间。其中,标题、作者和出版时间描述了数据集最基本的信息,类似于传统的印本文件。唯一标识符是将研究数据标识成一个独立的、可引用的、唯一的对象的关键元素,主要用于明确识别特定的数据集,可靠的定位、检索或验证研究数据。Altman的建议包括了验证数字对象不变性的数字指纹以及为解决当前浏览器不能识别全局唯一标识符问题的桥接服务(通常是一个URL)。唯一标识符、数字指纹以及桥接服务都是用于数据持久性的组成部分。DataCite的强制元数据中亦包含了“出版商”:数据的持有者(包括存档机构,数据中心等)。
1.2 数据集相关问题
数据集相关问题主要集中在数据集粒度和动态数据集的处理上。对于粒度的处理,由于数据集较复杂,一个数据集可以是一个数据集合(collection)的一部分,也可以由多个文件组成,而每个文件亦可以包含多个表格或抽象子集等[18]。不同于传统的印本出版物,引用不同粒度水平相对直接。因此,研究数据引用粒度是值得探讨的问题。例如,很多情况下,仅是表格(而非原始数据集)或某个数据集的子集作为数据用户的数据源,故此时可能需要将更小粒度的数据作为一个独立的、可引用对象。但是过度的细化研究数据粒度,也会给唯一标识符的分配以及数据集之间关系的处理上带来一定的困难。所以合理、平衡选取研究数据集的粒度很重要。Altman论文在“深入引用”部分,提到对数据集的子集的参考,类似于在印本资料中的页的参考。认为设计一个简单的标准来描述从数据集到子集的描述证据链是很有价值的。建议为完整的数据集做引用描述,学者需提供如何产生每一个子集的文本解释,并且通过参考将一个子集指向整个数据集的引用上,并为一个子集提供一个增加的UNF。OECD不仅为数据集提供了引用形式,也为表格提供了引用形式,从研究数据引用粒度上来说很有意义。
对动态数据集的处理,动态数据集的情况不同于版本。版本的处理,可以追溯到先前的版本,例如Wikipedia。而动态数据集的情况,变化体量之大或过于频繁,使其追踪难以管理[5]。OECD已与CrossRef探讨了该问题,但是没有形成直接的解决方案。需要业界的进一步讨论。与此同时,OECD将使用一个唯一的DOI来链接到一个数据的主页,无关动态与否,并且使用出版元数据来提醒用户数据集的动态特征。具体的数据变化将在数据统计元数据中发现。所以在其出版元数据中加入了多个有关动态数据集的元数据:数据集下次更新的时间(Next publication date),数据集常规的更新频率(Periodicity),可变标题的分类(Variable index)等。
2 相关技术分析
2.1 唯一的全球标识符
唯一的全球标识符是简短的名字或字符串,在这些名字中保证是唯一的,独立于数据位置并永久的标识了数据集。亦可说,一个标识符是一个字符串与一个对象之间的关联。对象可能是文件、文件的部分、人、机构和抽象物等,此处的对象指数据集。在研究数据引用中加入唯一的全球标识符元素,能保证引用到对象的链接的持久性,即标识符一旦被指定,表示这个标识符将无限期的指示相同的事物。持久性亦被认为是“将来的互操作性”。
唯一的全球标识符类型很多,例如ark:ARK持久标识符架构;doi:数字对象标识符、handle:句柄系统标识符;urn:统一资源名称;purl:持久统一资源定位符;uri:统一资源定位符等。Altman认为[4],任何的唯一标识符命名方案选取需要满足:(1)明确标识数据集对象,(2)是全球唯一的,(3)被关联到命名解析服务,其将名字作为输入的名称,并显示了如何找到一个或多个相同的数据集的副本。
实践证明,目前使用最多并且普遍认可的是DOI系统。2012年5月,ISO已发布标准IS026324:2012信息和文献——数据对象标识符系统,作为识别网络实体的有效途径,该标准主要用于具有共同兴趣爱好的用户团体的共享或者知识产权的管理。D01系统是一个用于永久识别数字网络内容的管理系统。DOI系统是在国际DOI基金组织(International DOI Foundation)提供的通用基础设施下,联合注册机构(registration agency)实现的系统。由以下四部分组成:(1)一个语法说明书,定义了一个字符串(DOI name)的构成;(2)一个解析组件,提供了一种机制来解析一个DOI到注册者规定的具体数据;(3)一个元数据组件,定义一个可扩展的模型来将数据的描述性和其他元素与DOI name相关联;(4)一个社会基础设施,在注册机构联合的环境中定义了政策和共享技术基础设施的完全实现[7]。长期持久的解析服务是由操作它的组织来保障的,需要机构的承诺。其中,DataCite的关键服务是持久标识符的概念。DataCite当前使用了DOI,未来可能调研使用其他标识符方案。目前有很多机构都逐渐加入DataCite,并将DOI作为唯一标识符。
2.2 数字指纹(UNF)
统一数字指纹(Universal Numeric Fingerprints,简称UNF)方法[8]是一个用于验证数据矩阵或者相关数字对象,由生产的软件环境或格式迁移到另一个环境或格式,能正确地被翻译的算法工具。该算法使用了一下三个步骤来计算一个指纹:第一,使用一个近似算法来计算目标数字对象的一个简化的高保真版本;第二,将上述简化的版本转化成一个规范序列形式;第三,使用一个哈希算法为序列化对象产生一个唯一的指纹。
为了在数据存储格式发生变化时,保证或独立验证对象不以任何有意义的方式改变,所以建议将数字指纹添加为一个数据引用元素。该UNF是一个简短的,固定长度的数字和字符的字符串,其归纳了数据集的所有内容,如数据的任何部分的变化都会产生完全不同的UNF。理论上讲,某个数据集的可变版本与原始数据集产生相同UNF的可能性极小。再者,UNF具有单向加密属性,不可能从UNF中了解数据并且因此UNF可以自由的分发,所以即使数据是高度机密的亦可以使用[4]。当一个引用是指向一个集合包含了几个数据集,建议为每个数据集计算一个UNF,所有UNFs可以被包括在元数据描述页面上,正式引用仅包括了一个UNF,其以一定的算法规范结合上述单个的UNFs。
UNF的一个例子UNF:3:ZNQRI14053UZq389x 0Bffg?==,“UNF:”标识其余的字符串是一个UNF,“3”意味着使用了UNF的第3个版本和哈希算法,下一个“:”之后的部分是实际的数字指纹。对于一个特定的算法和重要的数字,指纹始终是相同的长度。因此,UNF包括足够的自我标识信息,因此使用的算法可以随时间被更新到新的版本而不去改变旧的引用[4]。
3 应用现状分析
本文研究分析了几个重要机构和大学图书馆在数据引用方面所做的实践,对比分析数据引用元素。主要的机构有:澳大利亚国家数据服务(ANDS)[9],Dspace[10],大学间的政治和社会研究联盟(ICPSR)[11];大学图书馆有:剑桥大学图书馆[12]、密歇根州立大学图书馆[13]、麻省理工学院图书馆[14]、普渡大学图书馆[15]、美国弗吉尼亚大学图书馆[16]、俄勒冈大学图书馆[17];以及数据中心:PANGAEA、Dryad和Dataverse。为便于对比分析,本文将各机构的引用元素次序做了适当的调整。
分析表1,数据引用的基本必备的元素集中在Identifier、Title、Creator、Publication Year、Publisher,其他元素包括Version/Edition、分析软件等。
Identifier(即标识符):标识符是标识一种资源(数据集)的唯一字符串并且是机器可读的。实践中,所有选取的机构都包含了这个元数据相类似的内容,只是在描述上有略微区别。通常认为是对象标识符(DOI),统一资源名称URN,或者句柄系统(handle)系统等,密歇根州立大学图书馆、普渡大学图书馆、俄勒冈大学图书馆将URL和标识符归在一起,用作信息获取或数据集链接。从上述机构标识符的选取来看,多数主要使用DOI。PANGAEA、Dryad数据中心也主要使用DOI标识符。Dataverse提出的数据引用标准中,使用的唯一全球标识符是以“hdl”(指向国际HANDLE.NET系统)开头,例如:“hdl:1902.1/DXRXCFAWPK UNF:3:DaYIT6QSX9rOD50ye+tXpA=Murray Research Archive”。该标识符被设计成持久的。当引用在上是以热点链接(hot-linked)到参考标识符的URL,在当前的浏览器中可用。在印本中,URL也被包含在数据引用中[19]。
Publisher(数据中心/仓储):数据的持有者(包括存档机构),即是数据存档的位置。ANDS定义的出版商为:持有、存档、出版、印刷、分发、发布、发行或产生资源的实体名称。此属性将被用来制定引用,所以考虑了其突出的作用。在数据集的情况下,“出版”可以理解为数据能被研究人员群体所获取。
Version/Edition:其中Edition是指数据处理的水平或阶段,说明数据集是原始的或成品的。Version是指当增加数据点或重新执行推导过程,当数据变化时数字就会随之增加[18]。ICPSR、密歇根州立大学图书馆、ANDS都包含该引用元素。
URL:URL作为数据的其他定位信息,用于数据的访问获取。剑桥大学图书馆、麻省理工学院图书馆、弗吉尼亚大学图书馆、ANDS都将其作为一个单独的引用元素。该元素属于Altman建议提到的桥接服务,因为大多数网页浏览器目前不能直接识别全局唯一标识符并鉴于目前Web服务的访问方式,在引用中添加URL元素,可以使数据集易于获取。但是可能会引起404 Not Found异常。
其他还包括一些个性化的引用元素,例如:俄勒冈大学的责任方、分析软件;AND S的placePublished(数据集或数据集合被出版的位置名称),context(上下文信息例如被描述的数据集或数据集合的一系列标题或数据库名);以及Dspace的subject等。
实践中的数据引用,也与前面建议标准相一致。机构结合自身需求采用了不同的数据引用策略,能满足实际需求,但是也可能为机构间数据的互操作带来困难。所选取的引用元素,在使用简单、利于索引分类,符合习惯以及便于后期维护上都做到了良好的权衡。上述机构和大学图书馆意识到数据集Identifier的重要性,并将其作为引用的核心元素,目前实践中,主要采用DOI系统和句柄系统。
Dspace主要参考了DataCite元数据方案。由于Dspace使用了硬编码DublinCore元数据属性来定义条目和作者。为了避免修改Dspace的核心(Core),使用了符合DataCite元数据的DublinCore属性来重新创建数据的元数据条目页面。由于都柏林核心标准越来越广泛的使用,这种方法的优势在于使元数据的共享变得更为容易。
除了上述的基本要素,ICPSR还建议不变性(fixity)信息,如校验或通用数字指纹,能够验证后期引用的数据和原始数据是相匹配的。从数字资源长期保存的角度来看,UNF在数据集审计方面,确保当前数据资源在长期的存储管理中并未发生变化,对数据对象的一致性验证有很大的帮助。Dataverse也推荐使用UNF,在其数据引用标准示例[18]也包含该元素。Dataverse认为,UNF能保证学术社区中,即使数据已经改变了存储媒体、操作系统、硬件以及统计程序格式,未来研究人员将能够验证被检索的数据与之前出版物中使用的是一致的[19]。
4 总结
虽然当前在研究数据引用方面已有很多探索和实践,但是仍然存在诸多问题和挑战。集中表现在:政策上,很少有相关政策要求对研究数据做引用,没有形成严格的数据引用标准来指导数据引用实践,不利于机构间数据的互操作;在实践上,对数据引用的追踪很大程度上依赖于手工的努力,存在一些工具如Refwork、EndNotes等,相对而言还是缺乏工具支持[20];数据集粒度选取和数据的动态性是不容忽视的问题,缺少良好的解决方案。其他还有诸如责任者重名,数据引用安置在相关资源的位置等问题。
如何在政策和实践上克服当前研究数据引用带来的困难[3],建立良好的数据引用是数据出版商、研究人员、期刊出版商以及大学图书馆的共同责任。数据出版商(数据中心)主要关注于如何建立良好的数据引用机制,出版数据及相关实验元数据,使得读者可以精确地找到作者的相关信息等。数据中心主要是提供持久标识符的稳定性,技术的、机构的可持续性以及处理相关挑战如:提供工具,处理连续数据或数据管理过程的可扩展性等。研究人员关注于:使用共同的标准来生产、记录、编码和打包等研究过程中的数据。使数据符合出版标准并存储于数据出版商,并从数据出版商获得一个引用记录,使用标准的格式来包括相关论文、先前使用的数据集。无论是数据存储阶段还是论文出版阶段,都需通知数据出版商相关的论文。期刊出版商主要关注于:为在论文中引用相关的研究数据的方法和位置提供清晰的指导。需要与存档人员沟通在仓储中数据的存储,并与数据出版商确认数据的存在事实。大学图书馆[21]的责任主要在于数据引用的拓广、倡导和集成;将数据引用包含到参考服务的指导中,并在系统和标准上进行合作;将数据引用完全集成到图书馆和图书馆员的实践中。