期刊文献与科学资料的相关服务研究_科学论文

期刊文献与科学数据的关联服务研究,本文主要内容关键词为:文献论文,期刊论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在传统的学术交流体系中,科研人员和出版商等都将科研文献作为最重要的科研成果,而文献自身并不能完全满足科学研究深入和创新的需求,其支撑数据同样需要关联性的存储和共享[1-2]。微软研究院的Jim Gray认为,E-science中出版物只是科研产出的冰山一角,大量的原始数据是科研产出的基石,互联网环境下可以把所有的科学数据与文献关联,读者可以在阅读论文的时候查看其原始数据,或者可以在查看数据时查出关于这一数据的文献[3]。国际社会科学信息服务与技术协会(International Association for Social Science Information Services and Technology,IASSIST)2013年召开的第39届年会以“数据创新:不断提升的可获取性、可见度和持续性”(Data Innovation:Increasing Accessibility,Visibility and Sustainability)为主题,其中科研期刊与科学数据之间的关联成为重要的议题[4]。科学数据与科学文献特别是期刊文献之间的关联服务成为近年来广为关注的科学研究成果组织和服务的重要问题。

1 关联服务的提供途径

当前,科研人员存储或出版科学数据主要有两种途径:将科学数据存储在机构或者期刊方提供的科学数据存储库中,或者通过新兴的科学数据期刊以出版科学数据文章的形式出版。在此基础上,期刊文献与科学数据之间的关联可通过期刊、期刊库或商业数据库、科学数据仓储等不同载体之间的关联实现。

1.1 期刊与科学数据之间的互联

众多期刊对其所发表文献的支撑数据提出定向存储、共享或开放存取的要求。期刊科学数据政策(Journal Research Data Policy Bank)项目针对400种期刊的科学数据政策调查发现,其中约一半的期刊对科学数据的存储、共享、复用等相关问题进行了政策规定[5]。通过科学研究期刊支撑数据的定向存储,建立期刊文献与特定科学数据仓储之间的互动关联,可追踪特定科学期刊文献的原始研究数据,提供查询、引用和复用等。众多期刊设立了定向存储科学数据的相关政策,建立其科学期刊文献、原始科学数据与科学数据仓储之间的有序关联。在此政策环境下,期刊文献支撑数据的定向存储成为重要的关联服务提供途径。部分生物学、医学、基因学、地理科学等数据产量大的学科领域的科学期刊为期刊文献的作者提供了科学数据仓储,用以存储该期刊文献的支撑数据和辅助材料。如美国地理协会(The Geological Society of America,GSA)的GSA Data Repository专门用以存储其出版的科学期刊的支撑数据。此外,包括《自然》、《美国自然学家》等在内的32种期刊遵循联合数据存档政策(Joint Data Archiving Policy,JDAP),将Dryad科学数据仓储等作为共同的指定科学数据存储库[6]。不同学科类型的期刊对科学数据的存储仓储有不同的规定,同时又有交叉,形成丰富的期刊与科学数据仓储的关联关系。

1.2 商业数据库对关联服务的参与

商业数据库作为传统的科学文献特别是科学期刊文献的重要存储和提供渠道,逐渐开始重视科学期刊与支撑数据之间的关联服务,其中Elsevier是尝试此类服务较早且较为典型的商业数据库商。Elsevier鼓励作者将期刊文献的原始科学数据存储在特定的科学数据仓储中,同时Elsevier支持四种方式的科学数据与科学期刊文献的关联,包括公共科学数据仓储提供的科学数据标签符号或获取号码的识别、数字对象识别符(Digital Object Identifier,DOI)的链接、相关科学数据仓储标志的提供与链接、科学数据可视化与整合的相关应用[7]。四种方式面向不同的科学数据标识方式提供便利追溯或链接方式,有效地实现了科学数据与科学文献之间的关联以及科学数据的复用。如当文章中包含DOI识别符时,Elsevier可自动将DOI所指向的科学数据链接引入ScienceDirect数据库[8]。当前Elsevier与包括基因数据库GenBank、蛋白质数据库(Protein Data Bank,PDB)、地理数据仓储PANGAEA等在内10余个学科领域的30多个数据仓储合作,并在不断拓展数据仓储合作者。

1.3 科学数据期刊的发行

科学数据期刊的出现与发行为科学数据转向公开获取提供了崭新的平台,是科学数据发布和出版的重要方式,同时也是提供科学文献与科学数据关联服务的重要途径。据调查,目前已经有大量科学数据期刊发行[9]。科学数据期刊《地球系统科学数据》(Earth System Science Data)出版数据文章,相关的数据集则存储在其他数据仓储中[10];《地球化学、地球物理学、地球系统》(Geochemistry,Geophysics,Geosystems,G3)出版数据的摘要[11];Wiley公司与皇家气象学会合作推出开放存取期刊《地理科学数据期刊》(Geoscience Data Journal,GDJ),用以在线出版简短的地理科学数据论文,用以关联已存储在数据中心的数据以及授权DOI的数据集等[12];2014年5月,Nature将推出科学数据期刊Scientific Data,用以实现相关文章支撑数据的出版、保存以及通过与文章的关联实现科学数据的复用[13]。

除此之外,部分科学数据仓储如Dryad支持科学数据与其支撑期刊文献的关联性提交和存储,部分阅读工具如Utopia Documents实现了对科学文献与支撑数据之间的关联。

2 关联服务的关键性实现方式

期刊文献与科学数据关联服务的实现中使用的几种工具或媒介是实现该关联服务的关键点,也是关联服务的关键性实现方式。

2.1 行文中的明文表达

部分文章包含的科学数据量较小,可通过附加材料的形式在行文中加以呈现,因此部分期刊通过行文中的明文表达,揭示文章支撑数据的存储位置。较为典型的如Biomed Central对期刊文章支撑数据的存储进行规定,要求在文章行文中对支撑数据予以专门描述和表达,并根据数据存储于开放数据仓储或者包含在文章中两种情况进行区别表达(如表1),但都提供了文章支撑数据的可链接性或可追溯性的线索。

除行文中的明文表达之外,将较小数据量的科学数据作为附加材料(additional/supplementary files)的形式与期刊文献同时出版,成为许多期刊支持的期刊文献与科学数据相关联的方式之一。根据对医学领域高影响力的28种期刊样本的调查,科学数据作为附加材料形式提供的文章数量每两年翻1番(2003—2009年分别从10、22、55增长到100),但多数以图表形式呈现,而支持在线附加材料的期刊比例从2003年的32%增长到2009年的64%[14],随着在线附加材料形式的广为接受,越来越多的期刊支持文献附加科学数据,PARSE.Insight的调查结果显示超过九成的期刊接受附加材料,科学数据是最重要的资源种类之一[15]。

2.2 唯一识别符的应用

科学数据仓储通过特定的元数据设定或赋予科学数据集以特定的识别符,从而实现科学数据仓储中科学数据与科学期刊之间的关联。DOI成为众多期刊、数据仓储推广的科学数据识别符,同时也成为期刊文章与科学数据之间关联的重要实现途径。科学数据采用DOI识别,可以便捷地实现科学文献与科学数据之间的互访和互联,甚至可以实现对数据运动轨迹的跟踪[16]。Dryad数据仓储赋予科学数据集以特定且唯一的DOI,并通过URL格式的DOI给予科学数据集或科学数据文档以可追溯的地址。通过在出版的科学期刊文献中呈现此数据集的DOI,可实现读者对该支撑数据的追溯和获取[17]。除了广泛应用的DOI识别符之外,还有URL/URN/URI、Persistent Uniform Resource Locators(PURLs)、Extensible Resource Identifier(XRI)、Archival Resource Key(ARK)、Life Science Identifier(LSID)、Object Identifiers(OID)、Universally Unique Identifier(UUID)等识别符机制,在选择所采用的标识符时,多将唯一识别性、唯一定位性、可引用定位性、科学性等作为评估和考量的标准[18]。部分科学数据仓储采用了自我设定的唯一识别符或者索引符,但其作用都是实现科学数据的唯一识别和可追溯、可引用的功能,如当科学数据被存储在GSA Data Repository中时,被赋予唯一索引号(Key Number),该索引号被添加到打印版文章的脚注或者补充说明里,用以追溯存储在科学数据仓储中的科学数据[19]。

此外,部分相同或相似学科的科学数据仓储之间建立了相互的映射和关联关系,对某一科学数据仓储的科学数据集检索结果可映射到其他科学数据仓储中,如蛋白领域的科学数据仓储UniProt与GenBank、PDB等多个数据仓储之间可进行科学数据检索结果的相互映射[20]。科学数据仓储通过识别符进行互联,可有效实现不同科学数据仓储之间双向链接,同时针对未给予科学数据DOI识别的科学数据仓储的期刊文献的追溯提供更多可能性。

2.3 以科学数据线索为内容的数据文章

科学数据期刊多出版专门针对科学数据的数据文章(data paper),通常只对科学数据的题名、日期、作者、摘要、永久识别符、存档资源的链接或者实验条件、设施、环境要求等元素进行描述,而不是以科学数据的详细分析为内容。通常,数据文章提供科学数据与期刊文献的双重线索,从而成为期刊文献与科学数据关联的媒介。此外,部分科学数据期刊实质是集成数据出版和存储的在线平台,如《生物多样性数据期刊》(Biodiversity Data Journal)是一个支持同行评审、开放存取的综合性在线平台,既出版研究型论文,又要求支撑数据(20MB以内)以附加材料的形式出版或者将科学数据存储在外部数据仓储中[21],从而实现了科学数据与期刊文献的有效关联,用以加速生物多样性相关数据的出版、传播和共享。

2.4 特殊文章类型的尝试

针对科学数据出版以及与期刊文献关联的需求,新的尝试不断涌现。Scientific Data期刊采用新的内容类型“数据描述”(Data Descriptor)对科学数据集进行针对性描述,并通过对此类内容的索引,提供科学数据的广泛共享以及与期刊文献的关联。“数据描述”作为传统科研出版物的补充性内容,采用针对科学数据的同行评议,以保证科学数据的完整性和标准化程度。Scientific Data将建成一个可搜索的科学数据出版平台,同时积极寻求与相关出版商、数据仓储如Dryad、Figshare等之间的合作,从而以高质量、认证的科学数据实现开放、复用。Scientific Data并不是原始数据的存储方式,而是通过数据的描述信息的出版提供原始科学数据的分析以及追溯线索。“数据描述”以“来源出版物”(Original Publication)的形式标明科学数据集与期刊文献之间的关联,并提供来源文献的URL链接,从而实现在线的一键式关联[22]。

3 关联服务中的资源描述与组织

期刊文献与科学数据之间的关联服务的实现需要在科学数据和期刊资源的资源描述和组织阶段的具体实现和支撑。

3.1 描述作为整体的科学数据

科学期刊文献可以篇为单位进行独立个体的区分,与科学期刊文献的关联需要科学数据作为一个类似于文献的可识别、可区分的独立整体来进行描述、组织和存储。将特定研究项目、研究主题的科学数据或者更细粒度划分的科学数据作为一个组织和存储单位,从而赋予科学数据文档以作者、时间、存储位置、唯一识别符等描述元素。在科学数据的封装、描述、组织和存储中,识别符的赋予成为重要一环。科学数据需要与科学期刊文献进行关联,因而需要识别符具有唯一识别性、存储地址的可追溯性、可引用性等功能特征。

3.2 设定特定元数据元素

除了用明文表达或者URL链接方式实现科学数据与期刊文章之间关联之外,期刊、科学数据的元数据描述中的操作成为期刊文献与科学数据关联内在的实现途径。通过期刊文献与科学数据相关联的元数据元素的字段设定和取值,实现了在元数据描述层面上期刊文献与科学数据之间的关联,其中既有元数据元素取值上的互相借鉴,又包含了特定元素实现两者之间的定向互联。如Dryad数据仓储在科学数据集的描述元素中设定“dcterms:references/Associated Dryad Publication Record Identifier”元素字段,在出版物的元数据元素中设定“dcterms:isReferencedBy/Associated Dryad Data Package Identifier”元素字段,将出版物与支撑数据之间建立起对应的关联关系[23]。

3.3 文献中赋予数据可追溯性标签

在科学期刊文献的行文或存档中,对文中所提及的科学数据或者附加材料中的科学数据赋予可追溯性的“标签”,才可实现期刊文献指向科学数据的链接,既包括URL等链接的添加,也包括DOI等可用于追溯科学数据存储地址的识别符的呈现。Elsevier等商业期刊数据库、以Nature为代表的期刊等,其与科学数据仓储之间的互联通常不是从资源组织的初期阶段实现的,而是通过在期刊文章的行文中添加科学数据的URL链接或者在期刊文章的显示界面增加科学数据显示区域等方式来实现的。Elsevier在其网页版文章预览中,无论是“database abbreviation:data identifier”形式的数据描述还是以DOI为切口的数据描述,都可通过URL链接到相应的数据仓储,与此同时,表格、图标形式的数据还提供PPT等三种格式的下载;Nature等期刊通过附加材料的PDF格式以及拓展数据图表和表格的下载链接等形式提供支撑数据的关联下载服务。此外,部分期刊文献以在文中直接呈现的形式,将科学数据以可视化的形式加以提供。如Elsevier的Protein Viewer可以将PDB中的蛋白数据与文章关联,并在文章中以3D形式呈现蛋白数据[24]。

科学数据与期刊文献的关联服务是科学研究持续发展的重要支撑,是关联科学的重要组成部分。当前期刊文献与科学数据之间的关联多以外在形式的关联服务为主,主要通过附加材料添加科学数据、期刊文献中的科学数据追溯、科学数据的文献来源等形式实现。科学数据与期刊文献的关联服务正处于起步阶段,因此欠缺深化的服务形式如在科学数据整合基础上与期刊文献的关联服务等,此外,关联数据等技术在此领域的应用有待深入研究。

标签:;  ;  ;  ;  ;  

期刊文献与科学资料的相关服务研究_科学论文
下载Doc文档

猜你喜欢