数据密集型科学中的数据引文分析研究_科学论文

数据密集型科学中的数据引文分析研究_科学论文

面向数据密集型科学的数据引证分析研究,本文主要内容关键词为:数据论文,分析研究论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      在网络环境下,随着信息技术与设备的不断发展,科学研究的信息环境正在逐渐地发生改变,数据自动采集、生成,在线数据处理,数字化的数据存储与管理都表明科学研究正逐渐沉浸于庞大的数据量中。为适应这一改变,科学家们进行了有益的探索,对科学数据共享、数据引证等数据科学相关方面给予了较高的关注,开展了广泛的研究。目前的研究在科学数据的获取、共享、利用和评价等方面均取得了一定的成果[1]。数据引证、关联数据、科学数据共享等数据研究活动的兴起与发展促进了数据引证分析研究的发展。已有的对于关联数据和科学数据共享等方面的研究为数据引证分析的发展提供了较为丰富的数据资源素材,同时提高了人们对数据引用的认识,增强了数据引证意识。共享数据资源,使数据充分透明化,建立良好的数据引用规范和机制,已成为业界的一个共识。然而,目前对数据引证分析的研究比较缺乏,已有学者提出了加强数据引证分析研究的呼吁[2]。数据引证是科学交流中一种显著的信息行为,利用数据间的引证关系进行信息分析,是在数据密集型科学研究信息环境下进行信息分析的重要思路之一。本文通过对数据引证分析的理论与实践基础进行分析,提出数据引证分析的内涵和特征,并对其应用和需要解决的问题进行分析。

      2 数据引证分析的理论与实践基础

      数据科学的发展为数据引证分析的发展创造了较好的理论条件与实践环境。数据引证分析是面向数据密集型科学信息环境与其信息特征相适应的信息分析方法。数据引证分析的理论与实践基础主要包括数据密集型科学、关联数据和数据引证。

      2.1 数据密集型科学的发展

      科学研究方法会受到科学研究素材内容与存在方式的影响与制约。在当今的科学研究中,以计算技术、网络技术为基础,联合理论、实验与模拟,围绕数据展开的科学研究范式正在逐步形成,即2007年计算机科学家吉姆·格雷(Jim Gray)提出的科学研究的第四范式——数据密集型科学。格雷先生在美国国家研究理事会计算机科学和远程通讯委员会(NRC-CSTB)的演讲报告中提出该概念后,数据密集型科学的概念引起了社会各界的广泛关注。2009年微软研究院编写了The Fourth Paradigm:Data-Intensive Scientific Discovery论文集,其中69位学者从不同的学科出发,对该学科数据应用的现状进行分析,并展望发展前景[3]。数据密集型科学的理念、应用和影响已经涉及多个主要科学学科,包括信息科学、地球与环境科学、生命与健康科学、数字通信等。基于海量数据的科研活动、过程、方法和基础设施已成为切实的现实而不是想象[4]。数据密集型科学自提出以来受到了广泛的关注,国内外多个信息科学会议的主题围绕该议题展开。目前在数据存储与组织、计算方法、用户接口技术等方面进行了深入研究,在数据管控、数据质量与数据安全等方面的研究正在不断深化[5]。关于数据密集型科学的研究仍是学界十分重要的研究热点之一。

      在数据密集型科学研究下,数据的广泛使用成为贯穿科研活动的主线。许多科学研究不再依赖于现实实验,而是采用计算机模拟;观测到或实验出的科学数据不再记录于纸本文献,而是上传保存到专门的数据库中。这些都使得科学工作者的研究方法、研究习惯和科学交流方式发生了重大改变。面对数据密集型科学研究信息环境呈现出的许多新特点,信息分析方法必须做出相应改进。新的信息环境在为信息分析工作提出巨大挑战的同时,也为新分析方法的发展提供了必要的素材。

      2.2 关联数据的发展

      2006年互联网之父伯纳斯·李提出了发展数据网络(web of data)的设想,提出了“关联数据”(linked data)一词,并提出数据网络的核心是关联数据,而关联数据是语义网建设的重要组成部分。对于关联数据的定义有很多,关联数据也被称为链接数据(linking data,linked data),与开放数据(open data)有紧密的关联。其宗旨是通过出版结构化数据让数据互联更加便捷,它依赖于HTTP、URIs等标准互联网技术,以能被计算机识别的方式传递信息。关联数据有别于万维网上的文件互连,它强调的是数据互连,将以前没有关联的数据连接在一起,允许用户发现、描述、挖掘、关联和利用数据[6]。关联数据是一种语义网下的理想状态,自提出以来,受到了极大的重视,许多组织加入到关联数据出版发布的行列,如W3C组织、美国国会图书馆、纽约时报等,各国都积极地启动了科学数据共享工程。各具特色的机构信息平台如DataCite、DCP和IDEA Working Group等,在开放获取的基础上,形成了形式多样、内容丰富的机构知识库,促进了信息资源的共建共享。

      科学界更加强烈和迫切地需要庞大的、透明的、可共享的、可互操作的数据,关联数据运动进一步增强了数据资源的可获得性与可用性,为数据引证分析提供了丰富可靠的数据源。同时,进一步显示出数据引证分析的重要性和必要性。

      2.3 数据引证的发展

      数据引证是指作者在创作中引用原有的数据。数据引证类似于作者通常为文献提供书目参考的方式提供数据参考的行为[7]。数据引证并不是一个新内容,著名科学计量学家Howard D White在1982年即指出:“社会科学学者们应该在他们的著作中,引用他们所使用的那些数据文件(可被机器处理的数据,Machine-Readable Data Files,MRDF),并以区别于正文的规范化的参考格式列出,正如他们引用书籍、论文和报告一样”[2]。随着数据密集型科研范式的兴起,数据引证受到了前所未有的重视。自2011年起,国际上开展了一系列围绕数据引证的科学研讨会。在理论研究稳步推进的同时,实践方面取得了重大突破。2012年10月,汤森路透旗下的知识产权与科技事业部推出了Data Citation Index(DCI,数据引文索引),提供对数据集和数据研究的科学使用、知识发现和归属查询服务,并可以将这些数据关联到同行评议文献中。DCI支持在文献上下文中发现、引用和查看数据。通过与数据知识库建立合作,获取数据研究的书目记录和被引参考文献,促进其可视化、作者归属的识别,并用于衡量研究数据日益增加的影响力[8]。

      随着科研模式逐渐向数据密集型科学转变,在传统的出版物如期刊文章、书籍以及会议记录中增加引用所使用的数据或数据集变得十分重要。良好的数据引证意识、数据引证规范和数据引证技术,是数据引证分析得以实现的重要前提。数据引证的蓬勃发展为数据引证分析创造了有利条件。

      3 数据引证分析的内容和特征

      3.1 数据引证分析的内涵

      数据引证分析是在数据密集型科学的信息环境下产生和发展的。数据引证分析是一种理念、一种思路,也是一种方法。事物的产生发展都是从模糊到清晰,从抽象到具象。数据引证分析作为一种帮助我们认识信息的工具,也必然经历从思想、理念的提出,到规范化、可操作方法的演变。关于数据引证分析目前尚无明确的定义。笔者从“数据”、“引证”这些基本概念入手,结合引文分析方法等成熟信息分析方法的研究,对数据引证分析进行剖析。

      “数据”在不同的语境中含义不同。在数据引证分析中,数据主要指的是科研数据,或称为研究数据(research data)。有学者指出,人类社会主要有三种数据产生方式:一是运营数据,伴随着各类组织的运营活动而被动产生;二是感知数据,由遍布各地的各类传感器等设备,用于监测社会运行和环境变化而自动产生;三是人类原创数据,由人单独创作和人际互动而主动产生[9]。科学数据包括以上三种信息,由于大型实验设备和模拟器产生的数据日益庞大,使得第二类数据更为突出。对于科学数据的定义并不统一,世界经济合作与发展组织(Organization for Economic Co-operation and Development,OECD)在《OECD关于公共资助科学数据获取的原则和方针》中认为:“科学数据来源于科学研究的事实记录,如实验数值、图像等,科学数据是那些被科学团体或科学研究者所共同认为对研究结果有用的数据。”美国行政管理和预算局认为科学数据是“通常被科学社会所接受的,用于验证研究发现的被记录的必要的事实材料。”我国科技部发布的《科学数据共享工程技术标准研究报告》将科学数据定义为:“科学数据是在科技活动时或通过其他方式所获得的能反映客观世界本质、特征、变化规律的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集”[1]。本文认为数据引证分析方法中的科学数据指的是:科学研究过程中产生的用于验证研究发现的非文本事实记录。

      数据引证是指作者在研究中对已有数据进行引用,以辅助自己的研究。对数据进行引证的目的包括引用数据来证明自己的结论,证伪原有结论或进行举例说明等。数据的引用在研究中发挥一定的作用。对于不同用途的引用,在引证分析中应予以区别标识,以方便计量、分析。

      数据引证分析成熟化的标志是成为一种规范化、可操作的方法。可以看做是引文分析法、链接分析法在新的信息环境下,面对新的信息分析对象而产生的扩展或延伸,是运用数学方法、统计学方法以及比较、归纳、抽象、概括等逻辑方法,对科学数据的引用与被引用现象进行分析,以揭示数据运动规律,预测、评价数据密集型科学研究发展状况的信息分析方法。数据引证分析的内容十分丰富,根据其分析内容的层次可分为微观分析、中观分析和宏观分析。微观分析包括数据溯源分析、数据集共现、共引分析,数据与文献之间的链接分析等。中观分析揭示信息的运动规律,如通过数据引证与再利用分析数据共享水平,进行数据的质量评估与再利用价值评估等。宏观分析揭示科研生态,如通过追踪数据使用与再利用的情况,研究数据发展生命周期;通过识别潜在的科学数据共同体,促进科研合作,优化数据资源配置;从数据使用的角度跟踪科学发展脉络等。

      借鉴专利引用分析方法中对专利引用分析过程的分层,数据引证分析也可分为数据层、分析层和应用层三个层面。数据层是指根据数据引证分析的目的和需求,确定检索的数据库范围,确定对于数据的要求。在分析层需要采用一定的数据引证分析指标,运用数学、统计学和逻辑学等方法对所选数据进行分析。应用层是指通过对数据引证的分析形成最终的分析报告,以进行科学发现、预测和评价,达到预期的分析目的。

      3.2 数据引证分析的特征

      面向数据密集型科学的数据引证分析,以监测、评估、预测科学发展为己任,面对新的信息环境,在分析对象、分析深度、分析过程等方面具有显著的特点。

      3.2.1 分析对象深入知识单元

      当前的信息检索基本还停留在以文献为检索单位的水平上,若想获得所需要的数据或知识,并不是一件容易的事。数据引证分析方法的分析对象深入到知识单元,更深层次地揭示知识间的关系。

      在数据密集型科学的信息环境下,学术交流的方式也有了很大改变,大部分学术论文都能在互联网上传播。而互联网的功能不仅仅在于迅速地大范围传播,还在于可以实现互操作。互联网可以联合所有的科学数据和文献形成一个相互关联、可互操作的世界。读者在阅读原文的同时可以找到研究的原始数据,甚至可以根据提供的数据模拟原作者的思路进行验证分析,或者从数据引证的线索找到与这些数据有关的所有文献。这就要求信息分析者提高对数据的关注,对数据有更详细、深入、系统的监测,以了解科学研究动态,发现学科增长点,充分发挥信息分析在发现价值、预测趋势等方面的作用。从文献到主题再到数据,信息分析对象的粒度在不断缩小,关注于原始数据的引用,能更有效地进行知识分析。

      3.2.2 分析标引智能化

      数据引证分析要加强对数据使用情况的准确标引。数据的引用出于不同的目的,有的是为了证实,有的是为了证伪,有的是在原有数据基础上的延伸拓展。传统的引文分析法只能揭示直观的文献引用关系,如自引、被引、同被引等。在引用分析的计算中存在很多问题,如错误批评中的引用,为了提高知名度而进行自引,或者只是字面的引用而对研究内容并无太大的关联等,都可能影响引文分析的准确性。而数据引证通过完善的数据标引和多维度的分析计算可以进行更深层次的分析。在数据密集型科学的信息环境下,通过更广泛的关联数据基础,更有效的计算方式,达到内容引用、思想引用的计量深度。即使文字并无相同,通过对数据的关联分析和有效的计量指标和算法,也能使引用关系分析计算更加智能化。在完善的标引系统下,准确地追踪定位数据或数据集的使用情况,可以更好地评估数据或数据集对科学研究、科学交流的影响。

      3.2.3 动态跟踪性强

      数据引证的分析贯穿于科研活动始终,不仅关注科学研究结果,更关注科学研究过程。传统的引文分析是基于已发表、出版的文献,所分析的内容是一个静态的结果。而在数据密集型科学研究范式下,互联互通十分便捷,通过数据库的动态查询,可以便捷地了解到科学研究发展的动态。数字化学术交流环境的构建,使科学家们的联系更加密切,来往更加频繁,有助于促进学术交流,缩短科研周期。数据引证分析通过对数据引证状态的查询分析,深入掌控数据变化更新动态,从一次次的数据交流、数据修改更新中,把握学科发展的动态和趋势。

      4 面向数据密集型科学的数据引证分析应用

      4.1 应用领域

      在数据密集型科学不断发展的背景下,数据引证分析具有广阔的应用前景。有学者指出,科学范式的演进和数据密集型科研活动的兴起,强力推动着科技情报研究服务的范式演进和发展。从1940~2010年的几十年中,科技情报研究与服务的工作模式经历了从基于事实、数据、信息、文献翻译等事实型情报收集服务,到基于文献检索、翻译、综述而开展定性分析和文献计量定量分析等的综述型情报分析服务,再到基于文献、专利、标准、经济社会和开源数据库的数据挖掘计算与分析,以及建设科技发展态势监测分析与研究系统的计算型情报研究。在数据密集型科研范式兴起的大背景下,情报研究工作正成为一种数据密集型的科研活动,成为一种基于海量数据的知识发现和知识分析过程[10]。数据引证分析无疑将对推动数据密集型科学研究下的知识发现和知识分析发挥重大作用。在数据密集型科学环境下,对用户提供多种数据服务如科学数据、数据发现、数据关联等,都将以数据分析为前提[11]。数据引证分析不仅有着可以看到的短期收益,更有在长期坚持、形成制度后的巨大价值[12]。数据引证分析的作用主要体现在以下几个方面。

      4.1.1 追踪科学数据

      通过对数据引证记录的分析,可以追踪科学数据或数据集的使用情况,对科学信息流有更准确的把握。对数据引证的分析,是从数据使用的角度,对信息运动和科学活动的内在规律进行科学分析的方法。面对庞大的数据量、复杂的数据种类和快速变化的数据状态,可以通过数据引证这条线索将庞杂的数据世界有序地串联起来,从而发现数据运动规律,促进价值发现和预测科学发展趋势。数据使用的透明化,有助于增强科学研究的科学性与可靠性。利用数据间的引用关系进行科学数据跟踪的思想起源于引文分析。文献引用的分析方法较为成熟,为数据引证分析的发展提供了可靠的理论基础。引文分析法是传统信息分析方法中十分常用且有效的信息分析方法之一。文献间的引用研究早在20世纪20年代就已开始,20世纪50年代,加菲尔德提出了运用引文索引进行信息分析的方法,在随后的几十年间,引文分析法被不断补充、完善。21世纪初,在互联网蓬勃发展之际,链接分析法继承引文分析法的思路,通过对网络中网站与网页间的链接情况进行分析,对网络信息资源进行评价,取得了较为丰富的研究成果。数据引证是科学交流中一种显著的信息行为,是可以进行计量的。科学数据中包含了信息及信息的存储、检索、利用过程中相关的定量研究。数据的可操作性同时增加了数据可计量的方面。数据引证与文献分析、链接分析一脉相承,具有相似的本质,其理论基础已较为扎实,因此可通过对数据间引用与被引用关系的分析,进行科学数据追踪。

      4.1.2 促进科研创新

      数据引证分析对科学研究工作具有促进作用,主要体现在以下两个方面:第一,保持数据的透明性,可以减少不必要的科学实验重复,从而提高科学研究效率。科学进步很大程度上是由信息的可用性驱动的,因而保障每个研究领域的数据都能够开放地、便捷地由研究者获取是至关重要的[13]。第二,评估数据或数据集对科学研究、科学交流的影响。通过对数据引证情况的分析,可以对科学数据生产者的贡献大小作出评价,从而进行科研创新激励。数据引证分析可以促进科学的交流与共享,提升信息利用的效率与收益,加快科学发现与创新,促进生产力发展。

      4.1.3 完善知识计量体系

      数据引证分析是对科学计量学的有益补充。科学数据是知识体系中的一部分,却在长久以来被忽视。随着数据密集型科学信息环境的发展,在客观数据量急速增加与信息技术不断改进的条件下,数据得以被重新审视,获得新的发展。以引文分析为主的文献计量学与信息计量学、知识计量学,始终重复交叉又各有侧重,在数据引证分析的推动下,将文献分析、信息计量与科学计量更好地融合,完善知识计量体系,推动了知识计量学的发展。

      4.2 需要解决的问题

      目前来看,规范的数据引证尚处于起步阶段,发展面向数据密集型科学的数据引证需要做的工作还很多,数据引证分析方法的发展面临的挑战主要有以下几点:

      第一,数据的进一步规范化。包括引证格式的规范化和引证行为的规范化。数据密集型科学研究信息环境下,数据量不仅庞大而且种类繁杂,多种数据格式、多个数据平台间的数据交换尚无明确的规范,为数据的引用带来不便。建立一种统一的、全面的、规范化的数据引证格式,对数据引证分析至关重要。在引证行为方面,有调查研究表明,数据引证并未得到广泛的采用[1]。需要进一步强化数据引证意识,建立规范的数据引证体系。第二,数据引证分析的指标体系研究。数据引证分析尚缺乏完善的指标体系,对于新的数据类型、引证方式等方面的变化,需要在原有的引证分析指标基础上进行拓展和补充。第三,发展分析工具。当前需要功能更加完善的工具来实现数据的收集、存储、分析和管理,在数据挖掘、数据可视化、智能数据分析等方面进行更加深入的研究。

      5 结论

      在数据密集型科学研究的不断发展下,适应新信息环境的数据引证分析将有很大的发展空间。数据密集型科学、关联数据和数据引证等数据科学的发展,是对数据引证分析发展的强有力推动。通过对科学数据引证情况的分析,揭示数据运动规律,对科学研究进行价值发现、预测和评价,是新信息环境下信息分析的重要方法。本文对数据引证分析进行了初步研究,发现数据引证分析具有分析对象深入知识单元、分析引用关系深入和分析动态跟踪性强的特点。数据引证分析应用广泛,在追踪科学数据、促进科研创新和完善知识计量体系等方面发挥重要作用。数据引证分析是一种新兴的信息分析方法,仍有许多有待深入的研究点。在数据规范化、数据引证分析指标体系和分析平台工具等方面进一步完善,将为推动数据密集型科学下的科学研究工作发挥更大的作用。

标签:;  ;  ;  ;  

数据密集型科学中的数据引文分析研究_科学论文
下载Doc文档

猜你喜欢