科学研究范式演变视角下的情报学,本文主要内容关键词为:情报学论文,范式论文,科学研究论文,视角论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
科学研究范式的发展是一个学科长期积累沉淀的过程,其对于学科的研究起到指导和规范的作用。“范式”这一概念最初是由美国著名科学哲学家托马斯·库恩1962年在《科学革命结构》中提出来的,指的是常规科学所赖以运作的理论基础和实践规范[1]。他认为:科学的发展不是靠知识的积累而是靠范式的转换完成的,一旦形成了新范式,就可以说建立起了常规科学[2]。由于其产生于特定的历史时期和特定的科学家群体,“范式”的基本理论和方法不是固定不变的,而是随着科学的发展而发生变化的。
科学的发展与其未来的走向是与科学研究范式的变革紧密相关的。其作用主要表现在:是一个学科成熟的象征;是研究人员入门的指导;是研究传统延续的条件;让研究详细而深入;平息争论、建立研究的自信心;用来区分不同科学社群[3]。情报学是研究情报过程及其规律的科学。该学科的发展与情报学研究范式的变革也是紧密相关的。综观图书情报界学者们对于情报学科研究范式的相关研究可以发现,各个学者由于其主体认识的不同,对于该学科研究范式的理解和总结也不一样,所以出现了各种图书情报范式体系;各图书情报范式体系多侧重于从宏观抽象的层面上进行研究;各图书情报范式体系缺乏系统性。科学研究第四范式的提出使科学研究正处于范式演变的时期,情报学与新兴范式的紧密联系使其受该范式演变的影响最为深刻和直接。
1 科学研究范式的演变
格雷先生在“The Fourth Paradigm”[4]一书中提出了科学研究的4个范式并将这4个科学范式描述为:经验范式,相对应的是经验科学,产生于几千年前,是描述自然现象,以观察和实验为依据的科学;理论范式,相对应的是理论科学,产生于几百年前,使用模型或归纳方法进行科学研究;模拟范式,相对应的是计算科学,主要模拟复杂的现象;第四范式,相对应的是数据密集型科学,是目前新兴的科学研究范式,主要进行数据探索,统一理论、实验、模拟为一体。
1.1 科学研究第四范式
科学研究第四范式是继经验范式、理论范式和模拟范式之后的一种针对数据密集型科学的新的研究方法论。该方法论是将数据作为科学研究的对象和工具,基于数据来探索、设计和实施科学研究,构造一个开放协同的研究模式来应对数据洪流。科学研究第四范式的产生,一方面是由于科学研究范式本身的发展促成的;另一方面是由于外部环境的推动。库恩提出的科学知识的增长模式说明了科学研究范式是一个不断解决新问题而不断发展的过程。而随着信息技术的发展,社会环境的变化,促使新的问题不断产生,使科学研究范式受到各个方面的挑战。主要表现如下:大数据的挑战[5],大数据带来的挑战不仅仅体现在数据体量上,而且带来了数据类型繁杂,数据结构模式复杂,动态变化的挑战,需要新的技术和方法进行处理;信息技术发展的挑战[6],非关系数据库以及分布式计算架构在空间维上的不断发展以及流式计算、实时计算以及内存计算在时间维度上的发展,加上各种传感技术以及物联网技术的发展,使得产生数据的速度大大加快;科学研究过程的挑战,数据分析和管理成为科学研究过程中必不可少的一步,在科学研究过程中,已不是跟踪别人正在做什么或者解决尚未解决的问题,而是要从数据中发现不知道自己不知道的问题。另外,发布成果时应该重视支撑这些成果的数据的存储和再利用;科学数据管理贡献价值的挑战主要是指目前科学数据本身内在的贡献价值与人类目前能够挖掘到的价值的矛盾,即目前的数据处理和分析技术无法应对大数据状况,获得大数据背后隐藏的价值。
利用该方法论处理的对象主要是数据密集型科学的研究对象——科学数据。笔者综合考虑,将其研究对象确定在4类:即时收集到的观察数据、源自实验室仪器设备的实验数据、源自测试模型的模拟仿真数据、互联网数据。其中互联网数据受信息技术革新的影响在互联网环境下而产生的大行为数据和大交易数据。大行为数据主要产生于社会网络中,例如,Twitter、新浪微博、虚拟社区等。大交易数据的产生主要基于电子商务的社会化。科学研究第四范式的主要特点是:数据依靠工具获取或者模拟产生;利用计算机软件处理;依靠计算机存储;利用数据管理和统计工具分析数据。其核心是:①应对数据规模扩展的问题。②注重科学交流,实现大数据共享。③倡导学科协同。④建设全科学的研究基础设施。
1.2 范式演变过程
科学经历了经验科学→理论科学→计算机科学→数据密集型科学;相对应的研究范式经历了经验范式→理论范式→计算机模拟范式→第四范式几个范式的变迁和演化。各个研究范式之间相互联系,相互支撑,共同构建了科学研究的方法论体系。经验科学是理论科学的实践基础,重复实验直至完全准确,则形成了理论,如果理论从未被推翻,则形成定律。理论科学是经验科学的指导,经验科学是在已有的理论基础上进行实验的。两者是互相联系、互相补充、互相推进的。计算机科学是对经验科学和理论科学中的科学方法的补充和优化,而数据密集型科学是处理经验科学和计算机科学中出现的大数据处理问题,是对前3种科学的补充。其具体演变体系如表1所示[7-9]。
2 范式演变中的情报学
情报学是一门科学学科,而且与科学研究有着特殊的关联关系。置身于科学研究的大背景下,必然会受到科学研究范式转变的影响[10]。
2.1 情报学中的范式演变
从研究方法论的角度出发,分析情报学中的范式演变,可以发现情报学的研究可以总结为其按照经验范式→理论范式→计算机模拟范式→第四范式这样一条研究线路而发展的。但并不是说各个时期的研究范式是单一的,独立的,而是不同时期可能会是多个研究范式的相互交织和相互辅助。情报学赖以建立的基石经验规律的发现,即遵循的经验→理论范式,如描述专业论文在期刊中分布情况的布拉德福定律,描述作者与论文数量之间关系的洛特卡定律,描述文献中的词与其出现频次之间关系的齐夫定律以及情报学的经典定律:文献增长律和文献老化律[11]。这些定律都是学者们在工作当中经过经验观察,收集观察到的数据,进行理论推理而获得的。是典型的经验→理论范式。图书情报学的一个重要研究分支——人工智能信息系统,如专家系统、决策支持系统等,即遵循的模拟范式。情报学中的信息计量学和网络计量学、社会网络分析和数据挖掘部分遵循科学研究第四范式。
2.2 范式演变对情报学的影响
1)学科研究内容扩展。情报学产生的初衷之一就是对数据的分析和利用,其核心内容是对信息资源的管理和利用。在20世纪40—50年代,情报学关注的内容是科学文献的分析,如对于文献作者分布规律分析的洛特卡定律和普赖斯定律以及对于科技文献分布规律分析的布拉德福定律和齐夫定律。到20世纪90年代,情报学研究的信息范围扩展到了全社会,包括纸质的和网络的,也包括正式交流和非正式交流过程中所产生的信息。比如网络计量学对网络数据的分析。目前,情报学研究的数据在学科协同发展的影响下,已经突破了学科的界限。
情报学中存在着需要利用数据密集型科学计算的方式进行研究的内容,例如信息计量学和网络计量学中对于文献的引文分析、社会网络数据的分析以及数据挖掘技术等。这一方面说明数据密集型计算方式的发展有利于情报学信息计量和数据挖掘方法的提升;另一方面受数据密集型科学的影响,情报学需要研究新的方法和工具来改进信息计量方法和数据挖掘算法。
以用户为中心的服务模式是目前服务的核心,用户特征的研究成为情报学研究内容中的一个重要部分。随着网络的社会化、信息的社会化和商务的社会化,用户行为数据的体量越来越大,对该数据的收集和分析成为情报学研究的一个难点。因为面对规模体量和数据结构复杂的数据,很多数据分析工具和数据挖掘算法都会失效。
数据密集型科学的出现会促生新的研究领域——数据科学和新的职业——数据分析师。既然情报学中存在着数据密集型的研究内容,那数据密集型科学的兴趣必然会引致情报学新的研究问题和研究内容的出现。
2)研究方法的创新。科学研究范式从经验范式到理论范式到计算机模拟范式再到新兴的第四范式,是从方法论的角度构建的科学研究范式体系。所以科学研究第四范式是一种新兴的方法论,它的发展和逐步应用会对各个学科产生重大影响,尤其是图书情报学。一方面图书情报学与该科学研究范式有着本质的联系,图书情报学是关于信息的科学,而科学研究第四范式是针对数据密集型科学的。而数据密集型科学的研究对象科学数据,包含图书馆情报学中的文献、信息和知识。另一方面,科学研究第四范式在一定程度上与情报学中的数据挖掘相似。科学研究第四范式的方法论是以数据为驱动探索数据密集型科学中有价值的数据,而数据挖掘的概念是从大量的数据中提取有用的信息和知识的过程,只是两者的宏观目标和实现工具不一样而已。科学研究第四范式更强调对大数据的处理,强调“规模数据+简单逻辑”的挖掘模式,这种新兴的方法论可以被情报学所借鉴,用来拓展该学科的研究方法体系。
3)情报交流体系的转变。情报学与科学交流有着紧密的联系。国外代表性的情报学基础理论包括布鲁克斯的知识基础论、约维茨的决策系统论和米哈依洛夫的科学交流论,其中米哈依洛夫的科学交流论认为情报学是研究科学交流的学科。虽然情报学发展到现在,其内涵已经超出了科学交流的范围,但是情报交流依然是情报学的重要研究内容之一。“现有的学术信息交流体系只不过是基于纸质的传统学术信息交流体系的复制品”[12]。新技术的应用并没有解决学术信息交流体系中的三大不足:体系问题、经济问题和技术问题。科学研究第四范式要求学术信息交流体系[13]:
·以机器可操作的方式丰富学术记录。利用语义和本体技术,建立学术知识的机器可操作化的表达,能够帮助研究人员和学习者处理少量而丰富的信息,通过对现有知识体系的推理来促进新的知识发现,同时通过帮助研究人员避免重复研究、发现新研究的可能解决途径来加速知识发现进程。
·将数据集整合进学术记录。在目前的学术交流体系中,流通于整个交流过程中的学术信息大多数是从数据中生成的发布研究成果的研究论文,即数据金字塔中的最顶层,而支撑该成果的中间整合信息和最底层的原始数据却不包含在其中。科学研究第四范式要求将数据金字塔中的3层信息都包含在整个学术信息交流体系中。
·展示学术信息交流过程,并将其整合到学术记录中。科学研究第四范式在整个信息交流过程中引入了一个步骤——数据溯源信息的共享。数据溯源信息提示了在工作流执行中数据的输入和处理历史,即在学术信息交流体系中,运用工作流技术,储存整个数据处理历史,并以溯源信息的形式展现给用户。
针对范式演变过程中新的科学交流体系的形成,作为科学交流体系的主要研究学科,情报学应该作出适当的调整来促进和推动新的科学交流体系的形成和发展。
4)情报服务的转型。情报服务是情报学研究的最终目的,也是情报学的重要研究内容之一。情报学的相关学者们一直致力于为用户提供高价值、高质量、高精准性的情报服务辅助用户进行决策。所以情报服务的模式从信息服务到知识服务,再到个性化服务,再到决策支持服务,再到推送服务,各种各样为了满足用户的需求而创建的服务出现。在服务的过程中,人们忽略了支撑这些服务产生的数据和中间的整合信息。在科学研究中,科学研究过程中产生的数据与形成的最终文献一样具有学术价值。对于这些数据的存储和利用,一方面可以起到学术监督的作用,所有的相关学者可以重复该实验过程进行验证;另一方面,为相关学者提供了可以利用的有效数据,提高了研究效率。科学研究第四范式要求进行数据到知识的服务模式,这是一个动态的过程。科学研究的服务需要知识的服务也需要数据的服务,情报学的服务模式在范式演变时期需要进行转型。
3 结束语
科学研究范式是对科学研究的规范,在进行科学研究时必须遵循本学科已经形成的大家公认的科学理论体系。数据密集型科学的出现使科学研究以数据为中心、以数据为驱动的特征越来越突出。从大数据中探索“不知道自己不知道”的现象和规律,成为科学研究中必不可少的部分。由于情报学与数据密集型科学联系紧密,其受范式演变的影响最直接和最明显。而情报学也最应该率先进行相关研究以支撑科学研究第四范式的发展和完善。所以笔者提出了以下几点建议。
1)研究者开拓新的研究视角。科学研究范式的延伸和发展是科学研究的必然趋势,情报学的相关学者们应该顺应并适应,将新的研究范式引入情报学,拓展新的研究视角。探索在新的研究范式下,情报学应该进行哪些拓展,情报学应该如何构建新的信息交流体系,情报学中有哪些研究内容属于数据密集型?
2)建立集数据、文件和文献于一体的数字图书馆。目前数字图书馆的建设仍然在形成阶段,规模不等,形态不一,性质也多样。在新的科学研究范式下,数字图书馆的建设有了一个新的角色:科学数据的管理。不仅存储文献而且存储与文献相关的数据,以及联系数据与文献的关联数据。图书情报学需要探索数据的存储方式、组织方式、数据与文献的关联方式以及整个流程的可视化方式,等等。数据管理一方面从组织层面成为辅助科学研究中科学数据的发现、访问、传播和归档的利器、工具和必备活动;另一方面在实践层面上可以是提供描述分析数字馆藏和对象的标准纲要,或者开发和维护支持数据馆藏对象的发现、管理、重用和保存的系统,或者是实现数据知识库系统和研究者应用间交互的中间件[14]。
3)注重学科协同。注重学科协同一方面指各个学科共同努力相互借鉴构建科学研究的全民基础设施;另一方面指数据的共享,不仅是学科内共享,也包括学科之间的共享,甚至国际间的共享。在科研基础设施的建设和运行当中,情报学需要明确自己的职责、作用和角色。探索如何借助于其他学科的理论、工具或技术扩大数据的共享;如何发挥情报学在信息共享、信息服务方面的优势,建立协作机制,帮助其他学科的研究。
收稿日期:2013-07-02