数字图书馆与大数据:研究范式的分析、比较与融合,本文主要内容关键词为:范式论文,数字图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景 在大数据应用技术需求的推动下,大数据科学研究和应用已成为科技领域中的研究热点[1],以及世界各国政府、企业界和学术界等多方关注的焦点[2]。同时,数字图书馆研究者们开始从这些大数据工程实践、科学研究中提炼出一些共性的思路、工具和方法[3-4],进而开启了数字图书馆与大数据融合研究新局面。数字图书馆与大数据分别从图书馆学和计算机科学的学科视角出发,探索数据科学、信息科学与知识服务的奥秘,但在研究方法、研究思路和研究重心上存在着较为明显的学科差异。但自2008年9月Nature首次提出“Big Data”概念并被广泛传播以来[5],经过近几年的飞速发展,目前大数据与数字图书馆两个学科领域均已形成一系列较为系统的理论体系、研究方法与知识结构,都处于飞速发展状态,且都试图从海量数据中发现知识和价值。虽然二者之间的融合研究已经逐渐进入实质性阶段,但是深度的交叉性研究却屈指可数。 笔者在梳理文献过程中发现,目前国内有关于数字图书馆与大数据的融合研究内容主要集中在服务创新[6]、系统构建[7-8]、关键技术[9-10]与应用现状[11]等方面,但在研究的系统性、研究深度与可操作性等方面略显不足,尤其是决定着数字图书馆大数据知识服务能否成功实施的研究范式融合研究,则没有针对性研究成果出现。而大量研究表明,交叉性学科研究范式的有机融合是其理论、知识与方法体系完善与发展的关键影响因素。 正因如此,笔者认为有必要认真思考这样几个问题:数字图书馆与大数据在研究范式和学科视角上到底存在着怎样的异同?二者之间优缺点如何?怎样才能把二者有机融合起来?这些问题的深入分析与思考,必然会对国内数字图书馆的知识服务模式、学科交叉互动与体系融合发展产生积极影响,甚至有可能衍生新的研究领域与学科方向。 2 两种范式的比较分析 2.1 数字图书馆范式的演变与特征 美国科学哲学家库恩在《必要的张力:科学研究的传统和变革》(1959)一文中首先引进“范式”这一概念,后在《科学革命的结构》(1962)一书中加以延伸,并在《再论范式》(1977)中对其概念加以描述。如将其引入到数字图书馆领域,则可认为数字图书馆研究范式是指数字图书馆这一特定学科的研究者所共有的基本世界观,是由其特有的学术角度、学科定位、理论体系和研究方法等构成的,描述的是研究者看待和解释该领域的基本方式[12-14]。简而言之,即决定数字图书馆“研究什么”,又决定应该“怎样研究”,在数字图书馆研究中具有根本性和支配性的地位。 关于数字图书馆研究范式的认识是一个循序渐进的过程,主要经历过“图书馆学研究范式→数字图书馆研究范式”两个阶段。自从邱昶、黄昕首次将范式理论引入我国图书馆学后,国内图书馆学界也对图书馆学研究范式进行过一些研究。如傅荣贤认为图书馆学研究范式可归结为实在论和价值论两大范式之下[15];王梅等则认为当代图书馆学研究范式正由学理性范式向技术性范式进行转换,而其中技术性范式对学理性范式的部分取代,给图书馆学的存在与发展带来了新的困惑局面[16];齐国佳认为我国图书馆学范式研究主要有两个方向:图书馆学整体范式研究以及图书馆学多范式研究[17]。 伴随着我国图书馆学范式研究、数字图书馆理论与应用研究的逐步成熟,张晓林认为根据数字图书馆建设的基点、体系形式和所解决的关键任务等,应将数字图书馆分为不断递进和深化的三代范式:基于数字化资源的数字图书馆、基于集成服务的数字图书馆、基于用户信息活动的数字图书馆[18];韩毅等提出数字图书馆在其发展过程中经历了3种研究范式的转移,即信息技术范式、信息资源范式和信息与知识服务范式,并指出数字图书馆应是这3种研究范式的综合体系[19]。 虽然数字图书馆研究范式的“理想”是“为用户提供便捷、开放的信息与知识服务”,但是显而易见的是,现阶段绝大部分数字图书馆研究与实践中所提供的信息与知识服务一般为模式或模型。 1)服务习得模型。数字图书馆提供的信息与知识服务模型通常是深度学习习得的聚合模型,一般表现为用户黑箱。因此,用户往往忽视或者无法透过知识服务表象深入了解数字图书馆背后的运行机理。一个典型的例子就是信息检索服务,对于用户而言,用户只需要输入需要查询的关键词,就可以获得所需要的信息资源,但用户没有办法知道或很难理解为什么会是这样。虽然知识计算、可视化技术、个性化服务进一步提升了识别(服务、建设)的性能及透明度,但这种问题仍然存在。 2)兴趣模式。兴趣模式是数字图书馆所提供的另外一大类信息与知识服务,比如个性化模式、频繁模式、移动模式、异常模式、创新模式等。由于数字图书馆领域深度知识及定量评价的缺乏,数字图书馆研究者通常从统计学与计量学角度选择和定义用户兴趣度量化规则,例如:强用户体验、频繁交互行为、高满意度、高被引、高可用性等,进而发现能够满足用户信息服务需求或上述兴趣度量的模式。一个典型例子就是基于网络引证视角的知识交流规律发现:从P-P网络引文和P-W网络引文角度研究知识交流的变化规律,发现研究者感兴趣的文献并没有集中在少数文献中,而是具有明显的分散效应,从而使得知识交流变得越来越广泛[20]。虽然“文献引用”与“知识交流”之间的关系容易被理解,但由于难以确立全体用户知识服务需求的最小兴趣度阈值,使得数据图书馆很多知识服务表达的模型和方法,通常提供的都是较为简单或浅层的知识服务模型,模型的适配度、服务能力有限。模式背后的运行机理认知和用户兴趣洞察获取仍然是个巨大的挑战。 综上,较容易发现当前数字图书馆研究工作的长处在于提供了信息资源共建共享和基础服务的平台、工具和方法,可以基本有效地管理和利用各种类型的信息资源。其局限在于尚未能够发掘用户与数据、信息、知识之间的深层匹配规律,对于深入发掘数字图书馆知识服务、信息交流、业务管理与数据之间的内在关联性仍缺少行之有效的方法和手段。而这应该成为数字图书馆领域研究者们当前必须认真思考和应对的重要问题。 2.2 大数据的研究历史与范式特征 大数据发端于数据科学、信息科学以及复杂性科学。尤其是2008年后Nature和Science等相继出版大数据专刊,2009年联合国启动“全球脉动计划”,2011年全球最大战略咨询公司McKensey发布大数据调研报告[21],2012年美国政府启动“大数据研究和发展计划”[22]等工作发布之后,在全球范围内掀起了大数据研究热潮。 最近几年,大数据研究如雨后春笋般兴起,大量研究成果不断涌现在国外的Nature、Science、Cell等,国内的《中国科学》《科学通报》《中国社会科学》等顶级期刊上。大数据研究领域由于具有极强的学术辐射性、学科交叉性、研究感染性及快速成长性,使得具有不同学科背景、跨领域和跨行业的研究者们自觉地聚集起来进行协同研究与讨论。而数字图书馆领域作为数据科学与信息科学最为重要的前沿战场之一,也吸引了国内大量的图书馆学领域研究者们的协同研究与聚焦。自2012年起,《中国图书馆学报》《图书情报工作》《情报资料工作》等相继推出了大数据与数字图书馆融合研究专题。 正如J.Gray所指出的那样,大数据是从第三范式(计算机模拟)中分离出来单独的一种研究范式,它为所有与之密切相关的数据密集型研究与应用提供了一个崭新的视角,并迅速发展成为新型的数据科学[23]。大数据研究主要是围绕理论体系、技术体系和应用体系三大领域展开的,研究关键在于阐释这3个要素之间的关系:理论与技术体系如何演化?怎样基于理论与技术体系形成相应的应用体系?应用体系中各个应用功能怎样实现的?如何通过应用体系和技术体系来反演其理论体系? 目前大数据研究的主要内容包括:大数据系统与分析技术、大数据测试与可视化技术、数据结构与演化机制分析、数据科学与知识服务、科学大数据与数字地球[24]、安全隐私保护与法律法规、学科交叉性演化等。 归纳大数据研究的历史过程及范式特征,可以阐述如下: 1)相关分析的观点和关系网络的视角。与传统逻辑推理与数据处理的研究不一样,大数据研究具备较强的统计科学特征,是对规模庞大的数据进行统计性的获取、聚类、比较和分类等分析归纳,关注数据之间的相关性或关联性[25],目的是为了发现大数据中蕴含的关系网络。正是由于大数据研究没有完全致力于发掘数据之间的因果关系,才促使大数据系统与分析技术在商业领域被广泛应用。对于企业而言,其目的是赚钱,只要从大数据技术与大数据知识服务中获得某种信息、措施能与企业盈利有强相关性,直接采纳即可,而很少深究为什么或挖掘其内在规律。 2)还原论的终点与复杂网络的视角。事实上,大数据面临的科学问题本质上可能就是网络科学和数据科学问题,复杂网络分析和数据挖掘研究应该是大数据科学的重要基石[2]。在过去几个世纪,还原论方法一直主导着科学研究的发展,将事物不断分解为最小的单元。但还原论作为过往最为重要的研究范式已快步入暮年,人类通过还原论加强了对单个个体、分子、原子甚至单个基因等的了解,但对整个自然、社会、生命、物质等体系的理解增速却远远不够,甚至离生命、自然、社会等体系真谛的理解越走越远。而复杂网络分析、大数据理论则与还原论观点相反,它们通过对体系节点的关联和组装,让人类重新理解整体。 3)泛在理论、结构、模型和体系的发掘。大数据研究所发掘的大部分服务、内容属于不同领域、层次中的泛在规律、结构、模型或体系:无论是相关性、嵌入性、强弱联系理论、离散分布结构、小世界原理,还是网络感染模型、深度学习、知识计算等。同时大数据研究仍在锲而不舍地探索着各类网络动力学规律及具有普适意义的泛在模型,而这就是传统科学研究“格物致知”思想的最佳展示。 4)方法论的观点和学科交叉视角。第一,大数据研究不仅仅是把数据本身作为研究目标,而更多的是将其视为一种发掘新知识的研究手段、方法或工具;第二,作为一种新型研究方法或工具,与统计分析、人工智能、复杂网络、计算机仿真等又有着不可分割的关联,但也有着与这些学科不同的学术内涵;第三,大数据研究作为一门科学的前提是,在某领域发现的关系网络规律和模型具有在其他领域可操作与可推广的普适性。 5)深度学习、知识计算与可视化视角。大数据研究的目标是挖掘其蕴含的大价值,要挖掘大数据蕴含价值就需要对其进行内容分析与大数据计算,而深度学习和知识计算是大数据分析的基础,可视化正逐渐成为大数据研究的自助、自主分析即时获取商业洞察的工具[26]。 6)广泛的应用领域和丰富的应用形态。大数据的理论体系、关键技术和方法能够广泛应用于各种应用领域,比如:知识管理、情报分析、旅游管理、生物信息、电子商务、遥感科学等,并在具体应用领域中有呈现出各种各样的应用形态。 根据上面的分析可看出,大数据研究范式在系统构建、泛在服务演化、内在规律和模型发现、知识服务等方面具有极为明显的优势,但在大数据挖掘、分析和处理等方面还存在一定的瓶颈。 2.3 两种研究范式的比较 从宏观世界角度来看,大数据是融合物理世界、信息空间和人类社会三元世界的桥梁:物理世界通过互联网、物联网等技术在信息空间中以大数据形态映射出来,人类社会则通过人机交互、脑机交互、移动互联等方法在信息空间中以大数据映像映射出来[26]。而数字图书馆与此类似,是融合物理图书馆、虚拟信息服务空间和用户的三元世界的知识交互的纽带。 根据上一小节关于数字图书馆与大数据研究范式的分析,对二者进行比较分析,如表1所示。 3 融合两种研究范式的途径与方向 数字图书馆领域充分体现了大数据的4V(规模大Volume、类型多Variety、速度快Velocity、真实性Veracity)特性。在数据规模上,已经达到大数据的量级标准;在类型上,数字图书馆所包含的数据以文本、图像、音视频、3D模型及地理位置信息等为主,同时也涉及教育、管理、服务及经济等多类数据[27]。此外,对数据分析与知识服务的实时处理速度、数据的真实性等也有着严格要求。因此,数字图书馆与大数据研究范式的有机融合具有其他学科、领域所无法比拟的先天优势。 3.1 已有的融合研究 自2012年起,国内数字图书馆领域已关注大数据研究,并且已取得了一些不错的成果。最为重要的研究工作之一就是以嵌入式信息服务模式[28]为代表的大数据知识服务创新。受大数据科学的启发,张兴旺等提出大数据知识服务体系的概念,尤其是瞄准数字图书馆建设、服务与管理工作,开展了一系列的研究工作,包括:大数据对图书馆的影响与应对措施分析,大数据知识服务内涵及特征分析、运行机理,大数据知识服务生态系统、系统研发、关键技术等[29]。韩翠峰认为图书馆可通过重视用户数据与信息、增加大数据分析服务、利用数据分析技术与工具、提高图书馆服务的智能化来创新图书馆的服务[30]。马晓亭从大数据的用户个性化服务需求分析出发,构建了图书馆大数据分析平台[31]。这些研究工作是很好的尝试,并为国内数字图书馆与大数据的融合研究工作提供了一定参考,但是在研究范式上仍没有踏出突破性的一步,尤其是方法和观点上与大数据系统动力学和关联网络模型的深度融合,以及资源与服务深度学习的发掘上,仍处于探索阶段。 数字图书馆领域的研究者也已关注于大数据知识服务系统及行为领域,采用计算机科学、统计学和模拟仿真方法,开展了大数据知识服务质量评测、用户隐私感知与保护、大数据用户行为分析等交叉性领域研究。例如,针对图书馆大数据管理过程中面临的数据垃圾多、污染严重、可用性差和隐私保护等问题,陈臣提出了一种有效控制大数据质量的策略[32];针对大数据时代图书馆用户面临的隐私保护与感知活动的风险,提出了大数据时代图书馆读者隐私保护的具体应对措施[33];陈臣从用户行为分析的角度出发,构建了基于大数据的图书馆个性化服务用户行为分析体系[34]。 3.2 融合途径与方向 根据前面数字图书馆与大数据研究范式的分析、比较和已有融合研究的讨论,不难发现,在基于大数据的知识服务规律和运行机理的发掘上,大数据与数字图书馆无论是在理论上,还是在技术或是应用上,二者存在着很强的互补性,它们的融合是理所当然的。一方面,对于数字图书馆来说,引入大数据理念与方法,挖掘其信息资源、用户数据与信息等内部蕴含的泛在机理与规律,能将数字图书馆知识服务与管理提升至一个全新高度;另一方面,对于大数据而言,数字图书馆建设、服务与管理过程会产生大数据,对其进行分析与处理将有助于大数据理论与应用的拓展与完善,加快数据科学、信息科学及知识管理的共性问题和规律的研究。因此,数字图书馆与大数据的有机融合对于这两个领域向纵向、深度发展有着巨大的好处。 数字图书馆与大数据的范式融合研究包括3个层面,一是量,即重点解决与突破数字图书馆产生的大数据体量给其建设、服务、管理过程所带来的理论与技术难题;二是质,即重点阐释与分析大数据这一新生研究对象与数字图书馆关联的核心与本质问题,如大数据知识服务、大数据可表示与可处理、信息安全与隐私保护、复杂数据智能分析等同题;三是用,即重点分析与解决大数据驱动的数字图书馆系统构建、知识发现与信息获取的理论与方法。只有解决了“量”的问题,才能在“质”上有所创新,从而更好地“用”。从本质上来讲,三者组成了一个有机整体,彼此互为因果、相互推动。 根据上面的分析,对数字图书馆与大数据范式融合的途径和方向归纳如下: 1)方法论创新。数字图书馆有一套相对固定的建设流程(包括信息资源采集、加工、存储、检索、传输和利用等过程)、管理流程(包括数据预处理和集成、知识挖掘、知识形成、知识理解和知识管理等过程)、服务流程(包括移动信息服务、个性化服务、知识服务、开放服务等),而所有流程都是由数据驱动的,在大数据环境中就必须进一步地与数据驱动模型结合起来,形成一套新的基于大数据视角的数字图书馆方法体系,同时也要发掘出一套服务于大数据知识服务模型的数据耕耘与数据成长方法。 2)信息检索模式创新。随着移动互联网和大数据技术的飞速发展,文本、图像、音视频等逐渐成为数字图书馆重要的信息载体,但对应的信息检索及信息服务模式以基于文字检索的服务模式为主,而忽略了文本、图像、视频等视觉对象,音频、广播电台等听觉对象的检索与服务模式的支持[35],视觉搜索特别是移动视觉搜索[36]能有效地帮助用户从大数据环境中快速找到其感兴趣的信息。 3)知识服务模型创新。数字图书馆知识服务模型驱动采用的演绎模式(正向演绎,“数字图书馆→用户”),大数据驱动模型采用的归纳模式(反向归纳,“大数据→数字图书馆”),这两种模式的有机融合能进一步创新数字图书馆大数据知识服务的研究方法。一方面,可以将大数据和数据科学方法应用于数字图书馆重要问题的研究中,从而为用户提供更为智慧化、个性化的知识服务;另一方面,可以通过大数据方法分析、预测数字图书馆的服务现状、发展趋势,发掘出新的知识服务模型。 4)基于系统论视角的大数据知识服务方法创新。数字图书馆大数据知识服务研究需要借鉴数据科学及系统科学的研究方法,从系统性、全局性视角出发,基于动态进化的观点,将系统动力学、计算机科学、管理学及数据科学等方法有机融合起来,探索数字图书馆知识服务的普适性、泛在性,发掘得出深层次内在服务机理,加强对所提供知识的可用性、普适性检验,形成充分契合用户信息服务需求的大数据知识服务方法。 5)数据分析方法创新。根据数字图书馆信息资源生命周期分析,结合信息来源、信息资源特性等方面来看,大数据环境中数字图书馆数据分析方法主要有:文本分析、Web数据分析、多媒体数据分析、用户行为数据分析、移动信息服务数据分析、服务日志分析等。而数字图书馆大数据处理和分析的最终目的就是借助对数据的理解帮助用户获得更为精确的信息与知识,辅助管理者在图书馆各类服务中作出正确决策。在此过程中,深度学习能有效提高精度、知识计算能挖掘深度、社会计算能促进认知、可视化技术能辅助决策。 4 结束语 毋庸置疑,人类已经进入大数据时代,怀揣着“大数据蕴藏大信息,大信息提炼大知识”的憧憬和理想,以数字图书馆研究为代表的图书馆学家和以大数据研究为代表的数据科学家不谋而合,有着共同的目标和梦想。而二者工作又互为补充,可以认为,数字图书馆与大数据研究范式的融合契机早已来临。但必须指出的是,目前大数据工程实践研究已走在科学研究前面,大数据科学研究领先于大数据知识服务研究。这种情况带来的局面就是各个学科的科学家都以自己为主处理本领域的大数据,而信息服务领域的研究者主要起到辅助的作用。也就是说,数字图书馆与大数据的范式融合研究仍面临着巨大的挑战。这就要求数字图书馆研究者在条件还不成熟的情况下,作为数字图书馆与大数据研究主导者的同时,应该虚心地甘当一段时期的“助手”,虚心与其他各学科、领域的科学家合作,进而才能主导本学科未来的生存与发展空间。标签:数字图书馆论文; 数据与信息论文; 范式论文; 用户研究论文; 图书馆论文; 数据融合论文; 信息发展论文; 用户分析论文; 数据分析论文;