大数据时代情报学研究范式的转变_大数据论文

大数据时代以信息为中心的图书情报学研究范式转换,本文主要内容关键词为:情报学论文,范式论文,时代论文,数据论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       中图分类号 G250 文献标识码 A 文章编号 1002-1965(2015)03-0046-04

       DOI 10.3969/j.issn.1002-1965.2015.03.010

       随着云计算、物联网和移动通信的迅猛发展,数据以空前的规模激增,不可否认大数据时代已经到来,大数据冲击着各行各业,图书情报学(Library and Information Science,LIS)也不例外。面对隐含着巨大价值的大量非结构、类型多样的数据产生,如何有效地组织利用这些数据创造价值成为一个难题。2012年3月29日奥巴马政府宣布大数据研究和发展的倡议,6个联邦部门和机构提供超过2亿美元经费对大数据进行研究[1],来自不同国家的多个学科参与其中,来应对这一新领域的问题。而对于以解决信息利用障碍为对象的LIS来说有责任且有能力在这个新领域中承担主要角色。

       汉普顿大学计算机与信息技术学院的Mike Thelwall教授在LIS领域提出了针对新信息源的研究方法——以信息为中心研究(Information-Centered Research,ICR)[2]。LIS方法论是LIS基础理论的有机组成部分,是构建学科理论结构的“催化剂”,LIS研究的发展离不开LIS方法论的创新。一个新方法论的提出必然会引起LIS研究的范式转换。本文介绍了ICR方法论及其与现有的LIS理论的异同,进而探讨了基于ICR方法论的LIS研究范式转换。

       1 科学范式与范式转换

       “范式”这一概念最早是由美国著名科学哲学家托马斯·库恩于1962年在《科学革命的结构》中提出的,指的是常规科学所赖以运作的理论基础和实践规范[3]。库恩认为:科学的发展不是靠知识的积累而是靠范式的转换完成的,一旦形成了新范式,就可以说建立起了常规科学,“范式”的基本原则可以在本体论、认识论和方法论三个层面表现出来,分别回答事物存在的本质问题、认识者与被认识者之间的关系问题以及研究方法的理论体系问题。这些理论和原则对特定的科学家共同体起规范的作用,协调他们对世界的看法及其行为方式。由于其产生于特定的历史时期和特定的科学家群体,“范式”的基本理论和方法不是固定不变的,而是随着科学的发展而发生变化的。库恩则依据他的范式理论提出了科学革命的模式,可以描述为:前科学时期—常规科学—危机时期—科学革命—新的常规科学。

       社会科学的研究者同样接受并运用范式理论,但是由于社会科学与自然科学的差异性,范式转换的模式与库恩所说的自然科学并不完全相同,绝大多数的社会科学还尚未有过严格意义上的科学革命。论其原因,或是社会科学根本就不存在科学革命,或是如库恩在书中提到的,社会科学尚处于前范式的阶段。而社会科学的发展体现更多的却是理论的选择性与可能性,因此社会科学的理论范式只有是否受欢迎的变化,很少会被完全抛弃,这样就决定了社会科学理论中的范式的更替和转换主要体现在科学理论发展的深度、广度和维度的拓展上,而并非完全是自然科学中所谓的“科学革命”。

       具有社会科学特性的LIS亦是如此,伴随着大数据现象的出现,随即也产生了针对新数据类型的研究方法,研究方法的出现势必会引导LIS的一个库恩范式的转换。

       2 ICR产生的背景及理论内涵

       随着移动通讯和社会媒体的迅速发展,大量数据在世界各地产生并存储。大数据不仅包括规范出版的结构化数据,还包括在传统数据库中很难积累、编辑、存储的大型高度多样化(非典型)数据,以及由它派生出的新价值带来的巨大利益。大量新的出版类型的出现,如博客、私人主页等提供了丰富的有待社会科学和人文科学充分利用的社会数据资源。截至2011年数据达到了1.8 ZB(Zettabytes:10[21]个Bytes),数据正以前所未有的速度激增。这些不同的网上信息源的激增从某种意义上来说就像能够以各种有意义的方式归类的大量文献,它不像是e-科学的“海量数据”,但更像是e-研究的“海量文献”。其次,由于在线信息源通常是非正式的,并且具有创新性,理解新信息源潜在研究的相关性存在困难。新信息源似乎是一个相关的先验,但他们后来发现是不恰当的。基于这样的机遇和挑战,Mike Thelwall教授提出了针对新信息源的研究方法—以信息为中心研究(ICR)[2]。

       ICR是一个通过开发可以应用在许多问题领域的通用研究工具并识别相关研究问题来着重研究一种新信息源的e-研究方法论。ICR不仅提供了对这种类型数据一个真正的新的有用的LIS研究模式,也有助于新兴的电子基础设施[2]。

       3 ICR与以问题为中心研究(Problem-Centered Research,PCR)

       ICR研究者可能以出版物或报告的形式直接贡献知识,或者试图为合适的知识域专家传递信息和相关的加工技术,供他们合作或单独研究使用。

       标准的PCR方法是调查信息源是否有助于特定的研究问题。例如,博客的讨论量是否为一个衡量公众对政治问题、新闻故事或新书发布感兴趣的好指标,其中任何一项都可能形成传统的PCR研究,而ICR方法是调查博客中讨论什么样的话题,然后指导博客指向它们可以有效解决的那些研究问题。更具体地说,ICR能够产生两种不同的学术输出:ICR文章和PCR文章。ICR文章是由ICR研究人员撰写的有关新信息源的探索性分析,它不包含特定领域的研究假设或详细的理论框架。例如,Mike Thelwall撰写的一篇ICR文章,解释了博客如何可以成为触及公众舆论的社会科学研究的一个有用的信息源,并描述了一个简单的调查方法[4],该文不包含研究假设和理论框架,然而其中至少有一个通常是会被社会科学研究所预期的。相反,一个来自初始ICR研究的PCR文章包含特定领域的研究假设,由他们自己领域的专家,或领域专家与ICR研究人员合作,或结合适当领域专业知识的ICR研究人员撰写。PCR文章因此成为一个由ICR研究触发的“正规”的研究文章。

       总之,ICR不仅比PCR更广泛,而且具有不同的目标:即指导信息指向合适的问题,而不是用信息解决一个给定的问题。

       4 ICR与现有的LIS研究理论范式

       ICR没有被现有的LIS研究理论范式所覆盖。目前,比较有影响的LIS理论范式有领域分析(Domain Analysis)、知识非常态(Anomalous States of Knowledge,ASK)等。这些范式均是以所有问题或“使用”为基础的,并且没有提供分析新信息源的通用工具。

       领域分析是由丹麦情报科学家赫约兰德(

)和爱布瑞森(Albrechtsen)于1995年首先提出的。“领域分析”的主要观点是认为在LIS中情报研究的最好方式是作为思想和过程体的知识领域,认为情报是社会分工的一部分,重点是从社会角度理解用户的情报需求,以及不同的学科和知识领域的情报系统的功能及差异。“领域分析”是一个社会学的范式,将情报作为一种社会现象,以研究社会现象的各种理论和方法应用于LIS,利用的是集体主义方法论等观点[5]。该理论认为信息应该通过用户最好的理解和分析,不是作为个人,而是作为专家知识域部分[6]。特别是,

在2002年提出了可以适用于特定知识领域的11个具体的信息专家能力(例如,检索特定于域的文档集合)[7]。ICR与其相反,首先,ICR由于分析的信息源可能与许多不同领域相关,所以它是一个跨领域的活动,不是一种域分析形式。其次,ICR不是作为一般情报科学家的核心活动提出,而是作为一个专家的活动。在这里ICR不是唯一的,因为一些其他LIS领域大部分是通用的,而不是特定于域的,如信息检索和文献计量学,在世界各地的国家研究评估中心均有许多文献计量学。

       ASK是贝尔金(Belkin)提出的信息需求理论,是最有影响力的LIS理论之一,其核心是信息需求产生于知识非正常状态。按照这一理论,人在查询信息的过程中,通过描述、理解和解决非常态的问题,将“信息转换为知识结构”。ASK试图远离用户明确制定信息需求。它着重于用户问题的陈述,陈述可以在信息可以解决的知识潜在非常态基础上建立起来,例如通过信息检索系统提供合适的文献[8],而ICR并不关心特定的问题情境。还有许多其他的认知理论,包括那些考虑到语境而不仅仅是个人的认知状态[9]。更广泛的是这里有许多的信息寻求行为理论[10-12]。然而由于信息的最终接收者没有寻求对一个具体问题的解决,所以ICR没有被认知理论所覆盖,相反ICR研究人员主动向他们提供信息资源来探索与它们相关的问题。因此,ICR最终在用户不解决新的信息来源“问题”的过程中承担角色。

       ICR可以看作是信息过滤[13],因为除了信息过滤系统通常处理类似的文献类型,分别发送它们给适当的接收者之外,它的目标是获得信息资源提供给适当的用户。信息寻求研究的LIS渠道[14]与ICR在某种意义上(ICR将数据给潜在的用户)具有相似性。然而渠道研究与ICR也是有区别的。前者通过调查用户选择的渠道获取他们需要的信息(如正式或非正式),而后者则提供了一个新的渠道(如一个研究方法)可以使终端用户(如非ICR研究人员)获取与他们研究领域相关的数据与方法。

       ICR除了不依赖知识领域,处理非结构化文献收藏,识别可以提取的模型类型,而不是实际的模型之外,与数据挖掘相似,着重从数据库中提取以前未知的模型。尽管如此,数据挖掘学似乎并不发展ICR相关理论,而是提供替代的规定程序模型作为实践的辅助[15-16]。

       以往的LIS研究方式与ICR最密切相关的是基于文献发现,它通过开发算法从文献数据库中提取研究假设或联系[17-18],这与大多数LIS研究完全不同因为没有终端用户参与的必要。在基于文献发现中,从调查中产生研究假设并且是其最终产品,而不是出发点,这与标准PCR相反。在基于文献发现中终端用户不是预先确定,但可能会是一个工作在某个知识领域的科学家,可以评估由系统发现的文献相关性假说,在这个意义上它类似于ICR,尽管如此,ICR的焦点也比基于文献发现的更广泛,虽然一般的假设也可能产生ICR数据探索,但是ICR提供数据源,而不是个别的事实或特定的假设。重要的是,ICR是作为一个获取新兴信息来源的通用方法论提出,而不是作为高效利用一组数据库的方法论。

       ICR与Paisley[19]提出的通过聚焦一个特定问题跨越其他领域的“变域”理论有一些相似之处。ICR虽然没有作为一个领域在自己的权利范围内提出,但是可以跨越一系列的领域,在这些领域中互联网派生的数据是潜在有用的。

       5 ICR的问题抽象

       问题抽象对于该方法论有效性是一个重要的理论问题。如果它们从由PCR所在的使用环境中抽象,作为研究对象的新信息源的潜力如何能被揭示?现实中与任何信息源无关的“纯”问题是不存在,也不存在解释之前的“纯信息”。区分数据的行为已经加载了解释框架和隐式假设。因此,ICR不能建立在无解释信息理念上。相反,ICR强调解释的行为应该发生在一个更高的抽象层次,从各种领域可能的研究问题集考虑。

       在现实中PCR研究人员通常具有适应他们最初的研究问题应对意外结果的灵活性,这无疑是一个能够报告结果而隐藏初步错误步骤和失败假设的重要研究技能[20]。然而,新数据源基于问题的视角至少限制了可能被考虑的问题类型的范围。

       6 基于ICR的LIS研究范式转换预测

       6.1 由单一数据源转向多种数据类型 随着LIS逐渐向各行各业渗透,涉及的问题会更广泛、细化,单一的数据源不再能满足分析的需要,多种不同类型的信息源应相互补充,应该既要充分地利用数据库资源提供的结构性数据,如期刊论文、专利等,又要充分地考虑社会化媒体所带来的非结构化数据,如研究者和公众创建的数据。因为同一个事实或规律可以隐藏在不同的数据源中,不同的数据源可以从不同的侧面揭示同一个事实或规律,所以将所有的数据资源融合到一起,更能说明某项研究的整体情况,从而发现有价值的知识和情报,才能真正提高情报分析的科学性和准确性。ICR方法有利于多种数据类型的应用。

       6.2 由传统文献信息资源分析转向注重新信息源分析 微软在The Fourth Paradigm:Data-Intensive Scientific Discovery一书中指出[21],科学研究的范式包含经验科学、理论科学、计算科学及以数据密集型计算为基础的“第四范式”。“第四范式”涉及的数据包含结构化、半结构化以及非结构化的数据,并且半结构化和非结构化的数据所占的比例越来越大。“第四范式”的出现使科学研究以数据为中心、以数据为驱动的特征越来越突出。ICR方法充分地体现出以数据为中心理念,即具有数据思维。

       传统的LIS研究基于大量的文献资源,主要利用的是数据库资源及网络搜索引擎,包含期刊论文、专利、学术报告、新闻等资源,但随着社会化媒体的易用性、快速性和易获取性等特点,它们迅速地改变社会公共话语环境并引导技术、娱乐、政治等诸多领域的发展,通过这些庞大的用户社区产生的高度多样化的信息分析,能够洞察公众对某一主题的观点,预测未来发展方向,有助于发现有共同兴趣的社群、领域专家、热点话题等,带来网络舆情分析等研究内容。此外,还产生了新的情报研究领域,如移动设备的普及和GPS的广泛应用,可以从由它们产生的数据中获得社会和社区情报来揭示人类行为模式和社群动态[22]。

       6.3 由特定领域情报研究转向跨领域情报研究 大数据时代的到来,对于在数据分析领域中扮演重要角色的LIS来说得到了空前的重视,其他的众多学科也开始关注LIS,有意识地涉足作为专门领域的LIS,随着学科的深入和交融,LIS正从一个特定领域的分析转向跨学科领域分析。

       ICR不是特定域的,而是一个跨学科的研究方法,它跨越学科范围分析数据将其传递给适当的用户。LIS研究不再只局限于特定领域的问题分析,而是把分析的内容置于一个更大的背景中,这样才能得到最符合实际的结论。

       6.4 情报研究向智能化转向 传统的LIS研究是LIS研究人员根据用户的信息需求,通过分析、检索、评价后将情报传递给指定的用户,ICR研究方法对技术提出了更高的要求,通过开发通用工具来处理新的数据类型,尤其是新的非结构型数据资源,提供给适当的用户。这种转变使得LIS研究人员从大量的体力劳动中解脱出来,很大程度上避免了人的主观判断,使LIS研究向智能化转向,从而更加客观地提供图书情报服务。

       7 结论

       随着与新技术相关的新信息源的不断增加,对于大规模收集的这类数据可能会有许多看似合理的社会科学和人文科学的应用,这已经产生了对ICR的需要,旨在确定数据源对哪个研究问题可能有用而不是对一个给定的研究问题评估数据是否有用。LIS作为一门学科最适合这个角色,因为ICR最容易被定义在它的学科界限。此外,其计算能力结合接触一系列的社会科学和人文科学领域能够提供许多情报科学家必要的技能。即使对ICR上述论点在LIS被接受,但这并不意味着它将在国际上扮演角色。这取决于各种因素包括可用性,性能和足够的情报科学家们发挥信息枢纽的作用的意愿,也许扩展图书馆范式去激活ICR。

       总之,ICR作为LIS新兴方法论的提出,势必会影响LIS研究范式的转换,应该引起广大学者的持续关注和思考,对该方法论进行深入研究及应用可以作为解决大数据问题的一个有效途径。

       收稿日期:2014-12-19 修回日期:2015-01-23

标签:;  ;  ;  ;  ;  ;  

大数据时代情报学研究范式的转变_大数据论文
下载Doc文档

猜你喜欢