大数据分析与情报分析关系辨析,本文主要内容关键词为:大数论文,情报论文,据分析论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2014-07-05 0 引言 大数据分析(Big Data Analytics,BDA)是大数据理念与方法的核心,是指对海量、类型多样、增长快速且内容真实的数据(即大数据)进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程[1]。包括大数据分析在内的大数据理念和方法已经引起了图书情报界的密切关注[2-7],成为情报学的热点话题之一,2014年公布的国家社会科学基金项目名单中[8],关于大数据的项目就有18个,在图书馆、情报与文献学领域占13.7%,超过了其他任何选题。目前,比较主流的观点是大数据和大数据分析为情报学的发展带来了巨大的机遇,认为大数据对情报学的影响是多方面的,其中最直接的影响是情报分析,有关“大数据时代的情报分析……”、“大数据环境下的竞争情报分析……”之类的论文、项目越来越多,这些都反映了学界和业界对大数据分析的重视程度,值得肯定。 应该注意,情报学与情报分析早在20世纪50年代就已经存在了,而大数据及大数据分析则是近年来才出现的概念,两者各有特点,情报分析的发展有必要从大数据中汲取营养,但不是简单地套用大数据与大数据分析的概念。因此,需要分析大数据这一新思想、新理念、新方法、新技术与情报学的关系,特别是大数据分析在情报领域的适应性问题。包括:大数据分析与情报分析究竟有何共性,又有哪些不同;大数据的思想理念、方法技术在引入情报学后会带来哪些影响,又有哪些适应性问题需要改造。弄清楚这些问题,才能真正有针对性地助力情报学和情报分析的快速发展。 为此,本文对大数据分析与情报分析的共性和差异性进行讨论。通过比较找出两者的相同点,引入大数据分析的优势,强化情报分析。也通过比较找到两者的差异,明确情报分析的特色,从而借鉴大数据的思想,深入研究并充分发挥情报分析的优势,指导研究工作通过“差异化”的战略构建情报分析的理论及方法体系(或者叫范式),同时,也有助于避免在研究过程中,一味强调大数据带来的影响,导致情报分析学科的“泛大数据化”。 1 大数据分析与情报分析的共性 情报分析亦称信息分析或情报研究,是根据社会用户的特定需求,以现代信息技术和软科学研究方法为主要手段,以社会信息的采集、选择、评价、分析和综合等系列化加工为基本过程,形成新的、增值的情报产品,为不同层次科学决策服务的社会化智能活动[9]。与本文前面提到的大数据分析概念做对比,可以看出,大数据分析与情报分析都是以信息和数据作为基础资源及研究对象,并对信息和数据进行有效组织管理、分析挖掘,从而为用户提供相关服务的过程。由此可见,大数据分析与情报分析有着天然的联系,两者的共性主要表现在三个方面:看重对数据的定量分析,关注多源数据融合,强调相关性分析。 1.1 看重对数据的定量分析 数据作为重要的资产已经在改变着组织决策的模式。有效收集并分析各种规模的大数据资源,运用多种方法充分挖掘数据的最大价值,已经成为衡量一个组织竞争能力的重要标志。人们已经充分认识到,随着大数据研究的深入,各种组织能够以合理的投入充分发掘大数据所带来的情报价值,为组织全面深入地洞察态势提供支持[10]。Science杂志在2011年《聚焦数据管理》的专辑中提出,“科学就是数据,数据就是科学”,“数据是金矿”,“数据推动着科学的发展”[11]。“从大数据中发掘大洞察”等理念意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代[2]。 大数据的基础在于数据,大数据的特点在于数据体量巨大,数据类型繁多,数据价值密度较低,处理速度较快。淘宝网站每天的交易达数千万,数据产生量超过50TB。百度公司每天大约要处理60亿次搜索请求,数据量达几十PB。一个8Mbps的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB[12]。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业,每天也都在创造着大量的数据。根据麦肯锡全球研究院(MGI)预测,到2020年,全球数据使用量预计达到35ZB[13]。如何处理超大规模的网络数据、移动数据、射频采集数据、社会计算数据,已经成为科研界和产业界亟待解决的关键问题,也是大数据要解决的核心问题。大数据分析的任务是对数据去冗分类,去粗取精,从数据中挖掘出有价值的信息与知识,要把大数据通过定量分析变成小数据[14]。定量分析方法包括聚类分析、关联规则挖掘、时间序列分析、社会网络分析、路径分析、预测分析等[15]。 情报分析也十分重视数据基础。早期的情报分析强调分析人员的专业背景和经验,更多地依靠人的智力去解读特定的、少量的数据对象,通过人的分析、归纳和推理得出情报研究的结论。随着科学技术的迅猛发展,学科专业呈现出综合和分化的趋势,综合的趋势要求情报分析人员具备跨学科的知识,分化的趋势表现在知识分支划分越来越细,所涉及的内容越来越专深。与此同时,情报分析面临的数据量也越来越大,根据国家统计年鉴的数据,我国每年发表的科技论文已超过150万篇,专利年度申请受理量超过200万条[16],全世界每年的科技文献数以千万计。其他诸如会议文献、科技报告、技术标准等科技文献的增长速度也是非常迅猛的。在这种情况下,仅靠人力本身已经无法胜任情报分析工作了。情报分析越来越多地依赖以计算机为代表的信息技术,利用数据挖掘、机器学习、统计分析等方法,运用关键词词频、词汇共现、文献计量等定量化手段,通过计算或者在计算的基础上辅以人工判断形成分析结论。目前,“用数据说话”已经成为情报分析的突出特点,在情报报告中越来越多地使用数据图表也充分说明了数据定量分析在情报分析领域的重要程度。 1.2 关注多源数据融合 把通过不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、面向多种应用的数据集合,这一过程称为多源数据融合。如何加工、协同利用多源信息,并使不同形式的信息相互补充,以获得对同一事物或目标更客观、更本质的认识,是多源数据融合要解决的问题。一方面,描述同一主题的数据由不同用户、不同网站、不同来源渠道产生。另一方面,数据有多种不同呈现形式,如音频、视频、图片、文本等,有结构化的,也有半结构化,还有非结构化的,这导致现在的数据格式呈现明显的异构性。 大数据的特点之一是数据类型繁多,结构各异。电子邮件、访问日志、交易记录、社交网络、即时消息、视频、照片、语音等,是大数据的常见形态,这些数据从不同视角反映人物、事件或活动的相关信息,把这些数据融合汇聚在一起进行相关分析,可以更全面地揭示事物联系,挖掘新的模式与关系,从而为市场的开拓、商业模式的制定、竞争机会的选择提供有力的数据支撑与决策参考。例如,通过搜索引擎的检索日志可以获取用户关注信息的兴趣点,通过亚马逊、淘宝网可以获取用户的电子交易记录,通过Facebook、QQ等社交网站可以了解用户的人际网络与活动动态,把这些信息融合到一起,可以较为全面地认识并掌握某个用户的信息行为特征。可以这么说,多源数据融合是大数据分析的固有特征。 当前,情报分析工作正在向社会管理、工商企业等各行各业渗透,情报分析与研究的问题往往更为综合,涉及要素更为多元,同时也更为细化,这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充[2]。同一种类型的信息可能分布在不同的站点,由不同的数据商提供。例如,论文数据的来源包括万方数据、重庆维普、中国知网等。一项情报任务或前沿领域的研究,仅仅使用一种类型的数据是不全面的,如果把期刊论文、学位论文、图书、专利、项目、会议等信息收集起来,融合到一起,将更能说明某项研究的整体情况。另外,行业分析报告、竞争对手分析报告需要关注论坛、微博、领导讲话、招聘信息等各类信息,以全面掌控行业数据、产品信息、研发动态、市场前景等[17]。同一个事实或规律可以隐藏在不同的数据源中,不同的数据源揭示同一个事实或规律的不同侧面,这既为分析结论的交叉印证提供了契机,也要求分析者在分析研究过程中有意识地融合汇集各种类型的数据,从多源信息中发现有价值的知识与情报[2]。只有如此,才能真正提高情报分析的科学性和准确性,这不仅是对情报分析的要求,也是情报分析发展的必然趋势。 1.3 强调相关性分析 所谓“相关性”是指两个或者两个以上变量的取值之间存在某种规律性,当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值按某种规律在一定范围内变化,则认为前者与后者之间具有相关性,或者说两者是相关关系。需要注意的是,相关性(相关关系)与因果性(因果关系)是完全不同的两个概念,但常被混淆。例如,根据统计结果,可以说“吸烟的人群肺癌发病率比不吸烟的人群高几倍”,但不能得出“吸烟致癌”的逻辑结论。我国概率统计领域的奠基人之一陈希孺院士生前常用这个例子来说明相关性与因果性的区别。他说,假如有这样一种基因,它同时导致两件事情,一是使人喜欢抽烟,二是使这个人更容易得肺癌。这种假设也能解释上述统计结果,而在这种假设中,这个基因和肺癌就是因果关系,而吸烟和肺癌则是相关关系[12]。 大数据时代在数据处理理念上有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。在这三个理念中,重视相关性分析是大数据分析的一个突出特点。通过利用相关关系,我们能比以前更容易、更快捷、更清楚地分析事物。只要发现了两个事物或现象之间存在着显著的相关性,就可以利用这种相关性创造出直接的经济收益,而不必非要马上去弄清楚其中的原因。例如,沃尔玛超市通过销售数据中的同购买现象(相关性)发现了啤酒和尿布的关系、蛋挞和飓风的关系等。在大数据环境下,知道“是什么”就已经足够了,不必非要弄清楚“为什么”。典型的例子是,美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点,但并没有解释原因,对于想安全航海的航海家来说,“什么”和“哪里”比“为什么”更重要[18]。大数据的相关性分析将人们指向了比探讨因果关系更有前景的领域。这种分析理念决定了大数据所分析的是全部数据,通过对全部数据的分析就能够洞察细微数据之间的相关性,从而提供指向型的商业策略[18]。亚马逊的推荐系统就很好地利用了这一点,并取得了成功。 相关性原理也是情报学的基本原理之一,相关性分析也是情报实践的常用分析方法。任何一种情报结构都是按一定规则相互关联的,分析并揭示情报相互关联(即相关性)的规律和规则,是对信息、知识、情报进行有效组织检索与分析挖掘的基础[19]。检索任务与用户情境的相关性、检索结果的排序都是典型的相关性分析,共词分析、关联分析、链接分析也是典型的相关性分析,这体现了相关性分析在情报学学科发展中的地位。在实际的情报分析工作中,相关性分析应用更加广泛。不同文献类型之间的关联分析,不同机构之间的关系分析都属于相关性分析。例如:根据论文与专利的时间差,利用论文的热点预测专利技术的热点;根据论文的合著关系,分析企业、研究所、高校之间的合作关系等;根据企业的上下游企业或供销存关系,分析产业链,识别竞争对手等。这些案例实质上都是相关性分析的具体应用,在情报分析领域取得了非常好的效果,其中有些已经成为情报分析的专门方法。 1.4 共性中的细微差别 大数据分析与情报分析在数据的定量分析、多源数据融合、相关性分析上有着非常相似的特性,但这些相似性仍然存在着细微差别,这也体现了大数据分析与情报分析各自的独立性,说明不能将大数据分析与情报分析等同起来。 首先,就定量分析而言,大数据通常使用的是相关业务系统中已有的数据,例如系统用户的日志数据,商业系统中的销售数据,监控系统中的视频数据等,一般情况下,只要业务系统正常运转,这些数据就能直接为大数据分析所用。情报分析的数据则通常需要专门搜集与构建,再如,根据情报分析任务从检索系统中找出相关文献,并进行充分的加工与清洗,以确保数据的准确性与完备性。再如,为了正确区分数据中的人物,必须对人名进行规范化处理,如果对重要领导、高层次人才、恐怖分子等关键人物不进行重名区分的话,可能会得出非常可怕的分析结果。 其次,尽管大数据分析与情报分析都强调多源数据融合,但由于大数据分析的目标是发现数据之间有价值的相关性,所以,其重点放在数据类别与模式的挖掘与分析方面,对个别信息真伪并不是太关注。而情报分析在这方面则有所不同,在情报分析过程中,个别关键信息会对分析的结果或结论产生颠覆性的影响,因此,情报分析除了关注数据类别与模式之外,还特别要求关键信息准确无误,而确保信息准确无误的方法之一,就是使用多源数据交叉印证。所以,情报分析在多源数据融合方面更强调数据之间的相互补充与交叉印证,只有更全面的多源数据融合才能提供更客观、更准确的分析结果。 最后,在相关性分析方面,大数据分析与情报分析也有所不同。大数据分析更强调相关的现象,并不太关注相关背后的原因,从因果分析转向通过相关分析进行预测,是大数据的核心理念[18]。而情报分析除了非常注重相关分析之外,有时候还需要找出背后的原因,只有这样才能洞察事物的本质,摸清对方的战略意图,预测事情的发展态势。换句话说,对于大数据分析,找到相关性就够了,而情报分析除了发现相关性以外,还需要再深入一步。大数据分析强调大而广,情报分析强调精与深。另外,在相关性分析方面,情报分析除了注重事物之间的相关性之外,对于非相关也有一些妙用,例如,利用非相关文献进行知识发现,利用相关企业网站之间的非链接关系来识别竞争对手等。 2 大数据分析与情报分析的差异性 大数据分析与情报分析在数据的定量分析、多源数据融合、相关性分析方面有共通之处,但在数据对象、数据规模、分析时机、分析任务等方面则有明显的差异(见表1)。 2.1 数据对象有区别 情报分析与大数据分析的对象不同,数据的性质也存在差异。从实践上,无论是过去以定性分析为主的翻译、文摘、综述时代,还是现在以定量为主的动态监测快报、领域态势分析快报时代,情报分析都主要以文本文献作为数据的对象和基础,这些文本包括论文、专利、科技报告、政策文本、领导讲话等。正是因为主要对象为文本,而文本本身又具有语义关联,因此,情报分析的重要任务之一是找出这些文献中的语义关联。大数据分析则不同,其分析对象并不限于某种数据类型,从当前实际应用的成果来看,大数据分析通常以数值数据与结构化的短文本数据为主要对象,如销售数据、用户数据、传感器采集数据等。 2.2 数据规模有差异 大数据分析的对象是大数据,按照大数据的定义与基本特点,在PB以上级别的数据方称之为大数据。维基百科将大数据定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,也就是说用传统算法和数据库系统可以处理的海量数据不算“大数据”。另外,大数据分析强调分析全体数据,要全体不要抽样是大数据分析的一个重要特点。 情报分析在绝大多数情况下并不需要这么大量的数据,通常有海量数据就足够了。一方面,对于很多情报任务来说,获取与任务相关的全部数据,几乎是不可能的。例如,很多国家的一些高精尖设备的参数都是保密的,也就是说有些情报分析课题根本不可能获取全部数据,而且,有时情报任务的时效性也不允许搜集到全部的数据再进行分析。另一方面,即使拥有全部数据,情报分析也未必需要对全部数据进行分析,只需要分析关键数据或主导数据即可。例如,分析学科研究进展时只分析有代表性的核心期刊或权威期刊论文即可,对于政策的走向只分析主要领导者就可以说明问题,典型的案例是,美国兰德公司在进行朝鲜战争中国是否会出兵作战的分析时,就采用了人物传记的方法着重分析了相关领导人的性格特征[20]。 2.3 分析时机有差别 就分析的时机而言,分析可以分为历史分析和实时分析。历史分析是对历史数据进行分析,包括交互式历史分析和批处理历史分析两种方式。实时分析是对变化着的数据做实时分析,包括动态流分析、基于时间窗口的实时分析等[21]。大数据分析的提出,主要是为了满足数据大、数据类型广泛、数据处理速度快的要求。因而,实时分析是大数据分析的另一项突出特色,例如,通过搜索引擎的热点搜索或者社交网络中频繁关系等内容实时监测网民动态。当然,一些有特点的大数据分析系统,因为其应用场景不同,也会强调其历史分析能力。 与大数据分析不同,情报分析很少对历史分析与实时分析进行区分。情报分析虽然在动态跟踪时主要依赖于新的数据,但在规律总结与趋势分析时往往使用带有一定阶段性和滞后性的数据,即要分析一段时间内的数据。在情报分析报告或学术论文中经常看到“近十年”、“二十一世纪以来”等字样,如“CIA's Analysis of China from Nationalism to Mao(1948~1976)[22]”、“中美科技关系三十年——从冷战时期的科技外交到网络化世界中的伙伴关系”[23]、“英国情报学研究进展五十年”[24]、“国外信息行为研究十年:现状、热点与趋势”[25]等,这都体现了情报分析在分析时机方面与大数据分析的不同。 2.4 分析任务有不同 大数据分析的典型任务是通过相关性实现模式挖掘与预测分析。一般情况下,就模式挖掘而言,大数据分析强调发现事先不知道的新模式和未知的相关关系,这一点与情报分析有显著的差异。就预测分析而言,大数据分析主要包括趋势预测和缺失信息预测。趋势预测是指通过事物的一些基本属性信息和先前的态势分析,预测事物发展的轨迹和最终影响力。缺失信息预测是指对现有信息中缺失的信息项或者还没有出现的信息进行预测,也称预见。例如,通过一条信息早期在微博网络上的传播情况,来预测这条信息最终的影响力等。Google能够根据用户搜索日志预测到流感的爆发并能够找到传播的来源,Farecast系统能用接近十万亿条价格记录帮助消费者预测在哪个时段购买美国国内机票最实惠,准确度高达75%,平均可节省50美元[18]。 与大数据分析不同,情报分析的目的和任务通常情况下是明确的,要回答具体的问题,如“纳米技术的最新进展”,“土壤质量调查和监测系统建设的国际发展态势”,“发达国家社会保障体系的建设与运行特色及启示”,“当一个国家的国民收入达到6000美元时,其国家的社会经济实际发展状况该如何”,“到2020年,我国科技论文国际被引及发明专利年度授权量将排全球第几位”等。换句话说,在情报分析的开始阶段就已经知道了结果的模式。情报人员需要做的就是紧密围绕情报分析课题的需求,广泛搜集各类相关信息,运用多种工具与方法进行内容分析,监测其中的新现象、新情况、新异常,并根据蛛丝马迹发现其中的规律、本质、战略意图等,并将这些内容“填充”到情报分析结果的模式中,或按预定的模式组织所发现的内容,形成情报分析报告。 3 结语 通过以上分析,可以看出,大数据分析与情报分析有着天然的联系,两者既有共性,又存在着一定的差异。通过归纳大数据分析与情报分析的共性,可以更好地认识大数据给情报分析带来的机遇,借大数据的东风强化情报分析。但是,情报分析毕竟不同于大数据分析,情报分析在大数据环境下依然有自己的特色,其本质也与大数据分析有所不同,在数据对象与规模、分析时机与任务方面都有着诸多不同,应该充分认识这些不同,把情报分析的特色与优势发挥好,以迎接大数据带来的挑战。 作为一个新兴的理论和实践领域,大数据思想是对社会理念、用户需求以及技术手段发展水平的集中体现和综合反映,大数据思想不可避免地会对情报分析工作产生诸多影响,在大数据环境下,情报分析的技术体系、过程与方法都在发生着变化。如何在新的环境下发展与提升情报分析理论,如何构建适应时代特点的情报分析模型,以及如何集成情报分析技术与方法实现情报分析自动化等问题,值得我们进一步探讨。大数据分析与信息分析的关系分析_大数据论文
大数据分析与信息分析的关系分析_大数据论文
下载Doc文档