大数据背景下的信息分析_大数据论文

大数据背景下的信息分析_大数据论文

大数据背景下的情报分析,本文主要内容关键词为:情报论文,数据论文,背景下论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      修回日期:2014-12-01

      0 引言

      在大数据背景下,新技术能够帮助收集人们生活中产生的各类数据,存储技术的发展和存储设备成本的降低使得对大规模数据的保存更易于实现。但随着数据分秒间的不断积累、数据规模的几何增长,人们越来越意识到:组织中的数据已多到无法有效利用,如果不能从这些海量数据中获益,数据的存储也将变得没有任何意义。MIT和IBM曾联合对全球100多个国家的30多个行业近3 000位主管、经理和分析师展开调查[1],结果显示:表现好的机构比表现差的机构要多出5倍的数据分析工作(analytics),“分析产生价值”成为普遍共识,一半的受访者表示优化数据分析工作是其组织的首要任务。由此可见,在大数据时代,数据和信息的分析被提升到前所未有的高度,情报研究和情报分析工作迎来了重要的发展契机。本文旨在总结大数据环境下情报分析面临的新环境,探讨情报分析的发展趋势以及在新环境下需要注意的问题,以期为我国情报分析理论与实践的发展尽绵薄之力。

      1 大数据环境下情报分析面临的新环境

      Hsinchun Chen等人提出:大数据分析为情报分析提供了新的研究方向[2]。笔者将情报分析面临的新环境总结为以下4个方面:数据流分析备受关注;信息粒度更为细小;情报问题动态复杂;分析技术丰富多样。

      1.1 数据流分析备受关注 数据流主要来自于各种感应器或记录设备,如RFID、网站点击量、网络日志、社交媒体、视频、邮件等。数据以“流”的形式产生和传递,这明显区别于传统结构化数据在数据库中的存在形式。对数据流进行分析首先是一种必要的数据管理手段,将实时大量生成的数据整理转化为对目标当前情况的描述,其更重要的价值在于对目标的未来环境进行预测,分析可能出现的问题、机会或事件发展趋势,帮助人们实时决策、快速反应、及时采取措施追求利益最大化或将损失降至最低。

      许多讨论大数据的文献都会涉及数据流实时分析[2-3,12],这是一组共现率较高的关键词。如何快速响应环境需求和变化、如何高效地从实时产生的海量数据中挖掘蕴含的巨大价值是摆在管理者,尤其是商业领域管理者面前的重大挑战。英特尔、SAP、IBM、Teradata等IT巨头给出破题关键,就是构建大数据实时分析平台。虽然数据流实时分析是大数据分析的一大难题,但它携带的巨大价值是推动研究和实践进程的强大驱动力。

      1.2 信息粒度更为细小 美国数学家Zadeh首次提出模糊信息粒化理论,明确人类认知的三个基本概念[4]:粒化、组织和因果,粒化是指将整体分解为部分;1985年,Hobbs提出一种粒度理论,指出在人工智能中将一个表示待求解问题的逻辑公式用粒度理论方法分解成若干个小问题或子公式,并分别对这些小问题或子公式求解,最后得到问题的整体求解[5]。基于以上认知,大数据信息粒度越小,表示细节信息越多、信息内容越具体详细。

      在大数据的环境下,数据来源和数据类型呈现前所未有的多元化。综合来自不同数据源(尤其是来自微博、社交媒体、搜索引擎的数据)、不同类型的数据,就像通过显微镜从更细微的视角观察和认知目标。Google对流感的预测正是综合利用了全球用户的检索内容所提供的大量具体的细节信息,针对特定国家/地区(local level)解释流感的流行趋势[6]。

      1.3 情报问题动态复杂 情报问题变得动态、复杂是由很多因素导致的。首先,情报需求不再专属于政治和军事领域,也不再局限于科研和商业机构,情报需求主体的丰富使得情报问题变得复杂多样,涉及的要素更为多元、更为细化。

      其次,全球气候的变化较过去更为频繁[7],各种人为因素导致的环境事件、极端天气变化等造成的损失可能会波及较大范围,甚至是全球经济和社会的正常运行。这主要是由于国家、地区、组织机构和人群之间的联系增多,关系更为密切,人、商品和数据之间的流动速度更快、交流更频率,诸多事件背后都隐藏着更深层的关联,信息环境瞬息万变,蝴蝶效应表现得更为明显。

      另外,网络、通讯和计算机技术的高速发展和技术环境的多变,部分机构和个人借此契机具备了操纵数据产生和传播过程的能力,这都使得当今情报问题呈现出前所未有的复杂性和动态性。决策难度加大,对人们的数据综合处理能力(curation)、信息鉴别和情报分析能力都提出更高的要求。

      1.4 分析技术丰富多样 数据量大(volume)、类型多样(variety)、增长速度快(velocity)是大数据的典型特征。通过有效的分析,精准地支持决策、准确地预测未来才能体现大数据的价值。而要对大规模的、多元的数据集进行处理和分析,必然会带动数据获取、存储、整合、分析、管理等相关技术的发展,已有的适用技术或迎合大数据分析需求产生的新技术得到重视和应用。

      因此,大数据背景下,对技术和工具的关注和热议成为不可能避免的必然现象,国外有很多报告专门针对大数据的相关技术展开调查研究。美国McKinsey Global Institute在2011年5月发布了研究报告[8],在报告的第二部分中讨论了大数据技术,分别就大数据分析技术、大数据技术和可视化三方面进行了阐述,其中针对大数据分析技术就列举出26项。在TDWI与IBM公司2011年针对大数据分析技术和工具联合发起的一项调查中[9],也列举出33项分析技术和工具。面对如此繁荣的技术景象,“如何选择适合的技术和工具来完成自己的数据处理和分析任务”成为许多有大数据处理和分析需求的机构和个人的一大困惑。

      2 大数据环境下情报分析的发展趋势

      在科学研究领域,研究人员会持续不断地从过去的研究实践中进行经验总结,分析新的工作环境,探索未来发展方向。在大数据背景下,各领域都在不同层面上关注大数据带来的影响,探讨本领域如何利用大数据提供的契机,谋求本领域在研究和实践方面的创新和突破,参与并推动社会和科学发展进程。笔者在前人研究成果基础上,将大数据环境下情报分析的发展趋势总结为以下三点:注重情境研究,开展协同分析,实时数据分析与预测。

      2.1 注重情境研究 当今世界网络化的复杂关联要求将情报问题置于充分的情境环境中进行分析,以保证情报分析过程更严谨,分析结论更准确。在对情报分析失误教训的反思和总结中,情境的作用被突显出来,成为避免情报分析失误必须要考虑的重要因素。英国莱斯特大学Mark Phythian教授在Intelligence Analysis Today And Tomorrow[10]报告中指出,充分的情境信息非常重要,忽略战略环境、领导风格和心理因素等大范围问题的分析会导致情报失误。

      为保证情境能够成为提高情报分析质量的有效支撑,情境信息首先要尽可能全面。这就非常有必要借助领域专家提供情境知识,专家所掌握的专业背景知识是构建情境的重要资源。Silberman-Robb指出[11],由专业知识丰富的专家完成的、细致的策略分析是不可替代的。这其中还包含着更深层面的含义,即全面收集情境信息仅仅是第一步,还需要对情境信息进行正确的解读。Silberman-Robb同时强调,必须认真思考如何培养深入了解目标情境的分析骨干,忽视这一问题会严重削弱国家在21世纪新的情报挑战面前的反应能力。

      当构建问题的情境时,要考虑从横纵两个维度进行。横向维度是根据问题在本领域所处层级的具体情况进行情境梳理,因为同一问题在不同国家、不同地区、不同组织中可能有不同的解决方案,相应的方法策略和技术的适应性也因层级的不同而有差别,甚至会遭遇排斥;纵向则是从时间维度构建目标的历史情境,对于时间维度上重要历史节点,要理清所涉及组织和个人的来龙去脉。

      在搜集问题情境信息时,需要注意:

      2.1.1 重视传统“小数据” 虽然大数据包含的意义和价值巨大,亦不能忽略原有结构化数据(存储在数据库中)和传统数据(来自于传统统计和调查)的作用。这些“小”数据虽然不及大数据那般提供丰富的海量信息,却包含大数据中不包含的价值信息,例如一些重要的历史情境信息也有很多是来自于数据库中的数据。在2012-2013年对美国的流感传播情况“过度预报”之后,Google高级软件工程师Christian Stefansen于2014年10月31日在Google官方博客中表示,Google将采用来自美国疾病控制及预防中心的数据来提升Google Flu Trends的准确性。

      2.1.2 加强信息和数据共享 政府、公司、科研机构都各自掌握着大量数据,若要构建针对一个问题接近完整的情境,就需要多部门、多机构之间的数据共享,这是保证目标全景被有效揭示的前提之一。政府的重视是实现数据共享最重要的推动力量,美国政府在这方面一直走在全球前列。奥巴马政府在2009年推出的Data.gov(http://www.data.gov/)是其最重要的数据开放平台,截至2014年11月,Data.gov共开放132445项数据,覆盖50多个大类,另外,data.gov还发布了政府API索引,对data.gov实行了开源,鼓励美国公众甚至其他国家积极参与到数据开放共享过程。

      2.1.3 排除数据间的虚假关联 当前全球各领域、各层面都存在紧密联系,一件事情的发生可能与两三件事甚至更多件事都有关联。但是仅发现关联并不够,而是要从数据关联中推导出深层的因果关系。比如一个在全球拥有众多粉丝的明星在其微博上发表了一则关于自己得了流感的消息,这条微博在短时间内被粉丝大范围转发,但这并不代表流感的爆发,在这种情况下,仅凭微博数据就不能作为预测或决策的依据。另外,全球间文化差异很大,这也会反映在数字世界中,有些异常在另一个国家、地区或组织中却属于正常状态。首先要根据目标的情境对“异常”进行准确定义[12],才能确保所发现的数据异常确属异常。

      2.2 开展协同分析 协同分析必然会成为大数据时代情报分析的一大发展趋势。数据类型多种多样且数量庞大,结构化、半结构化和非结构化数据混杂其中,靠单一机构或个人能力很难完成对大数据的收集处理工作。同时,由于情报问题趋向复杂化,在解决这类情报问题时就非常需要信息数据的共享、工具技术的整合和人员的跨界合作。基于协同理论[13],笔者将协同分析理解为:基于大数据分析需求,企业、政府、学术机构等为了完成复杂条件下重要情报分析任务而开展的以跨界合作为主要形式的情报分析模式。协同分析整合了数据、人员和技术资源,使参与分析过程的组织发挥各自的能力,实现优势协同互补,这亦符合当今科技创新范式[14]的发展趋势。

      基于大数据背景的协同分析涉及以下几方面内容:

      2.2.1 信息和数据共享 来自组织内部的需求带动了对外部数据有意识的引进。以追求数据所带来的价值为驱动[15],在保护隐私、保护数据安全的前提下,数据可实现在不同组织间自由的流动,由此形成整个社会的数据基础设施。美国防务系统网站2014年8月22日消息称,为提高效率、节省费用、促进整合、共享和安全,中央情报局将与亚马逊网页服务公司合作,将美国情报系统从以机构为中心的信息技术模式转向基于云计算的共享服务模式,集中各机构的数据、采用通用的桌面和标准化的数据访问和分析工具,由此转变17个情报机构多年来采用的烟囱式的、独享信息的工作方式。

      2.2.2 综合运用多种类型数据源、方法、技术和工具 情报问题的复杂化需要多种类型数据源从不同层面和视角对目标进行全面揭示,而各学科领域方法的交叉运用和相互借鉴也越来越广泛地体现在科学研究过程中。同时,技术和工具的整合也成为分析处理大规模、多类型数据集的必然要求。IT行业的领军企业如EMC、惠普、IBM、微软等率先感知这一趋势,纷纷通过收购大数据技术企业的方式实现技术整合。在未来,综合运用多种方法、技术和工具开展多种类型数据源分析的特征在大数据环境下会越来越明显。

      2.2.3 跨领域合作 基于开放创新模式理念[16],跨领域合作首先意味着理念的开放,即参与协同分析任务的主体要主动模糊内部和外部的边界,贡献内部的数据、人员和技术优势,同时从外部获得自身可利用的资源。基于共享数据搭建的协同分析资源技术平台,各主体间以协调、互惠为前提开展领域间互动合作,共同致力于任务的完成,并实现自身与其他主体的资源优化和价值增长。为推动大数据研究进程,美国政府及各机构积极采取措施开展多种跨领域合作。继2013年3月公布“大数据研发计划”,联合6大部门合作开展大数据研究后,美国政府于2013年11月中旬发布大量新的大数据合作项目,分别针对医疗研究、地理情报、经济和语言学等多个领域,刺激私营领域与公共事业部门的跨界合作。

      协同涉及知识、资源、行为、绩效的全面整合[17],协同分析的实现有赖于自上而下机制引导,自下而上利益需求推动来合力促成。这里涉及两个保障性问题:协同机制的建立和协同分析平台的创建,这是两项系统性的工程,需要较长的周期来积累和完善。仅就目前的情况判断,由于协同分析工作成本较高,涉及多领域多机构的参与,因此更适合用于解决战略性情报问题。

      2.3 实时数据分析与预测 战略管理大师亨利·明茨伯格指出,战略具有深思熟虑(deliberate)和动态应急(emergent)两个特征[18],这也正是情报分析要完成的两类情报任务。在传统情报分析环境中,提供准确可靠的决策参考要以充足的分析时间为前提。在大数据背景下,对情报分析的需求不再单一趋向其中的某一特征,而是要求同时满足上述两点,既要求分析的准确可靠,又对时效性提出更高要求,这与实时数据在支持短期决策方面所具有的较高价值相契合。另外,在当今技术环境下,一个公司日常运作所产生的各类数据都会达到TB级。随着数据体积越来越大,实时分析处理成为许多机构在数据管理方面首要面对的挑战。笔者总结了实时数据分析与预测涉及到的三方面问题:

      2.3.1 通用的大数据实时处理技术平台 虽然对实时数据进行处理和实现实时预测并非易事,但实践探索一直在进行。Twitter开发了开源实时分析计算工具Storm,英特尔公司与大数据实时分析处理领先企业SAP共同打造大数据实时分析平台,百度、阿里巴巴、中国电信等公司与大型企业和机构都致力于大数据的实时分析和处理研究[19]。根据本机构所在的领域特性,提出大数据存储与实时分析的方法和技术,并开发和搭建具备相应功能的大数据处理工具和平台。但目前,还没有一种通用的解决方案能够用于搭建一个大数据的实时分析平台,在协同分析的未来发展趋势面前,大数据实时分析过程必然涉及多技术的协同工作[20],搭建通用的大数据实时处理技术平台是大势所趋。

      2.3.2 数据筛选标准和实时决策类型指标 实时数据主要有三种来源:事件数据,指呈现事件全景要素的相关数据;空间数据,指来自GPS的输出数据;机器产生的数据,指来处于感应器、RFID芯片、机器人和各种设备收集和产生的数据[9]。对实时数据进行分析的前提是要建立数据筛选机制,主要是由技术工具过滤掉大量无用数据,完成有效数据的筛选,旨在避免无用数据过多,噪声过大而影响对真正目标的发现。Mike Barlow在其编写的《实时大数据分析:新兴架构》(Real-Time Big Data Analytics:Emerging Architecture)白皮书中指出,数据科学向下一个逻辑前沿——决策科学的转移,是大数据领域的新兴趋势。数据的收集最终还是要指向决策功能的实现。实时决策类型指标体系应至少包括实时数据监测指标、决策类型指标以及两类指标间的映射关系。指标体系用于指导当监测到的实时数据达到某一种指标的范围时,需要相应作出相应类型的实时预警或决策。

      2.3.3 根据情报问题的特性,选择适合的大数据实时分析处理模式。大数据处理模式主要可分为流处理模式和批处理模式[21]。两类处理模式均可用于对实时数据的处理,区别在于对数据时效性的界定存在差异:流处理模式以秒为单位度量数据时效性,实时性是这一类处理模式最重要的衡量标准,致力于对最新数据进行直接处理;而批处理模式的实时性不及流处理模式,是以小时甚至天为单位度量数据时效性,对最新数据采集后先行存储再行分析。不同处理模式需要采用不同的大数据处理方法和平台作为支持,需要根据情报问题对实时性的具体要求来合理选择对应的大数据处理模式[20]。

      3 大数据环境下情报分析需要注意的问题

      3.1 大数据的陷阱 大数据的真正意义在于对其进行分析之后产生的价值。因此,数据的可靠和准确是实现价值的关键因素。但“成也萧何,败也萧何”,大数据在提供价值线索的同时也会因数量庞大而带来有效数据筛选和鉴别的困难,从而遭遇大数据陷阱。文献[12]中提到如下几种现实可能性:人们可能会故意发布虚假错误的信息;人们真正的意图可能会被自己错误的表达;即便人们真实准确表达了自己的意图,也不代表会付诸行动;数据间会呈现虚假关联,而这些关联在事实上根本不存在因果关系。若仅专注于数据表面关联而不考虑其深层次的动力学原理,决策就有可能被误导。同时该文献还提出可参考的解决办法:如采用回归分析方法、关注理论和情景、充分认识数据的局限、了解数据产生和改变的深层次原理等等,以确保研究观察到的数据可靠有效。

      3.2 待构建的指标 分析技术和工具不应成为情报分析的主角,技术、工具都只是完成数据收集、筛选、鉴别的辅助手段,人仍然是情报分析任务的主要完成者。数据来源和数据内容的可靠性研判、情报问题相关情境的有效构建、决策模式的建立和选择等仍然要基于分析人员的主观判断。指标体系的建立能有效降低因分析人员的主观偏颇所导致的分析失误,这也是在笔者在上文中多处涉及的观点。除已述的数据筛选标准和实时决策类型指标,至少还需要建立一个简单的数据指标集,帮助分析人员考量数据可靠性。其中的指标可包括:数据中包含信息的类型、数据提供者(观察者和报告者)、数据的渠道(来源和传送)、数据的数量、数据的时空维度等[12]。由此,方便在数据获得后对数据进行过滤、概括和分类等准备工作。

      4 结语

      大数据的影响已渗透到各领域,并且正在深刻改变着人们的生产和生活模式。在商业、公共卫生领域中,大数据分析带来的价值已初步显现,未来的决策将更多地基于数据分析。这为情报分析理论与实践的发展带来了新的挑战,更提供了重要的发展契机。本文分析了大数据背景下情报分析的发展趋势,旨在拓展新环境下情报分析和研究工作的创新思路,其中,如何完成情报协同分析、提高和评价情报分析有效性等问题有待进一步做深入的研究。

标签:;  ;  ;  

大数据背景下的信息分析_大数据论文
下载Doc文档

猜你喜欢