情报分析中大数据分析技术与框架研究
文/袁晓芳
摘要: 结合当前大数据技术的发展现状,深入分析了各国在运用大数据获取情报所采用的技术和经验。并结合情报获取的特点,提出基于大数据分析技术的情报获取、情报分析和情报传播的分析框架,对该框架中涉及到的关键技术进行了分析和讨论。
关键词: 情报;大数据;数据分析;信息化;分析框架
0 引言
随着我国信息化建设的飞速发展,军事信息化建设进程也集中了最先进的技术和高端人才,因此各个组织和部门,可以比以往更轻易地获得大量情报数据,直接导致“数据超载”的现象发生。对任何一个国家来说,情报数据的处理和分析都是一项迫在眉睫的任务。此外,情报数据包罗万象,数据结构迥异,内容碎片化严重,虚实结合,真假难辨,虽然数据总量巨大,但却出现了知识和情报量短缺的情况。因此,情报大数据的有效获取、分析、存储和运用,在当代国际形势和地缘政治中具有不可替代的作用,也成为当前各国面临的巨大挑战。各国只有充分利用现有资源,集中优势力量努力攻关,提高大数据利用率和使用水平,才有可能在大数据情报挖掘这场战役中获得先机。
军事情报分析是指军事情报机构和人员对搜集和侦察得到的情报材料进行整理、鉴别、综合和研判的过程,目的是最大限度地揭示情报的价值,为战略决策和作战指挥提供准确可靠的信息保障。现代军事情报分析系统旨在实现情报分析处理过程的自动化操作,为情报机构和人员提供按照作战需求对各种来源和类型的情报数据进行整编、分析和综合、挖掘和提炼高价值情报信息的工具和手段。典型的军事情报分析处理过程如图1所示。
所谓风险决策,又可称为冒险决策,主要是指由于缺乏足够的信息,判断可能失误而需要承担一定风险的决策。[11]在实际决策过程中,绝大多数的决策都属于一种风险决策,特别是在侦查决策过程中,其风险因素更不同于一般决策。
图1 军事情报处理流程图
1 发展现状
1.1 国际形势
2012年,美国政府发布《大数据研发倡议》,将对数据的占有和控制作为陆权、海权、空权、天权之外的另一种国家核心能力。2013年的“棱镜门”事件,也展现了美国情报部门在大数据采集、处理、分析和应用技术上远远领先于世界其他各国。
中外合作办学项目的学生不仅要娴熟地掌握各项语言技能,而且要具有跨文化交际的能力和敏感性,项目内学生需要深入了解本国文化和国外文化,要进行文化比较,还要借此形成中华民族文化的自觉、自信与自强观念,在吸收国外优秀文化、培养国际视野的同时,能够有效地展示、输出中华民族的灿烂文化。因此,应该为中外合作办学项目的学生开设跨文化沟通选修课程或专题讲座,为学生提供各种对国外学习有帮助的信息,大至整个国家的社会法制、风土人情;小到国外合作高校的规章制度、学术资源,使学生能够较为迅速、顺畅地融入国外阶段的学习。
随着来自移动设备、军事网络、互联网、传感器、日志文件和跨领域应用等实时数据的激增,大数据应用已经找到了一种向现代战争提供丰富多样的关键任务数据的方法。2013年,美国X-47B无人机通过对300余个传感器和上千次飞行获得的大数据进行分析,实现了无人机无人干预的情况执行侦察任务。
1.2 大数据处理技术发展现状
图2 军事情报处理技术分类
军事领域是新技术的试金石。大数据处理技术在军事情报收集和处理方面已经得到大规模应用,并形成了相对完善的理论和技术体系,主要分为3大类:以storm为代表的流处理技术,以spark通用计算引擎为代表的内存计算技术,以及以hadoop为代表的大规模分布式计算技术,如图2所示。
1.3 数据转换的基本结构
从数据到情报的金字塔体系结构如图3所示(自下而上)。
(1)无论溶洞存在与否,管片在自重应力作用下的应力分布以及管片在列车动载作用下的应力增量分布都无明显变化。但溶洞存在时,管片的应力响应会有所增加。
军事情报获取手段和数据源多种多样,从陆海空天到各类传感器采集设备,要想获得有价值的信息情报,需要对海量异构数据进行预处理,包括数据清洗、比对、转化,形成有意义的军事情报信息,这些信息呈现了军事态势变化的状态。同时,对信息的深度加工、分析、提取和评价,从海量信息中抽取出有用的知识,反映军事情报信息变化的规律和状态。然而,只有知识还无法满足战场和战势分析要求,还要形成可对敌我双方状态评价的情报,即激活和活化的知识,用于反映军事人员、指挥人员、作战人员运用获取的知识解决军事领域实际问题的情况。
日本雕塑家新宫(SusumuShingu)是一位自上世纪70年代以来一直活跃在动态雕 塑领域的艺术家,他的作品大都从大自然中来。他是一位仍然坚持用最简单、 原始的一套动态艺术原理制作动态雕塑的艺术家。并且,与考尔德雕塑的强大自然动力形式不同的是新宫晋的动态雕塑中所体现出的“自然哲思”(见图6)。
图3 信息处理的金字塔结构
2 情报大数据信息分析方法
2.1 计量分析方法
计量分析方法广泛采用了统计排序、数量分布统计、增量分析、老化分析、生命周期分析等方法。将统计学理论和军事情报相结合,同时还考虑到不同情境中的随机因素,因此可以获得具有概率属性的情报分析结果。
2.2 聚类分析方法
单一数据源获得的信息往往无法满足情报分析和决策支持的需求,军事情报信息获取途径迥异、数据类型各不相同、数据表现形式多种多样、信息之间的关系错综复杂。因此,需要对多源异构信息进行分析、优化,即进行基于语义层面的数据融合。
2.3 路径分析法
军事情报的采集和处理过程一般在专用网络和专用设备中,因此会有较完整的服务器日志、审计日志等;如果是基于Web的信息采集,则会有操作的Web服务器日志。通过路径分析法中的技术路线图方法、空白点分析方法、未来技术机会分析方法,可以完成挖掘用户访问资源的次数分析和频繁访问路径等信息,提供情报使用属性的分析服务。
2.4 关联分析法
民国元年(1912年),袁世凯就任民国大总统,下帖请李瑞东赴京担任其拱卫军武术总教长一职。同年,李瑞东与盟兄弟李存义、张兆东等人创中华武士会,李瑞东发挥了他小孟尝的本色,出资不少,并在武士会成立后担任名誉总教习。
2.5 共现分析方法
共现分析方法是关联分析法的延展,可分为共词分析、共句分析、合著分析、共引分析、共被引分析等,将采集获得的数据进行清洗和比对后,提取其语义特征、结构和半结构化的作者、关键词等信息,用于揭示跨文本之间的关联关系和隐含情报。
2.6 奇异值分析方法
3.2.2 数据清洗
3 情报信息的大数据分析框架
3.1 情报信息采集与获取
在大数据背景下,公开信息、非公开的隐私信息及各类灰色信息源越来越多样化,这是对军事情报收集与分析的巨大考验,特别是当今国际形势风云变幻,考验了情报部门对外部环境的敏感应变能力。从情报信息采集和获取的角度,主要需要以下3个方面的能力。
综上所述,苏轼与王安石之争,恰是王安石的“国本主义”与苏轼是一位“民本主义”的分歧所在。显然,这种思想认识上的分歧是无法调和的。而他在《上神宗书》中的冒死相争就成为一种必然。
走过小桥,穿过公路,穿过绿地,看着他们三人身手矫健地翻越铁栅栏,特别是泰森,黑熊一样笨重的身躯翻越栅栏时像山羊一样轻捷灵敏。进院子后,他们在一楼的大门口鼓捣了一会儿,门便悄无声息的打开了。看着他们幽灵一般鱼贯而入,门悄无声息的掩上,我突然有了决定——赶快跑!
3.1.1 情报检索
对军事情报而言,关联分析法综合了关联规则挖掘方法、链接方法,以及非相关文献知识发现方法,可以将多源异构数据按照关联规则进行跨域关联。再通过聚类分析、路径分析等方法,对情报进行发掘。实践证明,关联分析法综合考虑多种关联因素,可以挖掘出单一数据源无法发现的情报信息。
军事情报检索不同于简单的文献查找或数据检索,通过手工检索、机械检索等方式检索到的信息,还需在原始情报信息的基础上对数据进行检索和挖掘,获得有用的军事情报。此外,在检索过程中需要有明确的检索目标,从而提取出原始数据中包含的有用情报。
3.1.2 情报下载
通过网络信息检索等方式获得的情报,往往信息密度较低,常常还包括在非授权状态下获取和下载情报信息。因此,能够访问、下载完整的原始情报信息,对军事情报的分析工作至关重要。
情报提取是指将原始数据进行清洗、比对、整合等操作后,通过数据挖掘等方法对数据进行分析。根据指挥、作战、决策等不同军事目的,从数据中获取有用的情报信息。情报信息的提取能力,往往会影响到各国之间军事政治力量的差距。
3.1.3 情报提取
3.2 情报信息分析与处理
3.2.1 数据融合
聚类分析方法包括分层聚类法、迭代聚类法、核聚类法、密度聚类法等,在信息检索、数据挖掘、数字图书馆等方面已经广泛应用,在现如今信息化情报战场上,必须对数据进行深加工、挖掘深层信息,并与已有的结构化数据融合,进而综合分析和预测敌我动向和形势。
将情报发现问题转化为数学的矩阵分解问题,常用的方法有孤立点分析法、噪声分析法、新颖性探测方法等。在处理图像情报过程中,通过计算和强令奇异值的值,对图像进行降噪。
情报数据融合后,会出现格式不一致、称谓不一致、语法不一致等现象;融合过程中,在关键数据中还会包含大量无效值、异常值和缺失值。因此,需要对数据进行一致性检查、处理数据缺失等问题。情报数据的清洗主要包括情报的完整性检查、情报关键信息的唯一性检查、情报来源的权威性检查和情报语义的合法性检查等。
3.2.3 情报分析
图4 深度学习框架示意图
传统的数据挖掘算法不论在处理海量数据的速度上,还是在挖掘信息的能力上都已明显无法满足当前战事分析的需要,当代军事情报分析需要从已有海量数据中,通过多层变换,通过不可分的高阶神经网络推导出能够支撑决策和作战指挥的结论。目前已有研究将深度学习的方法应用在军事决策等领域,如图4所示。
3.3 情报信息推送与服务
情报信息推送方式主要有消息、代理和频道3种。协同过滤技术是目前广泛采用的情报推送技术。通过存储推理的升级和变形,向用户推送表面上不相关的情报信息。这些情报信息可能是用户无法提前了解的,但却是用户感兴趣或与业务相关的,分析的情报信息是针对特定军事领域,具有较强的针对性。
协同过滤推送主要分为2部分:①离线加工部分,通过对系统日志进行处理,根据用户的特征描述进行相似性计算,获得推送基础数据;②根据离线加工结果和用户设定的情报描述目标,计算预期兴趣,把与用户最相关、最感兴趣的情报信息首先推送给用户。协同过滤推荐的推送服务体系结构如图5所示。
(1)底泥粘、粉、湿,在理化性质方面,底泥与粗颗粒的有机肥料有较强的互补性,可改善土壤结构、增加营养元素含量。
图5 军事情报协同过滤推荐体系结构图
4 总结与展望
随着信息化技术的发展,情报大数据工作也朝着多方向、深层次发展。首先,情报分析工作要进一步细分为适应不同兵种的情报采集和分析的工作流程;其次,单一的数据分析方法已经无法满足当代军事局势的变化,必须要建立新型的多种方法相结合的情报数据分析方法论;再次,随着数据格式的多样化,数据量成指数型增加,分析方法的体系性、逻辑性和技术性也需要不断提高;最后,基础数据的收集能力和底层资源的整合能力,也成为了军事情报分析中至关重要的因素。
随着计算机技术的发展和普及,军事情报不论从数量还是形式上都发生了极大的改变。按照军事活动的要求,需要对情报大数据进行收集、清洗、辨别、研究、分析和评判。好的情报大数据分析可以揭露看似无关的军事数据中隐藏的军事信息,会极大地影响敌我双方的局势。本文结合国际形势,分析了情报大数据的技术现状,解释了将原始数据转化为军事情报的信息链金字塔结构,介绍了在情报大数据分析中常见的若干种分析方法,提出了情报大数据工作的基本框架,包括情报信息的采集与获取、情报信息的分析与处理和情报信息的推送与服务,在该框架的约束下可以顺利地完成情报工作。
参考文献
[1]李茂田,赵童.大数据技术及其军事应用[J].中国新通信,2016,18(12):93.
[2]吴雪玲,刘溪,董捷,等.大数据对军事情报的影响及应对策略[J].科技风,2018(6):206.
[3]李崇东.大数据对军事决策的影响及对策探析[J].决策与信息,2016(2):107-108.
[4]郭继光,黄胜.基于大数据的军事情报分析与服务系统架构研究[J].中国电子科学研究院学报,2017,12(4):389-393.
[5]周晓英,刘莎,冯向梅.大数据的影响与情报学的应对策略——从BD2K项目分析情报学的大数据应对策略[J].图书与情报,2017(2):55-62.
文章编号: 2096-4137(2019)17-096-04
DOI: 10.13535/j.cnki.10-1507/n.2019.17.12
(作者供职于91054部队)