对恐怖袭击事件记录数据的量化分析与研究
王向爱1,庄元强2,谢为顿3,周金华4,王利平4
(1.湖南大学 工商管理学院,湖南 长沙 410082;2.湖南大学 机械与运载工程学院,湖南 长沙 410082;3.湖南大学 信息科学与工程学院,湖南 长沙 410082;4.湖南大学 数学与计量经济学院,湖南 长沙 410082)
摘 要 恐怖主义是人类的共同威胁,利用数据挖掘可以为反恐防恐提供有价值的信息支持.基于数据挖掘的思路,从恐怖袭击事件中提取能描述危险程度的特征属性,构建量化分级模型,并考虑准确率评价指标进行优化.通过组内平方和法分析改进高斯混合模型(GMM),对恐怖组织进行聚类分析,侦查出潜在最相关的嫌疑人.建立相关模型结合统计分析,得到恐怖袭击发生的主要原因、时空特性和蔓延特性,并对未来全球反恐态势进行预测,帮助反恐组织提高反恐的精准性和打击能力.
关键词 应用统计数学; 恐怖袭击事件; 数据挖掘; GMM聚类分析
1 引 言
恐怖袭击具有明显的破坏性和暴力型.极端组织及极端分子的恐怖袭击极大威胁了社会的正常发展和工作,同时对人民的生活和经济财产造成了损害,对社会和经济都产生了重大的影响.近几十年来,全球各个国家都已经遭遇过很多不同程度的恐怖主义袭击事件.比如,当时震惊世界的“911”事件,事件的爆发不仅给美国带来了惨重的人员伤亡和经济损失,而且对全球的影响也是巨大的.2014年发生在中国昆明火车站的恐怖袭击事件,都说明了恐怖袭击事件就在我们身边,我们必须提高反恐意识,从这些发生的恐怖袭击事件中总结经验,认真做好反恐准备工作.
自从“911”事件发生后,国内外学者极大的重视恐怖袭击事件的研究.王前钱和宋明爽(2017)[1]对近几十年来研究恐怖袭击事件的文献进行分析,发现研究恐怖袭击事件的文献可以从1986年开始,而且2001年是恐怖袭击事件文献显著增加的一个转折点,由此可见,“911”事件为所有人敲响了警钟.但是恐怖袭击活动依旧频频发生.反对恐怖主义是世界各国都必须承担的责任和使命,深入挖掘恐怖袭击事件的相关数据对人们认识恐怖主义有很大的帮助,同时也能有效帮助提高反恐防恐的效率和效益.因此,如何根据历史数据准确地预测出未来的恐怖袭击事件,并对反恐提供相应的建议成为亟需解决的问题.
第一次加工了500斤柚子皮,宋娟炒了一盘熟菜当样品,然后把柚子皮拉到城里的蔬菜批发市场,那些蔬菜商们开始都不太相信柚子皮也能炒成菜,但尝了几口宋娟带来的样品后,就都深信不疑了,他们纷纷和宋娟签下了收购柚子皮的订单,就这样,宋娟的柚子皮被一车一车地运往城里,成了饭店酒楼和普通市民餐桌上一道独特的农家小菜。
近年来,学者们越来越倾向于用大数据和统计分析的方法来研究恐怖袭击事件.例如,龚伟志等(2015)[2]针对传统算法在建立恐怖袭击风险预测模型时存在的缺陷,提出了大数据分析的模型,利用恐怖袭击事件的历史数据对未来进行预测,并做了仿真分析,大数据建模得出的结果具有比较高的准确率和效率.刘明辉(2018)[3]利用K-means聚类分析的方法,对1992年至2015年发生的民航系统恐怖袭击案件进行分析,预测2016年民航系统的恐怖袭击风险.结果发现,该方法能够智能地对统计数据进行分类,可以推广使用.另外,李永群等(2019)[4]利用数据挖掘的方法,分析了全球恐怖主义数据库中的数据,并对某些地区的反恐态势作出了预测,提出了相应的建议.目前,利用数据挖掘的方式进行恐怖袭击事件分析研究尚处于不成熟时期,大多数研究仅限对恐怖袭击事件的数据进行统计分析,还存在着巨大的潜在价值可被进一步挖掘.
本文基于美国马里兰大学搜集并构建的全球恐怖主义数据库[5] (Global Terrorism Database,GTD),以及2018年全国研究生数学建模竞赛C题的背景,首先通过数据挖掘思路,从恐怖袭击事件的变量中提取能描述危险程度的特征属性,考虑准确率评价指标优化构建的量化分级模型;通过组内平方和法(WSS)对聚类数进行参数敏感性分析,改进GMM聚类算法,实现对尚未被宣称负责的恐怖袭击事件进行潜在最相关的嫌疑人侦别;最后分析了近三年恐怖袭击事件的原因、时空和蔓延等特性,为下一年防控反恐提供有效的建议.
进一步根据经纬度上空间分布来探求恐怖组织的蔓延特性,定义在经纬度上的中心求法,建立如下模型:
2 模型的建立与求解
2.1 危险性评价模型的建立与求解
(1) 数据处理
首先对数据进行预处理,去掉空值过多的属性和案件,通过方差分析计算得到各个属性的方差,初步筛选得到国家、目标、武器、财产、连环相关性、受伤亡和死亡人数这七个主要属性.针对国家属性,考虑到越少发生恐袭的国家,一般发生恐怖袭击的事件都比较严重将各个国家的恐怖袭击案件数分为五个等级.针对目标属性和武器属性,将这两个指标和伤亡人数联系起来,得到每个武器的在案件中的平均伤亡人数,进而得到武器的类型的危险性进行排名,并大规模杀伤性武器给较高危险性评分.针对财产损失,选property、extend的水平,构建财产损失分数.针对realate1的属性也通过五分位法处理.对于恐怖袭击造成的伤亡数目,即数据中的n_kill和n_wound这两个属性,进行归一化处理.
(2)模型的构建
首先,根据通过分析得到能描述危险程度的主要特征属性构建如下量化分级模型:
F =K +W +P +C +T +w +r ,
(1)
式中:F 为评定事件严重程度的分数,K 为死亡人数,W 是受伤人数,P 代表财产损失.frank是量化分析所得到的分数,T 是目标对象,w 是武器类型,r 是是否具有相关事件.
最后,把分数F 归到0-5分的区间中,其中4-5分,定为一级事件;3-4分,定为二级事件;2-3分,定为三级事件;1-2分定为四级事件;而0-1分,定为五级事件.
准确率评价指标具体根据模型推荐的事件对应真实事件命中程度,来评价危害等级评定的准确性,准确率公式如下:
(3)模型的优化针对以上式(1)所示的模型,通过在数据集中随机选取的1000个点,得到各个变量之间的余弦相似度,发现kill和wound两者的相关程度非常高,如果直接加入,可能会间接提高kill的权重.因此对通过准确率评价指标来对模型的权重参数进行调整.
P =N m /N t ,
(2)
式中,P 是事件准确率,N m 是模型推荐的事件,是抽样的事件数,通过此模型来优化模型.
(4)模型结果通过python编程得到最优值,此时恐怖袭击测试集样本的分级准确率达到94.32%,从而使得分级模型具分级效果最佳,与恐怖事件的真实的危险性以及所造成危害的严重性相匹配.通过模型(1)对任务中的事件进行分级,具体见表1.
表1 典型事件危害级别
2.2 恐怖袭击事件模型的建立与求解
(1) 数据预处理
(4) 模型改进
首先对2015和2016年的数据进行数据预处理,筛选出能较好地描述恐怖袭击行为的特征属性,剔除不需要的数列,减少不必要的处理量.该组织或个人的危害性从大到小选出前5,同时在已处理的数据集中,增加了问题1中得出的分数和事件类型这两个特征属性,通过机器学习对文字型数据的特征属性重新编码,删除有缺失值的数据,最终得到10140个案件.
1)诊断结果展示及问题分析。主要包括:整体安全状况评估打分与趋势分析;安全状况问题钻取追踪分析;高风险环节分析,包括高风险群体分析、高风险设备分析、高风险环境分析、高风险区域分析、高风险时段分析;部门评估与诊断分析,包括人员诊断分析、设备诊断分析、环境诊断分析、管理诊断分析;OLAP自由探索分析。
ΓRNS,1=Honest()⊃((◇Send(A,x0)∧Contains(x0,{RA,,┌◇Fresh(A,RA)))
(2) 模型建立
高斯混合模型(GMM)算法是数据挖掘中,聚类分析常用而且较为成熟的算法,GMM的概率密度函数如下:
(3)
通过似然函数度量用恐怖袭击事件与嫌疑恐怖组织之间特征相似程度,取为这些数据点的概率乘积取,为了方便计算取对数得到似然函数累加和的形式,计算方式如下式所示:
林志望了紫云一眼,小脸绯红,使劲地点头。水老师拍拍他的肩,轻声说道:“那你要对她好一点!不要打扰她,把爱放在心里。我送你一首诗,‘把相思的泪水,凝成脉脉含情的叶片,在风雨中守候……’”
(4)
式中,N为数据点的个数,似然函数通常采用求导并令导数为零后解方程的形式求解,得到合适的参数,完成参数估计的过程.
(3) GMM聚类结果
在2015-2016年所有署名的14917个恐怖袭击案件,总共有457个组织有过声明,得到每个组织平均作案案件数为323,因此通过对未署名恐怖袭击案件聚类的聚类数目取为323.首先对所有的2015年和2016年的有组织宣称负责的暴恐事件的地区分布进行观察,根据式(3)计算得出概率密度,迭代直到(4)所得的似然函数收敛为止,根据恐怖组织的名称进行可视化分析以数据中的经纬度分别作为x,y轴,不同颜色代表不同的恐怖组织.得到图1(a)的结果恐怖组织恐怖袭击地区分布图.然后将各个事件的编号属性添加进去,得到图1(b).
大学英语的翻译对于提高英语是一个重要途径,写作须有感而发,而翻译随时随地就能开始。通过正确答案的对照,我们就得出以下认识:直译是捷径,汉语和英语基本的思路是一致的,基本句序不变,因此可以省去句式结构的设计过程;但是必要时需要做变通处理。变通包括极少部分使用增译法、很多时候需用减译法、善用指示代词。此外考虑文化因素与语义色彩时,要使用正式语体,还要对措辞进行斟酌,否则译文会出现瑕疵。
(a) 恐怖袭击地区分布图
(b) 地区分布局部放大图
图1
根据图1(b)中的各恐怖组织恐怖袭击事件地区分布情况,得到大部分的恐怖组织的活动都呈现集中分布的现象.
我觉所有的作家可以分成两类,一类在解释自己,另一类在另外开拓世界。前一类作家写的一切,其实是广义的个人经历,如海明威;而后一类作家主要是凭借想象力来营造一些什么,比如卡尔维诺、尤瑟娜尔等人。……我总觉得一个人想要把写作当作终生事业的话,总要走后一条路。当然,一个人在一生里总要写到自己,这是必须要做的事。但是只做这一件事是不行的[5]。
究其原因,恐怖组织倾向于在势力范围进行恐怖袭击.所以从地理层面分析可见,相同区域的恐怖袭击事件为相同团伙及个人作案的概率极高,即空间分布是侦查犯罪嫌疑团伙极大的考虑因素.
图2 空间分布情况
图3 恐怖组织聚类分析结果
图2为2015和2016年未知组织恐怖主义发起恐怖袭击的空间分布情况.根据前面筛选的特征属性对这些未知组织的恐怖组织进行聚类分析,将聚类得到的结果见图3(x 坐标是事件的发生的经度,y 坐标是事件发生的维度).此外,还考虑了运用K-means聚类的方法[6],但是得到聚类的结果不好,因此不再做具体分析.
覃爱金[3]、丁志平[4]介绍了广东和广西两个台站无人值守运行的模式。参考了其他无人值守台站的试点情况,发现很有必要开发出适合自己台站的监控软件来辅助正常的观测工作。张伟奇[5]介绍了软件设计模式在气象观测软件开发中的应用。黄思源[6],朱长乐[7]设计了可以监控ISOS软件的程序。龙凤翔[8]李艳[9]、薛风国[10]设计了可以监控观测数据和设备运行情况的程序。郭方[11]、朱勍[12]分别介绍了辅助监控软件在机场气象观测工作中的运用。
聚类的数目会对聚类的效果有较大的影响,会影响结果的可靠性.对模型改进进行参数敏感性分析,对于最佳的聚类数目,根据组内平方和(WSS)来确定最佳聚类数目的方法,得到了聚类数目与WSS的关系图见图4.
由图4可得,从聚类数目从1到60,WSS下降得较快,之后下降速度平缓趋于稳定,聚类数目达到200后,发现已趋于平衡,所以聚类数目的范围选在60~200之间,做一个敏感性分析.分析结果发现,随着聚类数目增多,类也会随之变小,但是过多的类别,会导致某些案件附近会没有某种类别的点,从而导致结果的不准确性.因此,为使得聚类相对集中,且目标点周边有足够的类,取聚类数目为150.
评价环节是对学生学习效果的检验,对其中共性的问题进行,进一步提高学习产出的质量。(李丽,2017)课程评价环节贯穿同学们整个写作单元的学习,其中有课前线上的视频观看记录、课堂参与以及课后作业完成得分。
聚类数目
图4 聚类数目与WSS的关系图
(5) 改进后的结果分析
根据建立的危险性评价模型通过计算如上每个聚类中的frank危险性分数的总值,然后进行排序,从结果中取前五个最大案件,得到危险性评分前五的聚类号分别为132,145,61,117和78的聚类类型,如图5为目标点的聚类命中情况.然后,对这五个组织的行为特征和恐怖袭击事件特征构建特征向量,用余弦相似度进行关联度判定,最相关的则排在最前面,可以得到表2的排序
图5 目标点的聚类命中情况
2.3 下一年反恐态势预测分析
(1) 背景分析
【Conclusion】 Adjust management methods and strengthen link management can improve the rate of screening and the recall and reduce the disability.
式中,c 是当年的某组织的活动城市数目;cl是去年某组织的活动城市数目;n 是当年的某组织的活动国家数目;nl是去年某组织的活动国家数目.
(2) 统计分析
为了研究恐怖袭击事件发生的主要原因,从世界银行网站上获取了从1998年至2017年的相关经济数据,与附件中给出的恐怖袭击的次数进行了皮尔逊相关系数计算,得到的计算结果见表3.
表2 恐怖分子关于典型事件的嫌疑度
从表3中可知,上述中相关的经济指标和恐怖袭击事件最相关的是按图表集法衡量的GNI(现价美元)国民总收入,和汇款与职工报酬也有较高的相关性.通过上表可得,基于经济的因素恐袭的次数呈一定的相关关系,恐怖袭击次数和人口增长成负相关关系.所以在对反恐态势进行预测的时候必须从根源,如宗教、经济发展和人口分布等因素进行分析.
表3 袭击次数与相关经济指标的皮尔逊相关系数
(3) 时空特性
a. 趋势分析
根据麦肯锡全球研究所给出的定义,大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征[1]。
从图6中可以看出恐怖袭击次数,伤亡人数的趋势基本一致,都是从1998年到2014年之间不断增长,但是从2014年开始呈现下降趋势,由于全球反恐意识的增强,以及各国反恐措施的增加.
再对2015到2017三年的数据进行分析,发现恐怖袭击事件在不同的月份有波动趋势,因此统计了每年所有月份恐怖袭击事件发生的规律,同时得到了每个月平均恐怖袭击事件的危害程度,依据案发次数得到表4和表5.如表4为近三年每个月平均恐怖袭击事件的危害程度,可以发现,基本上每年的12月,是恐怖袭击事件的低发时段,而每年的5月份和8月份都是恐袭事件的高发时段.再结合表5中统计得到的数据,可以发现这一结果可能和伊斯兰教的传统节日有关系.
从时间分布来看,12月份发生恐怖袭击的概率较低于其他月份,而5月和8月发生的概率较高,而且恐袭的严重程度更高,这也是需要重点防范的时间段.根据上面分析,发现恐怖袭击的发生与节日有关联.因此,做了进一步探索,分析了近三年的节日趋势(见表6),从表中数据分析,对于节日来说,每年的恐怖袭击数目逐年减少,有时甚至会低于平均值,可能的解释是反恐组织或者相关政府已经注意到此规律,在节日时加强了戒备,而在未过节时则没有这种关系.结果说明,目前这些恐怖分子越来越不容易在节日时发起恐怖袭击,却容易在普通日子发起恐怖袭击,此发现也是防范恐怖袭击需要注意的地方.
图5 恐怖袭击次数,死亡和受伤人数
表4 近三年每个月平均恐怖袭击事件的危害程度
表5 近三年来所有月份恐怖袭击事件发生的规律
表6 2015年至2017的节日趋势
b. 空间特性
在分析近三年来恐怖袭击事件发生的空间特性时,得到表7,即2015年至2017年不同地区恐怖袭击次数的分布情况.根据表7,可以得到恐怖袭击主要集中在撒哈拉以南的非洲、中东和北非、南亚等地区,结果表明这些地区的恐怖袭击风险依然较高,反恐态势仍然十分严峻.
表7 2015-2017年恐怖袭击次数不同地区分布比例
(4) 蔓延特性
a. 模型建立
在解决蔓延特性问题时,是从城市和国家两个层面来考虑恐怖袭击的蔓延特性,因此,分别建立了年度城市蔓延分数和年度国家蔓延分数两个模型,具体公式如下:
在分析了恐怖袭击频发的地区后,对近三年来恐怖袭击次数在不同国家的分布情况也进行了研究,发现主要集中在伊拉克、阿富汗、印度、巴基斯坦、菲律宾、尼日利亚、也门、埃及、叙利亚等国,他们的总占比就达到了72%.其实,通过新闻等有效信息,不难理解他们是恐怖袭击的高发区,因为这些国家经常发生战争,而且受宗教等影响较大,导致了国家局势动荡,因而恐怖袭击不断,由此可见,这些国家反恐形势十分严峻.
(5)
(6)
恐怖袭击事件的发生的主要原因有极端思想的扩散和侵害,以及不同恐怖组织的浪潮加剧了恐怖事件的连续性,并且由于国际上的反恐合作不够重视,以及地域等因素,使得各个国家之间不合作,互相形成了恐怖气氛.同时根据数据,可以发现大部分恐怖袭击都是以实现政治、经济、宗教或社会目标为目的,同时还具有胁迫、恐吓或煽动更多群众的意图来达到宣传恐怖主义的目的.
b. 结果分析
两组睡前均给予服用硝苯地平(福建中合医药股份有限公司生产,国药准字H35020579),起始剂量为10 mg,2次/d,根据病情可酌情增加,最大剂量≤40 mg,3次/d。对照组在此基础上口服氟伐他汀(海正辉瑞制药有限公司生产,国药准字H20070168),起始剂量40 mg,1次/d,最大剂量≤80 mg,1次/d。基于此,观察组加用缬沙坦(北京诺华制药有限公司生产,国药准字H20173014),起始剂量80 mg,1次/d,最大剂量≤160 mg,1次/d。
根据以上式(5)和式(6),分别获取了表8和表9所示2015至2017年十大作案次数最高的恐怖组织.分析表8得到,城市蔓延分数越高,则恐怖组织活跃的城市相比去年越多,说明该恐怖组织正在发展壮大,需要引起国际反恐组织的警惕.
表8 2015至2017年十大在城市
作案次数最高的恐怖组织
分析表9,可以发现,2017年ISIL活动的国家减少了23.07%,而SPIS活动的国家增长了200%,说明ISIL恐怖组织的活动可能受到了抑制.因此,国际反恐组织需要警惕SPIS恐怖组织,防止其进一步蔓延.
综合以上对十大恐怖组织在城市和国家的蔓延分析,可得SPIS恐怖组织在城市和国家层面,都呈现扩大趋势.因此,国际反恐组织需要加强监控,及时控制住该组织势力扩大.同时,需要注意,NPA恐怖组织在国内,其扩展迅速,也需要引起国际反恐组织的警惕.
表9 2015至2017年十大在国家作案次数
最高的恐怖组织
(5) 方差分析
a. 模型建立
(1)全面夯实IT机房及网络基础设施,运用虚拟化技术、SAN架构等提升;服务器、网络等基础设施,补齐短板、扩大容量、提升安全、降能耗;(2)统一AD域、统一电邮、统一短信平台;(3)构建协同办公基础:便捷性、高效性、互通性,推进BPM\APP\eHR\文档库等基础办公平台建设;(4)全面升级优化现有主要业务系统,确保稳定、增加业务急需的功能;(5)构建专业高效的IT团队、构建信息化流程及考核、熟悉业务、融入公司。
(7)
式中,lat代表点的纬度,lon代表点的经度.根据公式(7),进而可以得到描述经纬度的中心坐标arctan 2(y ,x )和arctan 2(z ,sqrt (x 2+y 2)).
b. 结果分析
以组织Islamic State of Iraq and the Levant (ISIL),编号238和Taliban组织,编号502为例.针对每年某个组织宣称当年的所有的事件,作为该组织当年的中心,针对三年所有事件的坐标中心,作为该组织三年的中心.通过测算不同年份当年中心和三年中心的距离,来判定该组织当年的活动是否具有蔓延性.图7是238和502组织的各个事件在经纬度上的分布情况,其中黄、绿、红分别代表2015年、2016年和2017年238组织宣称负责的事件;蓝色颜色由浅至深,是2015、2016、2017年502组织宣称负责的事件.由图可得出,238组织的事件分布的更加广泛,而502组织分布得更加集中.
将图7(a)进行局部放大得到图图7(b),从图7(c)组织238和图7(d)组织502,可以进一步观察到核心点的蔓延趋势,从图中可以清楚的看到,238组织每年中心都在发生明显变化,而502组织中,当年的偏移相对来讲较小.
为了验证直观判断的偏差性,对两个组织当年案件中心到3年中心的距离做方差分析,同时界定方向,如果与前两年相比,2017年是远离中心的,记为正,否则为负,最终得到表10的结果.
公路工程项目施工周期长、涉及范围广、资金回笼慢,施工工种众多,这无形中增加了公路工程全过程造价管理难度。PPP模式下,私人投资者最为关注的是投资收益,对投资估算的要求更加精确,所以,建设方案既要适应宏观政策,更要让私人投资者满意于项目风险的控制。PPP模式下公路工程施工成本如果根据定额等标准计算,则会高出常规的施工成本[2],因为定额中并不包含新工艺、新技术等成本。
图7 238和502组织的各个事件的经纬度上的分布情况
从表10,可以得到,238组织的方向为正,方差比较大,则它的蔓延性和扩散性就越强,换言之,238组织的恐怖袭击事件更分散,而且有向外蔓延的势头.而502组织的方差比较小,则它的蔓延性和扩散性更弱.从事实上来分析,塔利班近年来的活动范围确实比较小而且相对固定,但ISIL不然,它是渗透到很多地区来发动恐怖袭击,所以分析得到的结果也得到了事实的支持.根据此种方法,还可对其他恐怖组织的蔓延性进行计算,再通过方差分析作为来衡量各个恐怖组织蔓延的趋势.从而可以更好的针对蔓延的恐怖组织进行有针对地防范.
(6) 级别分布
根据BDP数据分析网站,得到图8所示2015年至2017年的全球危险等级分布图.
表10 方差分析结果
图8 2015-2017年全球危险等级分布图
a. 模型建立
进一步根据经纬度上空间分布来探求恐怖组织的蔓延特性,定义经纬度上的中心求法,建立如下的模型:
(8)
式中:y n 是恐怖袭击事件的增长率,n p 为前一年的恐怖袭击事件数,n a 为后一年的恐怖袭击事件数.
b. 结果分析
根据式(8),对2016年和2017年的恐怖袭击级别变化趋势进行计算,取较有代表性的地区分析,得到如表11.
综上分析可得,对个别区域需要特别重点加防,撒哈拉以南的非洲、中东和北非、南亚等地区是冲突地区,国际组织帮助发展经济,解决地区贫困,宗教、政治冲突等因素是解决恐袭事件的根本措施.北美、西欧国家等发达国家需要注意对极端恐怖主义的防治,而且恐怖组织的蔓延有跨国家跨城市的趋势.因此对恐怖事件降低为零的地区对恐怖主义势力不能掉以轻心.
表11 2016和2017年部分恐怖袭击级别变化趋势表
注:代表恐怖主义在平息后又重新行动.
3 结 论
通过数据挖掘思路,从恐怖袭击事件的变量中提取能描述危险程度的特征属性,考虑准确率评价指标优化构建的量化分级模型,结果表明模型具有较高的准确性,而且较为客观和直观;进一步采用GMM模型聚类,通过组内平方和法对聚类数进行参数敏感性分析,改进聚类算法,可以有效地帮助反恐组织侦查潜在最相关的嫌疑人;最后对近三年的恐怖袭击事件进行挖掘,基于模型分析对下一年反恐态势的预测,帮助反恐组织对恐怖袭击事件原因、时空和蔓延等特性有更为全面地了解,提高反恐的精准性和打击能力.
参考文献
[1] 王前钱, 宋明爽. 恐怖袭击事件之分析与思考[J]. 法制博览, 2017(16): 287-289.
[2] 龚伟志, 刘增良, 王烨等. 基于大数据分析恐怖袭击风险预测研究与仿真[J]. 计算机仿真, 2015, 32 (4): 30-33.
[3] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估[J]. 数据分析与知识发现, 2018, 2 (10): 21-26.
[4] 李永群, 应万明, 袁飞, 韩玉春. 基于数据挖掘的全球恐怖主义数据库数据分析[J]. 经济数学, 2019(2): 91-94.
[5] Lafree G, Dugan L. Introducing the global terrorism database[J]. Terrorism&Political Violence, 2007, 19(2): 168-173.
[6] Jain A K. Data clustering: 50 years beyond K-means[J]. Pattern recognition letters, 2010, 31(8): 651-666.
Quantitative Analysis and Research on the Recorded Data of Terrorist Attacks
WANG Xiang’ai1,ZHUANG Yuanqiang2,XIE Weidun3,ZHOU Jinhua4,WANG Liping4
(1.Business School ,Hunan University ,Changsha ,Hunan 410082,China ; 2. College of Mechanical and Vehicle Engineering ,Hunan University ,Changsha ,Hunan 410082,China ; 3. College of Computer Science and Electrionic Engineering ,Hunan University ,Changsha ,Hunan 410082 , China ;4.College of Mathematics and Econometrics ,Hunan University ,Changsha ,Hunan 410082 , China )
Abstract Terrorism is a common threat to mankind. The purpose of this paper is using data mining to provide valuable information support for counter-terrorism and terrorism prevention. Based on the idea of data mining, the feature attributes that can describe the degree of danger are extracted from the terrorist attacks, and the quantitative grading model is constructed, and the accuracy rate evaluation index is considered to optimize. Then, the clustering method was optimized by the within-group square method, and the Gaussian mixed model (GMM) model is used to cluster the terrorist organizations to detect the suspects which is the most relevant. In addition, through statistical analysis and established mathematical models, the main causes, spatio-temporal characteristics and spread characteristics of terrorist attacks are obtained, and the future global counter-terrorism situation is predicted to help anti-terrorism organizations improve the accuracy and strike ability of anti-terrorism.
Key words Sapplied statistical mathematics; Terrorist attack; Data mining; GMM clustering analysis
收稿日期: 2018-12-29
基金项目: 湖南大学研究生参加数学建模竞赛资助项目531107040945; 湖南省教改项目531111040163
作者简介: 王向爱(1995—),女,甘肃白银人,硕士研究生,主要研究管理统计与计量经济.E-mail:wangxiangai@hnu.edu.cn
中图分类号 O213
文献标识码 A
标签:应用统计数学论文; 恐怖袭击事件论文; 数据挖掘论文; GMM聚类分析论文; 湖南大学工商管理学院论文; 湖南大学机械与运载工程学院论文; 湖南大学信息科学与工程学院论文; 湖南大学数学与计量经济学院论文;