对恐怖袭击事件的多元统计分析论文

对恐怖袭击事件的多元统计分析

谢振东,文 帆,周子雅,欧 辉

(湖南师范大学 数学与统计学院,湖南 长沙 410081)

摘 要 恐怖袭击威胁人类社会安全.选取全球恐怖主义数据库(Global Terrorism Database,GTD)中2015-2017年世界上发生的恐怖袭击事件的记录,根据相关性对2015-2016年未知作案组织或个人对应的事件数据进行整合简化,使用二阶聚类得到最大分类数,根据危害性从大到小选出前5个犯罪嫌疑人,利用判别分析对2017年未知作案组织或个人对应的事件进行概率预测,得出嫌疑人的嫌疑程度.选取影响恐怖袭击的重要指标,应用因子分析研究2015-2017年恐怖袭击事件发生规律,得到恐怖事件地域发展趋势.

关键词 社会统计学;趋势预测;多元分析;恐怖袭击

1 引 言

恐怖主义是人类的共同威胁,对恐怖袭击事件相关数据的深入分析有助于加深人们对恐怖主义的认识,为反恐防恐提供有价值的信息支持.Sofia(2016)[1]探索了40多年来全球恐怖主义在地理和时间上的集中性与持续性,说明恐怖袭击事件非随机,具有可研究性.Thomas(2016)[2]提出了对欧洲圣战主义十年的预测,未来10年,圣战分子在欧洲发动袭击的频率可能会呈现波动曲线,峰值将逐渐升高.李益斌(2018)[3]利用聚类分析法,以GTD中恐怖袭击的频率和烈度为依据,对2001-2010年和2011-2016年两阶段的欧洲恐怖袭击按国家进行分类,根据实验结果中的异同来分析当前欧洲恐怖袭击的新态势.杨振柳等(2019)[4]对GTD进行数据挖掘,利用主成分分析方法建立了K-means算法的聚类模型.通过该聚类模型,将相似特征的事件进行归纳处理,为侦破恐怖袭击事件提供信息支撑.华雅伦和王奇(2018)[5]通过使用GTD数据对2001-2015年间欧洲恐怖主义活动进行统计分析,发现呈现出以热点地区为中心的扩散辐射圈,恐怖分子袭击日趋专业化和技术化的特点,总结了欧洲国家的反恐经验.彭如香等(2019)[6]以2001-2016年的GTD数据,对全球恐怖主义活动进行定量分析与可视化分析,得出近些年全球恐怖主义活动的发展态势.结合近几年全球恐怖事件的特点,总结出全球恐怖主义活动的特征和发展趋势是有价值的.

数据均来自于GTD或公开发表及出版的文献,其中的缺失部分采用期望值最大化方法即EM算法估计所得.采用二阶聚类的方法,可对含有类别变量和连续变量的大型数据集进行分析,并自动确定最终的分类个数.采用的贝叶斯判别法不仅能够考虑到各个总体出现的先验概率,又能考虑到错判造成的损失,且其判别效果相比于其他几种判别方法更加理想.

随着经济发展、社会进步和人民生活水平的提高,山东省无棣县需水量日益增长,再加上县城工业园的形成,原有月湖水厂的供水能力将无法满足供水需求,无棣县水务局和无棣县自来水公司决定采用明湖水库水作为水源,新建一座5.0万m3/d的供水厂,一期实施2.5万m3/d的构筑物。

2 分析方法

2.1 统计分析步骤

1.对2015-2016年发生的、尚未有组织或个人宣称负责的恐怖袭击事件进行分析,找出主导某恐怖袭击事件最有可能的嫌疑人.第一步将相关联的事件根据相关性进行整合.第二步利用二阶聚类模型对2015-2016年处理过的数据进行二阶聚类分析,将数据进行分类并按照危害性从大到小选出前五个犯罪嫌疑人.第三步依据判别分析法中的贝叶斯方法对数据进行建模与分析,得出嫌疑人的嫌疑程度.

2.研究近三年来恐怖袭击事件发生规律.选取恐怖袭击发生在城市中心的次数、疑似恐怖袭击的次数、恐怖袭击成功的次数、恐怖袭击造成的死亡总人数、亡人事件百分比、平均每起事件死亡人数、恐怖袭击造成的受伤总人数、人质遭受绑架的次数等8个指标以区域为分类变量进行分析,研究下一年全球或某些重点地区的恐怖袭击态势.

恐怖主义指数受许多因素的影响.依据世界经济与和平研究所发布的156个国家的恐怖主义风险指数报告,选取了其中的总起数、总亡数、总受伤人数和财产损失等四个指标,通过计算四个指标分值再合并得到综合分值.考虑到目前财产损失的价格数值估计并不十分准确且获取较为困难,而中心城市是一个国家的经济政治中心,尤为重要,所以加入“恐怖袭击发生在城市中心的次数”这个指标.人质的绑架会给人们带来巨大的心理压力,造成社会一定程度的动荡不安.对于国家面对恐怖袭击的风险既要考虑直接恐怖袭击风险,还要考虑国家面对恐怖袭击的脆弱性,脆弱性低意味着同类别的恐怖袭击可能会造成更大的人员伤亡和财产损失,所以加入“亡人事件百分比、平均每起事件死亡人数这两个指标”.

2.2 统计模型

1.二阶聚类模型

第一步为准聚类过程(Pre-cluster Step),采用专门应用于巨型数据的BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)聚类算法.建构一个多水平结构的聚类特征树(Cluster Feature Tree,CF-tree),其特点在于它是一种高度平衡的树(height-balanced tree).—般用CF-Vectors建立CF-tree.

这里的CF-Veclors为其中,

在这步过程中算法以“树”的结构来进行聚类.先是最大数值的进入,再依次一个个处理样本选择接近它保留在它的枝节或是节点上,否则就形成新的枝节.距离变化的衡量方式采用对数似然函数:

二是顶层设计,完善机制。干部培养需要制度保障,为此,华西医院构建了“六 位一体”的工作机制,即高度重视,全力支持的领导机制;齐抓共管,密切配合的联动机制;广泛调研,反复论证的选题机制;集思广益,精益求精的预讲机制; 科学民主,客观公正的评价机制;双向沟通,及时动态的反馈机制。

d (j ,s )=ξ ij(j,s )

(1)

(2)

(3)

K A 表示所用的连续变量,K B 是所用的定类变量,L k 是定类变量的个数,N v 是在第v 组中的样本个数.是第k 个连续变量的方差.是在v 组中的第k 个连续变量的方差.N vkl 是从第v 组中第k 个定类变量的取出第l 个分类的个数.采用对数似然函数作为距离的测量公式利用前一步的结果对每一个样本进行聚类分析.

2.错判损失的贝叶斯判别分析模型

若总体G 1,G 2,…,G k 的先验概率为{q i ,i =1,2,3,…,k }且相应的密度函数{f i (x )},损失为{C (j /i )}时,划分的贝叶斯解如式(4)所示.

i =1,2,3,…,k

(4)

其中h j (X )为k 个按先验概率加权的误判平均损失,

当抽取了一个未知总体的样品值X ,先计算hj(X),然后比较其大小,选取其中最小的,则判定属于该总体.

3.因子分析模型

f 3=5.048vincinity +10.231t argtype 1-

为便于研究并消除由于观测量纲的差异及数量级不同所造成的影响,将原始变量进行0-1标准化,将原始变量及标准化后的变量向量均用X 表示,用F 1,F 2,…,F m (m <p )表示标准化后的公共因子模型,如式(5)所示.

(5)

模型的矩阵形式为:

X =AF +ε

(6)

并满足以下条件:

(1)X =(X 1,X 2,…,X P )'是可观测的随机变量,且均值向量E (X )=0,协方差矩阵cov (X )=Σ,协方差矩阵Σ与相关阵R 相等.

2018年12月4日~6日,恒轮机床(常州)有限公司(以下简称“恒轮机床”)在中国一年一度的行业用户见面日活动在常州隆重召开,恒轮德国集团首席运营官Manfred Maier先生、恒轮机床(常州)有限公司中国区销售副总裁鄂有鹏先生等多位企业高层出席了开放日活动,并进行了主旨演讲。恒轮机床的行业开放日已经连续举办了多年,成功地为恒轮机床在中国的汽车产业的用户提供了良好的沟通和交流的平台,促进了供应商和汽车制造企业的合作关系。

(2)F =(F 1,F 2,…,F m )'(m <p )是不可观测的变量,其均值向量E (F )=0,协方差矩阵cov (F )=I ,即向量F 的各分量是相互独立的.

(3)ε =(ε 12,…,ε P )'F 相互独立,E (ε )=0,ε 的协方差矩阵Σ τ 是对角方阵:

(7)

即ε 的各分量之间是相互独立的.

(4)cov (F ,ε )=0,即F ε 是不相关的.

因子分析的数学模型是将样本表示为公共因子的线性组合:

X i =a i1 F 1+a i2 F 2+…+a pi F ii ,

f 1=-0.145vincinity +7.159t argtype 1+

最后是贵州省政府的“三项政策”拉动。第一个是政府工程对市场进行培育、示范与扶持;第二个是政府打通技术和标准的障碍,为磷石膏顺利代替传统建材开辟了道路;第三是财税政策的支持,包括投资拉动、财政补贴及基金等扶持。

(8)

公共因子是无法观测的隐变量且其数量少于原始变量的数量.载荷矩阵是不可逆的,无法直接求得公共因子在原始变量表现的精确线性组合,所以运用回归的思想求出线性组合系数的估计值.

F jj1 X 1j2 X 2+…+β jp X p ,

f 2=-0.123vincinity +0.510t argtype 1+

“喂!放我出去!”步凡用力地敲击着门板,但回应他的,只有门外的嬉笑声:“黄皮仔,你就在这里好好待着吧!明天早上扫地的人会来营救你的!”

(9)

β jp 表示因子F j 在X p 上的得分,用每个主因子的贡献率作为权重进行加权汇总,得到各综合因子得分.

3 依据事件特征发现恐怖袭击事件制造者

对2015-2016年发生的、尚未有组织或个人宣称负责的恐怖袭击事件,运用二阶聚类的方法将可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干案件归为一类,并选出前五个犯罪嫌疑人,依据贝叶斯判别分析的方法对2017年所发生事件的犯罪嫌疑人可能性大小进行归类,判别2017年中主导某恐怖袭击事件最有可能的嫌疑人.

费希尔线性判别函数:

(3) 试验中采用的参数来源于实际工厂化生产,对于毛叶山桐子油工厂化生产具有指导意义,能为减少能耗、控制油料含水量、提高出油率提供实际的参考价值。

由于数据的复杂性以及海量性,先将相关联的事件进行整合,整合规则由下列指标决定:eventid 、extended 、region 、vicinity 、doubtterr 、success 、suicide 、attacktype 1、t argtype 1、weaptype 1、nkill 、nwound 、property 、ishostkid 、INT_ANY .接着利用二阶聚类模型对2015-2016年处理过的数据进行二阶聚类分析,结果如图1所示,考虑到恐怖组织与个人的种类复杂性与多样性,在满足分类数据差异性的前提下,将2015-2016年处理过的数据分为250类.

基于贝叶斯判别分析模型来进行判断组织或个人嫌疑程度的大小,根据14个指标变量提取4个特征变量,以某组织或个人对做了该恐怖袭击事件的概率大小作为衡量标准,列出分类函数系数如表1所示.

图1 二阶聚类结果

图2 典则判别函数图

表1 分类函数系数

杨译:...since men have long ceased learning from teachers...[5]151

i =1,2,…,p

2.706nkill +2.062nwound -60.934

有些课文在某些地方有留白,或者看似描写不够细致,感觉还没有学生写的作文详细。真是这样吗?文章写得越多越满越好吗?我们尝试让学生给课文添加内容。

j =1,2,…,m

2.292nkill +1.918nwound -9.661

数学运算是贯穿整个学业生涯乃至人一生的素养,在高考中强化对数学运算素养的考查,有利于进一步发展学生的运算求解、有效借助运算方法解决实际问题的能力.因为数学是一门非常严谨的学科,因此对数学运算的准确性要求非常高,不容许有任何的差错,在某种程度上,这也决定了对学生的要求,要求他们养成一丝不苟、严谨求实的科学精神,以及规范化思考问题的品质.

0.030nkill +0.002nwound -104.032

f 4=0.000vincinity +9.714t argtype 1-

0.003nkill +0.000nwound -94.407

图2可清晰看出危险度排序的前五位以及其组质心,可以通过概率大小判别2017年各个事件是这五个危险度最高的个人或组织所为的可能性大小.

例如:选取201701090031、201702210037.

表2 事件概率

表2即事件201701090031为一号嫌疑人所为的概率是0.79001,四号嫌疑人所为的概率是0.20999.201702210037为一号嫌疑人所为的概率是0.00002,二号嫌疑人所为的概率是0.99997,四号嫌疑人所为的概率是0.00001.

4 对未来恐怖袭击态势的分析

对近三年即2015-2017年的恐怖袭击事件分别分析并进行横向和纵向的对比找出规律,研究下一年全球或某些重点地区的恐怖袭击态势.

表3 KMO和巴特利检验

经过KMO和巴特利检验(表3)显示KMO取样适切性量数为0.632大于0.5,所以该数据适合做因子分析.根据表4采用主成分分析集中了8个原始变量信息的96.176%.

表4 旋转后的成分矩阵

以各因子的方差贡献率占两个因子总方差贡献率的比重作为权重进行加权且汇总,基于因子分析模型得出各城市的综合得分,其表达式为:

选择大小适中、无病虫害侵染的薯块洗净自然晾干后,采用75 %乙醇表面消毒后晾干,切成厚约1 cm的薯片,把切好的薯片放入配好的孢子悬浮液内浸一下,取出薯片晾干表面水分,再放入无菌培养皿内培养,期间采用纸巾或棉花团保湿纸,将接种的薯块置于25 ℃恒温培养箱中培养5~6 d,薯片表面长满浅灰色的分生孢子,用30 mL无菌水冲洗,纱布过滤去除菌丝后,测量孢子悬浮液中目镜10倍及物镜20倍显微镜下一个视野内孢子数,设置3个重复,每个重复制片3张。该方法设为对照组②。

F =(67.615×F 1+28.561×F 2)÷96.176

当然仅仅想借助于班干部队伍就建立一个团结和谐、健康文明、学风正、学风浓的班集体,那是远远不够的,一个班级体的建设还需要调动班集体中每一名学生的积极性,让大家都动起来,让他们成为自己的管理者,参与到班级的日常管理中去,让他们学会自我管理。

(10)

由表4可知,公共因子1在“袭击城市中心的次数”、“疑似恐怖袭击的次数”、“袭击成功的次数”、“死亡总人数”、“受伤总人数”、“人质遭受绑架的次数”上的载荷值都很大,主要反映整体遭受恐怖袭击的风险,命名为基本风险因子.而公共因子2在“亡人事件百分比”、“平均每起事件死亡人数”的载荷值较高,主要反映应对恐怖袭击的能力,命名为脆弱性因子.

文检课教师大多采取“一言堂”“灌输式”的授课方式。教师根据教材章节,按部就班地介绍各类数据库和搜索引擎的检索技巧,再布置一些习题让学生去实践。这种以教师为中心的教学模式未能关注学生对知识的实际需求,也忽略了教学内容与现实生活之间的联系,加上部分理论知识枯燥难懂,甚至已经陈旧,不利于激发学生对文检课的学习兴趣[3]。

得出2015-2017年的F1(基本风险因子)、F2(脆弱性因子)两个主要因子,对比如表5和表6所示.

学习的最好刺激是对学习材料的兴趣。多媒体集“声、色、画、乐”于一体,形象生动地展现教学内容。课程改革要求英语教学从知识、技能、情感态度、文化意识及学习策略方面对学生进行培养,发展学生的综合语用能力(程晓堂,2004)。要求教师充分利用多媒体提供丰富的材料,让学生进行有目的的阅读实践,加强对语言信息的理解,注重自主、探究、合作学习的意识培养,养成学习习惯,运用学习策略。下面根据《英语课程标准》相关要求,以牛津高中英语模块二第三单元Reading部分The Curse of Mummy为例,具体阐释多媒体在英语阅读课堂的运用。

表5 基本风险因子得分

基本风险因子得分反映该地区遭受恐怖袭击的风险程度.经过纵向对比可知,区域10(中东和北非)近三年的基本风险因子得分均最高,是最需要加强防范恐怖袭击事件的地区.区域4(东亚)风险性最低,安全性最高.横向比较可知,区域10(中东和北非)尽管三年期间的风险性有所下降,但依然位于12个地区的首位,所以仍是反恐的重点地区.区域6(南亚)风险性还在提高,所以该地区下一年为反恐的重点地区.

表6 脆弱因子得分

脆弱性因子得分反映该地区应对恐怖袭击事件的能力.经过纵向对比可知,区域11(撒哈拉以南的非洲)近三年的脆弱性因子得分均最高,是最需要提高其应对能力的地区.相对来说区域12(澳大利亚和大洋洲)的应对能力最强.横向比较可知区域11(撒哈拉以南的非洲)三年间应对处理恐怖袭击的能力还在下降,值得一提的是,区域4(东亚)的应对能力在不断提高.

图3 近三年恐怖事件综合得分对比图

结合基本风险因子和脆弱性因子得到综合得分,由图3可知区域10(中东和北非)及区域6(南亚)恐怖袭击事态较为严重,不仅遭受恐怖袭击的风险性高,而且其应对处理恐怖袭击的能力也较低.另外区域5(东南亚)的综合得分不断提高,可知恐怖袭击事件有向东南亚区域转移的趋势.

5 结 论

通过灵活应用二阶聚类、判别分析、因子分析来对恐怖袭击事件记录数据进行量化分析.考虑到事件的相关性,对2015-2016年的未知作案组织或个人对应的事件数据进行整合简化.应用二阶聚类,充分利用数据差异性,选取最大分类数为250类.因为恐怖组织与个人的种类繁多且具有多样性,在这250类中每类所包含的事件数的多少来从大到小选出其中的前5个.对于恐怖事件的嫌疑程度,基于贝叶斯判别分析模型来进行判断组织或个人嫌疑程度的大小,根据14个指标变量提取4个主要特征,计算出某组织或个人实施该恐怖袭击事件的概率,根据其大小作为衡量标准.

根据主要原因、时空特性、蔓延特性、级别分布等规律,进而分析总结近三年来恐怖袭击事件发生规律和并预测下一年全球某些重点地区的恐怖袭击态势.选取了8个指标以区域为分类变量进行因子分析,最后得到2015-2017年关于12个地区在两个公共因子上的得分和总得分,经过横向和纵向的对比,可知区域10(中东和北非)恐怖袭击事态较为严重,不仅体现在遭受恐怖袭击的风险性高,而且其应对处理恐怖袭击的能力也较低,为下一年反恐的重点地区.同时区域10(中东和北非)与区域11(撒哈拉以南的非洲)也是需要加强反恐的地区.另外根据区域5(东南亚)的综合得分不断提高,可知恐怖袭击事件有向东南亚区域转移的趋势,总体来说,近三年的恐怖事件发生的区域及其风险性较为稳定.

参考文献

[1] SOFIA P K. The non-random nature of terrorism: An exploration of where and how global trends of terrorism have developed over 40 years[J].Studies in Conflict Terrorism,2016,39(12):1031-1049.

[2] THOMAS H. The future of jihadism in Europe: A pessimistic view [J] .Perspectives on Terrorism,2016,10(6):156-170.

[3] 李益斌.欧洲恐怖主义的新态势及原因分析——基于聚类分析法[J].情报杂志,2018,37(3):55-63.

[4] 杨振柳,李颖,钟子森.基于数据挖掘的恐怖袭击嫌疑对象判断研究[J].情报探索,2019(4):35-40.

[5] 华雅伦,王奇.基于GTD数据库的欧洲反恐形势分析及对我国的启示[J].犯罪研究,2018(5):91-105.

[6] 彭如香,张奥博,杨涛,孔华锋.基于GTD的全球恐怖主义活动现状与发展趋势研究[J].计算机应用与软件,2019,36(1):1-5+21.

MultipleStatistical Analysesfor Terrorist Attacks

XIE Zhendong,WEN Fan,ZHOU Ziya,OU Hui

(School of Mathematics and Statistics ,Hunan Normal University ,Changsha ,Hunan 410081,China )

Abstract Terrorist attacks threaten the security of human society and cause social unrest to a certain extent. Selection of Global Terrorism Database (Global Terrorism Database, GTD) in 2015~2017 terrorist attacks in the world record of events, from 2015 to 2016 unknown crime organization or individual corresponding event data integration based on association simplified second order clustering are used to get the maximum number of classification, and according to the harm from big to small chosen five suspects, using discriminate analysis for 2017 unknown crime organization or individual corresponding event probability prediction, it is concluded that the suspect's degree of suspicion; After that, important indicators affecting terrorist attacks were selected to apply factor analysis to study the occurrence law of terrorist attacks in 2015~2017, and the regional development trend of terrorist incidents was obtained.

Key words Social statistics; Trend prediction; Multivariate analysis; Terrorist attacks

收稿日期: 2019-05-12

基金项目: 湖南省哲学社会科学基金一般项目(17YBA291),湖南省教育厅项目 (16C0952)

作者简介: 欧 辉(1978—),女,湖南宁乡人,理学博士,副教授,硕士生导师,研究方向:应用统计.E-mail:343985382@qq.com

中图分类号 C812

文献标识码 A

标签:;  ;  ;  ;  ;  

对恐怖袭击事件的多元统计分析论文
下载Doc文档

猜你喜欢