依据事件特征发现恐怖袭击事件制造者
杨澄懿,邹 立,周 晨
(武警后勤学院,天津 300309)
摘要: 通过恐怖事件间的相似特性,为未知犯罪组织的犯罪事件确定犯罪嫌疑人。以全球恐怖主义数据库(GTD)为数据源,利用K-means聚类方法对数据库中未确定犯罪组织的恐怖事件进行聚类分析,提取案件之间的相似特征值,找出危害程度最大的若干组织作为犯罪嫌疑人,通过聚类中心的距离判断待测事件与某嫌疑人的关系大小,从而在一定程度上确定犯案组织。结合数据源提供的数据,采用本文的方法能较好的确定犯罪嫌疑人,对精确打击犯罪分子、遏制恐怖主义态势蔓延有一定作用和借鉴意义。
关键词: 恐怖主义;事件特征;聚类分析
进入 21世纪,以“9·11”事件爆发为标志,国际恐怖主义渗透蔓延进入新的高潮。全球各地区暴力恐怖事件数量不断攀升,袭击范围与目标不断扩大,恐怖活动呈现组织严密性、手段多样性、目标广泛性、目的政治性等新特征。恐怖主义逐渐由贫困地区的零星恐怖破坏活动演化为暗杀、爆炸、截机等城市化、国际化的恐怖事件,反恐问题开始进入全球视野,成为国际社会关注的焦点以及各国学者研究的热点。
一、研究现状
尽管恐怖主义活动在全球范围内蔓延,但由于不同国家及地区在国际关系、地缘政治、宗教文化、经济发展等方面的巨大差异,[1]各国对恐怖主义的认识不可避免地受到自身利益、情感、文化因素的影响,难以客观公允地定义和描述恐怖主义。因此,恐怖主义的产生虽然可以追溯至古希腊罗马时期,但关于其定义却是至今尚不统一。张将星从心理要素的角度对恐怖主义的定义进行了分析;[2]张绍彦从哲学角度辨析了对恐怖主义的本源;[3]莫洪宪对我国关于恐怖主义的定义做了研究综述,[4]发现仅我国就存在如犯罪说、二元定义论等九大典型定义。
传统的恐怖活动的分析大多集中于心理学、犯罪学领域,比较依赖专家自身的判断和分析,带有较强的主观性。[5]随着恐怖袭击数量的增长和现代信息技术的发展,恐怖事件的信息量迅速增加,信息采集也更为详尽,传统的研究分析方法已难以有效处理和运用这些海量而复杂的数据。通过科学的方法去预测恐怖事件的发生也成为世界各国学者研究热点。王玉辉,曾泽华等人运用基于APT逻辑的推理算法,[6]对“伊斯兰国”发动的恐怖事件进行了因果关系方面的研究。夏一雪,史路遥等人以俄罗斯2006至2016年的恐怖活动数据为例,[7]构建了基于logistic-ABC的恐怖活动风险识别与指标评级模型,通过该模型可以定量计算出影响最大的风险要素。薛安荣等提出使用经改进的贝叶斯算法对恐怖组织的行为进行了预测,[8]并且使用不同方法对预测恐怖组织的准确率进行了比较,经验证经改进的贝叶斯算法的预测准确率较高,且运算流程较为简单。Bohannon J将社会网络分析方法运用于恐怖事件分析过程中,[9]利用Ucinet构建出恐怖分子-恐怖组织网络图、恐怖组织-恐怖事件网络图、恐怖时间-恐怖事件网络图。Krehs量化分析了“9·11”事件19名劫机者之间的社会网络图,[10]计算出其间的中心度测距从而确定了关键人物。学者纷纷开始研究利用现代信息技术方法,对恐怖袭击事件数据进行挖掘与学习,建立背景信息与行为特征的联系,自动分析恐怖主义活动的时空特性、[11]蔓延特性,评估恐怖主义发展态势、识别恐怖组织作案特征、预测恐怖主义发展趋势等模型方法,[12][13]力求为实现精准打击恐怖势力和全面遏制恐怖主义蔓延提供科学的决策依据。
2009年春末,我将三角枫树(甲)扳弯,与三角枫树(乙)交叉捆绑在一起。岁末,甲树与乙树在交叉处完全长连在一起了。当年,甲树在A处长出了一根新枝(丙)。
二、特征提取与归类模型构建思路
恐怖主义活动组织化、制度化的发展,使得不同恐怖组织形成了自身“组织文化”,具有组织自身的诉求和目标。因此,同一个恐怖组织或个人在不同时间、不同地点多次作案的若干案件具有一定的相似特征,通过数据发掘方法,将这些特征相近的事件串联起来统一组织侦査,有助于提高恐怖袭击实践的破案效率,尽早发现新生或者隐藏的恐怖分子。
本文利用GTD的数据信息,基于背景知识学习数据库中恐怖事件数据展开。[14]由于数据库中的资料太过庞大,文中选取2015、2016年度发生的未确定嫌疑人的恐怖袭击事件 (即gname字段为unknown),通过编写程序进行数据挖掘,按该组织或个人的危害性从大到小选出其中的前5个,再对随机选取的若干恐袭事件,按嫌疑程度对5个嫌疑人排序。该问题主要,需要通过分析袭击方式、目标类型、武器类型、索要赎金等众多特征变量,挖掘恐怖组织行为的关联性,识别潜在恐怖组织或分子的行为特征,对类似的恐怖事件进行聚类。同时,需要构建量化的危害等级模型,对嫌疑的恐怖组织危害程度进行排序;进而通过有监督学习的方式,将给定事件样本进行分类。[15]
“李敬益做得很好,开展工作积极认真,讲话很有道理。”彩云社区老年协会会长洪云提到李敬益时表示不想说大话,要说点实话,“你看他干了那么长时间就知道了,之前有干得不好的早就走了。”在洪云看来,李敬益处理矛盾纠纷讲道理、讲方法,在群众当中很有威望。
针对上述分析,研究解决问题的思路主要如下:首先,遴选出2015、2016年的恐怖袭击事件数据,对数据进行清洗;其次,根据针对初步筛选的特征变量进行特征提取;而后,依据提取特征变量,根据变量类型,综合采用K-Means聚类方法,对2015、2016年发生的没有组织宣称的恐怖袭击事件进行聚类;进而通过主成分分析构建量化的危害等级模型,对不同组织的危害程度进行排序;最后,随机抽取2017年中尚未确定嫌疑人的恐怖事件,计算抽取事件至排名前5的恐怖组织行为特征聚类中心点的Euclidean距离,得到嫌疑度排名。具体构建思路如图1。
图1 恐袭事件特征提取与归类模型
三、模型建立与数据分析
(一)数据预处理
1.数据清洗
将GTD中2015、2016年度发生的、尚未有组织或个人宣称负责的恐怖袭击事件抽取出来,并进行数据清洗,尽可能较少噪声与干扰,提升数据变量与评价目标的关联性。GTD中2015、2016发生的未确定嫌疑人的恐怖事件数据累计达10903条数据信息,134个数据字段,但并非所有数据均是有用信息。为了使量化分级模型具有较高的准确性,必须保证数据集的完整、连续和无噪声,首先需要对数据进行清洗。本研究中数据清洗主要遵循以下步骤:
一是发挥中物院科技资源优势,建立技术创新服务平台。Z公司以中物院丰富的科技资源和科研能力为依托,与中物院化工材料研究所联合共建四川省新材料研究中心,与中物院机械制造工艺研究所联合共建智能制造公共技术服务平台。面向孵化器内入驻企业辐射绵阳市其他中小微企业提供技术支持和技术创新服务。此外,Z公司还整合了中物院流体物理研究所、中物院核物理与化学研究所、中物院激光聚变中心等院内各所科研仪器,建立中物院国防科学仪器共享平台,为孵化器内入驻企业和其他中小微企业提供检测、检验服务。
图2 GTD数据完整度
第二步,删除剩余变量中全部TEXT型数据变量。
第三步,合并同一类型的属性。如原数据集中,恐怖袭击所致死亡人数和伤亡人数中包含了恐怖分子的死亡和伤亡人数,美国国籍的死亡和伤亡人数;而本文评估的死伤人数不包含恐怖分子,故用总的死伤人数分别减去恐怖分子死伤人数得到所需的死亡和伤亡人数。武器类型、袭击类型、目标类型等变量同时包含大量子类型,所以将相应的子类型变量删除。
第四步,删除所有疑似恐怖事件的样本 (即doubtter字段值为1的事件)。
第五步,参考大量文献,排除影响恐怖组织或个人分类结果的变量。iyear,iday变量,在后期的分类算法处理中很容易按照时间关系将数据进行分类,而恐怖组织实施活动受其影响较小。最终得到16个初筛特征变量与8319个样本。
2.空值补全
综上所述,对肺心病合并呼衰患者采取序贯通气治疗具有明显效果,能减少并发症出现,促进其健康恢复,值得采用。
4.休闲时间“自由化”。网络方便人们利用点滴时间,在日常工作、学习之余,冲破时间和空间的限制进行休闲活动。“鼠标一点”就可以在网络平台自由、平等选择休闲时间,进行各类休闲活动,突破现实休闲中的种种限制性因素,改变传统某些休闲项目被动、被支配、被监控的状态,它使人们更能切实做到解除体力上的疲劳,获得精神上的慰藉,更为重要的是在网络空间里人们更容易达到休闲的状态,实现工作、学习与休闲无明显界限的和谐理想状态。
空值补全的方法有很多,比如:用0代替、用均值填充、用插值法填充、用算法拟合填充等等,考虑到缺失数值的实际意义和计算方法的简便性,本文对于筛选出的变量中缺失的数据采用均值法填充,如:nwoundte和property变量中的缺失值与不确定值“-9”,采用数值平均数进行空值补全。
(二)特征选择
在进行数据清洗后,本题中特征选择采用R型聚类分析,运用matlab软件计算筛选得出8个主要变 量 , 分 别 为 imonth、country、specificity、success、targtype1、weapsubtype1、nwound、property。 如图 3 所示。
图3 恐怖组织特征变量聚类图
(三)构建危害等级模型
主成分分析(Principal Conponent Analysis,PCA)是1901年pearson对非随机变量引入的,[16]该方法通过将多个变量线性变换选出较少个数变量的一种多元统计分析方法。主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将相关性高的变量转化为彼此相互独立或不相关的变量。选出的变量通常能解释大部分资料中变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
主成分分析主要遵循以下步骤:
1.对原始数据进行标准化处理
式中,y1为第一个主成分,y2为第二个主成分,ym 为第m个主成分。
就在两个人喋喋不休之时,我发现坐在一旁的小孩,瞪着眼睛直勾勾的看着自己的爸妈,闪着泪花,但没有哭出来。
式中,…m ,即μj,sj 为第j个指标的样本均值和样本标准差。对应地,称为标准化指标变量。
2.计算相关系数矩阵R
相关系数矩阵 R=(rij )m×m ,有
发展文化戏曲事业,是实现中华民族伟大复兴的中国梦的需要。吕剧作为山东文化大观园中的一朵奇葩,是吕剧故乡人的骄傲和自豪。站在新起点,应对新挑战,东营区要象抓经济建设一样重视吕剧文化建设,积极采取对策,跟上时代潮流,加快吕剧文化的传承、宣传、创新和发展,切实做大做强吕剧文化产业,让现代吕剧“唱响山东、走向世界”,全力打响“中国吕剧文化品牌”。在黄蓝经济区建设中,充分发挥黄河口国际马拉松赛、中国(东营)国际石油石化装备与技术展览会、黄河口文化艺术节等节庆平台作用,实现吕剧唱戏搭台,以戏为媒,增强交流,促进吕剧故乡经济繁荣。
式中:rij =1,rij =rji ,rij 为第 i个指标与第 j个指标的相关系数。
选取累计贡献率达到90%以上,主成分分析的具有较好的效果。下面选取前5个主成分,由前5个特征根对应的特征向量见表。
计算综合得分:
假设进行主成分分析的指标变量共有m个,分别为x1,x2,…,xm,共有n个评价对象。将各指标值转化为标准化指标值,有
4.选择p(p≤m) 个主成分,计算综合评价值
计算特征值 λj (j =1,2…,m )的信息贡献率和累计贡献率。称
为主成分yj 的信息贡献率,同时,有
为主成分的累计贡献率。当αp 接近于1(一般取αp =0.85,0.90,0.95)时,则选择前p 个指标变量作为p 个主成分,代替原来m 个指标变量,从而对p 个主成分进行综合分析。
第一步,计算数据完整度(如图2所示),以数量完整度不足70%为标准,删除相应变量。
计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm ≥0,及对应的特征变量 u1,u2,…,um ,其中 uj =[u1j ,u1j ,…,umj ]T,由特征向量组成m个新的指标变量:
式中:bj 为第j个主成分的信息贡献率,根据综合得分值即可进行评价。
利用MATLAB 2016a软件对通过R型聚类分析得到的8个变量指标进行主成分分析,相关系数矩阵的特征根及其贡献率见表1。
表1 主成分分析结果
3.计算特征值和特征向量
李打油却依然成天乐呵呵的,一进村小就像个财大气粗的大老板,告诉我该置办的教具器材校长说了算,他只管掏钱。说是再穷不能穷孩子,对了,这句口号刷得到处都是,村委会门前那条,字大得太夸张,显得别有用心似的。见村小好久没找他报账,李打油指示我重新成立学校鼓号队,鼓号服装全换新的,而且要抓紧排练,他想在六一那天,把有关单位领导请来和祖国的花朵联欢,最大限度地调动他们支持农村办学的积极性。
分别以5个主成分贡献率为权重,构建恐袭事件危害等级模型,即
(四)恐怖组织聚类分析
经统计,2015、2016年度全球共发生的恐怖袭击事件28552起,其中有组织或个人宣称负责的事件共16186起,无组织或个人宣称负责的事件。根据两年间进行恐怖事件100次以上的同一组织或个人数量为26,构建如下关系:
推算出未有负责的事件中比较有危害性的组织或个人的数量。决定将2015、2016年度发生的、尚未有组织或个人宣称负责的恐怖袭击事件分为20类。
用Spss22.0软件进行k-均值聚类,设定迭代值为最大值100,运行后迭代记录如下,迭代25次后自动停止。
表2 迭代历史记录
最终聚类中心如下表所示,由最终聚类中心表3可知,每一类别中所有案例对应每一属性的平均值。
表3 前20名嫌疑恐怖组织或个人特征及作案数
通过危害等级模型,得出20类组织或个人的危害程度排名。根据运行结果,选出危害程度最大的前五名,7、19、2、3、18, 分别命名为 1 号嫌疑人,2 号嫌疑人,3号嫌疑人,4号嫌疑人和5号嫌疑人。
(五)计算嫌疑程度
用random函数随机从2017年发生的未确定嫌疑人的恐袭事件中抽出10个作为案例,通过SPSS的K-means聚类分析,分别将待测案例与前五类事件进行比较,通过各案例与前五类事件聚类中心的距离判断与某嫌疑人的关系大小。待测事件聚类距离如表4所示:
中小型工业企业资产少,抵押物少,而当前我国信用体系还不够健全,抵押物对于银行来说是最好的担保物品,缺少抵押物,银行的风控就比较难把控贷款的风险;中小企业应收账款规模小,资金的流量也较小,作为偿还银行贷款重要保障的资金流量,没有足够的流动性,银行不愿意承担资金链断裂的风险;由于近些年经常曝出企业资金链断裂,无法归还贷款,因此不论法人还是自然人,在给他人做担保的时候总是思考再三,不愿作保。同时由于大多数的企业公开的信息较少,在相互不了解的情况下,更是较难取得他人的担保,没有担保,银行也不愿意提供贷款;
预试问卷设计主要通过项目选编和评估,确定“高职院校数学教师核心素养量表”初测版.具体地,首先依据理论框架因素及要义编制项目,在项目表述上注意做到语句简单明了、通俗易懂、措词准确、没有模棱两可.项目初步拟定后,请专家评价这些项目.一是参照各因素的含义,评价每一个项目是否准确反映了对应因素的内涵;二是根据量表的语言要求,分析每一个项目的语言表述和可读性,注意分析是否存在歧义,表达是否符合高职院校教师的职业特征、专业水平等.根据综合评价意见进行修改,形成预试问卷.
表4 给定案例与五类恐怖分子袭击类型嫌疑表
其中编号为 201703120023、201705050009、2017 05050010的事件和前五类事件的关系程度均偏小。由于在上述案例聚类时,聚类中心距离范围为850-1000,因此,本文以距离小于800的标准为有一定嫌疑,得到恐怖分子关于典型事件的嫌疑度如表5所示(“/”表示经计算本文认为某嫌疑人关系不大):
CRS 被定义成一种鼻腔和鼻窦的慢性炎症性疾病,病程超过 12 周[1]。其主要表现为两种症状,一种为鼻塞、流涕;另一种为面部胀痛、嗅觉减退或消失。此外鼻窦计算机断层扫描(computed tomography,CT)和(或)鼻内镜检查提示窦口鼻道复合体和(或)鼻窦黏膜改变,包括鼻息肉、中鼻道脓性分泌物或鼻黏膜肿胀。
表5 恐怖分子关于典型事件的嫌疑度
四、结论
确定犯罪嫌疑人是对恐怖分子实施精确打击,遏制恐怖势力蔓延的前提和基础。本文利用现代信息处理技术对恐怖袭击事件进行量化分析,构建了恐怖袭击事件的危害性量化等级模型和潜在恐怖分子的特征识别模型,主要具有以下优点:一是运用聚类分析方法对变量进行降维,利用主成分分析方法构建评价模型,避免了人工筛选变量和赋权的主观性与随意性;二是本文所构建的模型利用SPSS、MATLAB等软件,操作简单,方便计算,同时通过实现数据可视化,便于展开分析。当然本文存在一定的不足之处,主要体现在未能有效建立起恐怖袭击事件的行为特征与原因之间的关联,这些在以后工作中进行改进。
学生从第三学期开始就全程进入企业,校园生活相对缺乏,对校园生活体会的较少,院系的各项活动几乎没有时间参加,一些有特长的学生和组织能力强的学生减少了锻炼机会。从一定程度上限制一部分同学的组织管理能力的发挥。在企业开展的年会等大型活动中,尽量给学生机会,使有才艺的学生得以发挥,增加了学生的锻炼机会。
参考文献:
[1] 叶美霞.试论国际恐怖主义对世界经济的影响[J].世界经济与政治论坛,2002,(06):64-67.
[2] 张将星.恐怖主义定义的心理要素分析[J].暨南学报(哲学社会科学版),2014,36(02):51-57,162.
[3]张绍彦.恐怖主义本原辨析——基于事实的本体性认识[J].现代法学,2013,35(05):33-42.
[4] 莫洪宪,叶小琴.我国恐怖主义定义研究综述[J].北京行政学院学报,2005,(05):77-82.
[5] 王雪梅.恐怖主义犯罪发展特点分析[J].环球法律评论,2013,35(01):21-33.
[6] 王玉辉,曾泽华,沈嘉荟,符天枢.基于APT逻辑的恐怖事件因果关系分析[J].信息网络安全,2017,(09):93-97.
[7] 连芷萱,夏一雪,史路遥,兰月新,王沙骋,连增水.基于logistic-ABC的恐怖活动风险因素识别与指标评级模型研究——俄罗斯2006-2016年恐怖活动的实证分析[J/OL]. 情报杂志:1-9.(2018-08-01)[2018-09-27].http://kns.cnki.net/kcms/detail/61.1167.G3.20180801.0950.008.ht ml.
[8] 薛安荣,毛文渊,王孟頔,陈泉浈.基于贝叶斯方法和变化表的恐怖行为预测算法 [J].计算机科学,2016,43(12):130-134.
[9]Bohannon J.Counter-terrorism's new tool: ‘Metanetwork’analysis[J].Science, 2009, 325(405): 409-411.
[10]Krebs V E.Mapping networks of terrorist cells[J].Connections, 2001,24(31): 43-52.
[11]刘子义.恐怖组织及其活动的时空特征研究[D].解放军信息工程大学,2017.
[12]毛文渊.基于行为变化的恐怖预测算法研究 [D].江苏大学,2016.
[13]陈泉浈.基于迁移学习的恐怖行为预测算法研究[D].江苏大学,2016.
[14]GTD 反恐数据库 [EB/OL].(2018-05-26)[2018-09-14].http://www.start.umd.edu/gtd/.
[15]司守奎,孙兆亮.数学建模算法与应用[M].北京:国防工业出版社,2015,(04):231-233.
[16]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013,30(08):25-31.
中图分类号: D815.5
文献标志码: A
文章编号: 2095-2031(2019)01-0029-06
收稿日期: 2018-11-25
作者简介 :杨澄懿(1992-),女,浙江嘉兴人,武警后勤学院2017级应用经济专业硕士研究生,从事后勤保障研究;邹立(1995-),女,江苏盐城人,武警后勤学院2017级应用经济专业硕士研究生,从事后勤保障研究;周晨(1994-),男,江苏盐城人,武警后勤学院2017级应用经济专业硕士研究生,从事后勤保障研究。
责任编辑:熊佳莹