基于聚类的数据加权优化在犯罪预测中的应用
孙小川,芦天亮
(中国人民公安大学信息技术与网络安全学院,北京 102600)
摘要: 近年来,我国传统暴力犯罪与成年人犯罪呈下降态势,但是,犯罪案由层出不穷。为有效提升公安实践工作中犯罪预测能力,打击各类违法犯罪事件,本文针对犯罪数据,提出一种新型犯罪预测模型。利用密度聚类分析方法将犯罪数据分类,然后进行数据降维提取关键属性生成特征数据,继而对特征数据进行加权优化并采用机器学习的方式对特征数据进行学习,从而预测犯罪案由。实验结果表明,与传统方法相比,本文方法具有更好的预测效果,为公安实践工作中类似案件的侦破和预防,提供新的路径支撑。
关键词: 犯罪预测; 特征数据; 加权优化; 机器学习
0 引 言
公安实践工作中,信息化已渗透到公安工作的方方面面,在信息化建设的基础上,将数据挖掘技术和机器学习相关理念应用到犯罪数据分析之中,可以分析挖掘犯罪数据,进行科学研判,以期预测不同犯罪案由,进而为公安实践工作中类似案件的侦破和预防提供有益帮助。
在小学教学中应用信息化教学资源时,一定要科学合理地选择,不能只是一味地追求画面的美感,把课堂教学转变为信息化教学资源的展示场所,在小学教学中应用信息化教学资源的关键是优化整个教学过程,贯彻落实好以生为本的教学理念,充分尊重学生在课堂中的主体地位,注重培养学生的综合能力,因此,小学教师一定要科学合理地引导学生选择适用的教学资源,进而构建充分体现出自身特色的知识体系,并形成自己的思维方式,帮助学生更好地理解教学中的重难点知识,从而极大地发挥出信息化教学资源的实际价值,真正提升小学课堂教学的有效性。
本文采用基于密度的聚类方法对犯罪数据进行分类,而后对数据降维,提取关键属性,生成特征数据,并对其进行加权优化后进行机器训练、学习,从而预测犯罪案由。
1 相关研究现状
在新一轮警务改革与发展的时代潮流下,分析犯罪相关数据是公安业务开展的基础。犯罪数据分析旨在对犯罪数据进行分析、建模和案由预测[1],传统数据分析中单纯的数字罗列、数据比较、回归分析和经验预测等传统犯罪数据分析方法[2]已经无法满足公安实践工作的需要,因此传统犯罪数据分析方法亟待创新。基于数据驱动的犯罪预测必然是未来犯罪预测的重要方向[3],当前不断创新犯罪预测模型,通过建立数学模型进行预测的相关机器学习算法模型有:决策树算法模型、自回归移动平均模型和向量自回归模型等[4]。
近些年,在公安实践中,北京市怀柔分局启动了“犯罪数据分析和趋势预测系统”[5],通过建立多种预测模型,以期预测犯罪种类和犯罪概率,开始探索“智慧警务”建设。嘉兴市桐乡公安局将“知识图谱与大数据”相关技术应用到公安实战中,推动基础数据智能采集,分析研判数据,获取情报线索[6],在实践中预防相似犯罪取得了良好的社会效果。在司法领域中,中电科系统团委联合清华大学、北京大学、中国科学院软件研究所共同举办“中国法研杯”司法人工智能挑战赛(CAIL 2018),将自然语言处理技术和深度学习相结合,对公开的刑事法律文书进行分析、建模,完成罪名预测、法条推荐和刑期预测等实际任务,促进了预测犯罪相关技术的发展,受到了学术界广泛关注。本文顺应警务改革与发展时代潮流,在传统数理分析基础之上,结合数据挖掘和机器学习理论相关理念对犯罪数据进行分析、研判和预测,以期为公安实践工作中类似案件的侦破和预防,提供新的路径支撑[7]。
鹅常见节肢动物类寄生虫病主要包括鹅虱、鹅螨病、鹅蜱虫病,这类寄生虫病通常属于体表寄生虫病,主要侵害禽类动物。节肢类动物寄生虫寄生到蛾体表,会不断破坏体表皮肤组织,刺吸机体血液,影响鹅的正常生长发育,同时寄生虫在繁殖生长中所产生的毒素,还会不断刺激鹅体表皮肤,产生剧烈瘙痒症状,严重影响鹅的生产水平。另外,很多节肢动物类寄生虫还是其他病原体的中间传播宿主。因此,做好鹅节肢动物类寄生虫病的防治工作意义重大。
2 数据加权优化犯罪数据预测模型
其中,k 为数据保留方差百分比,λ j 为协方差矩阵的第j 个特征值。
图1 犯罪数据预测模型
1)数据收集。本文犯罪数据采集于某拘留所违法犯罪人员记录,对犯罪数据进行脱密并进行数据清洗和数据预处理。
2)数据处理。采用基于密度聚类的方式对犯罪数据进行分类,对聚类后的犯罪数据进行降维处理,力图保留数据主成分,便于数据的加权优化。
3)数据预测。将优化后的犯罪数据用机器学习相关算法对训练数据进行学习、建模,而后利用模型对测试数据进行犯罪预测,根据预测犯罪案由的准确率和误判率来评价模型性能。
2.1 数据收集与预处理
本文提取某拘留所近4年违法犯罪人员信息,随机抽取10条犯罪记录示例,如表1所示。
The comparative studies were assessed by the Newcastle-Ottawa Quality Assessment Scale (NOS)[21].Twelve of 14 studies had 6 or more star points on the NOS scale.
表1 犯罪数据记录
4.1 结论 1)体育舞蹈能够有效提升普通大学生的协调性与灵敏素质。拉丁舞更有助于提升大学生的反应灵敏和快速变向移动重心能力,标准舞更有助于提升大学生的移动灵敏能力。
经过上述数据预处理,从表1中犯罪记录生成犯罪数据预处理结果,如表2所示。
表2 犯罪数据预处理结果
综上所述,经阴道彩色多普勒超声可作为子宫内膜病变诊断的首选方式,能为宫腔镜检查提供诊断依据,对其检查无异常但症状持续者或疑似子宫内膜病变者可行宫腔镜检查,以提高诊断符合率。
其中,max为样本数据的最大值,min为样本数据的最小值。
2.2 犯罪数据密度聚类
综上所述,氨磺必利与奥氮平治疗急性期精神分裂症患者的临床效果均较为理想,但在药物安全性方面氨磺必利表现更佳,建议在临床上进一步推广。
于是笔者将相关设施重新运到渡口安装,这次将2个升降立柱安装在船艏。虽然河水水位较高、水流湍急,但经过几次来回拉扯试渡运,觉得比以前低水位时升降立柱安装在船侧时更省力、更平稳。
在DBSCAN算法中将数据点分为3类[12]:1)核心点,在半径内含有超过指定数目的点;2)边界点,在半径内点的数量小于指定数目的点;但是落在核心点的邻域内;3)噪音点,既不是核心点也不是边界点的点。DBSCAN算法一般流程如下[13]:
1)将所有的点标记为核心点、边界点和噪声点。
2)删除噪声点。
3)为距离在指定半径之内的所有核心点赋予一条边。
其中,Sum(average)为数据平均值之和,1代表基集,α (n ,m )是一个值域为[0,1]的参数,否则舍去。n 、m 为不同的属性阈,并且average(f n )小于average(f m )。经过优化后的犯罪数据,作为预测犯罪案由的输入数据。
在过程里固然变化万千,结局也总是不可预测的,我们可能同时接受着雨的打击和阳光的温暖,我们也可能同时接受阳光无情的曝晒与雨水有情的润泽,山水介于有情与无情之间,能适性地、勇敢地举起脚步,我们就不会因自然轻易得感冒。
将数据按比例缩放,使之落入一个小的特定区间[9]。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。鉴于本文旨在预测犯罪案由,因此,保留犯罪案例属性,对其余属性采用离差标准化的方法对数据进行线性变换映射到[0,1]之间,数据转换公式[10]如下:
5)将每个边界点指派到一个与之关联的核心点的簇中。
本文采用R语言实现犯罪数据密度聚类,R是用于统计计算的编程语言和环境,便于挖掘有效且未知信息的一项技术[14]。为便于观察数据,列出犯罪案由直方图,如图2所示。
图2 犯罪案由直方图
将“文本描述”按照文献[15]提出的向量-空间模型进行向量化,利用R语言实现密度聚类,将数据投影到不同的簇类中,聚类结果如图3所示。
图3 犯罪数据聚类图
根据图3所示,犯罪数据聚类后形成3个簇(图3中用点线、实线、虚线所圈的区域进行标出),簇类标识为0、1、2、3,本文中视簇类标识为0的数据为离群点数据,对于离群点数据可能是新出现的犯罪案由,应当引起高度警惕。因此,本文将提取离群点数据,让基层干警进行人工研判,确保犯罪分析中不遗漏案件。
2.3 数据降维与加权优化
2.3.1 数据降维
通过以下例句,学生可以归纳出如何用whose,of which和of whom实现对先行词的所有格的照应。
基于密度聚类分析生成的簇,是一组数据对象的集合,具有相似的数据特征,将该类数据集称为特征数据[16],在尽可能减少信息损失的情况下对特征数据进行降维,因此文中采用主成分分析[17](Principal Component Analysis, PCA)方法对犯罪数据进行降维,其将犯罪数据从原始空间转换到新的特征空间中,是一种能够极大提升机器学习速度的数据降维方法。该算法会计算数据协方差矩阵∑的特征向量λ ,通常会考虑降维过程中数据保留方差百分比,其计算公式为:
将犯罪数据预测模型分为数据收集、数据处理、数据预测3个阶段,如图1所示。
本文基于Python对数据进行降维处理,Python开发效率高且实现容易,被称之为“胶水语言”[18],尽可能保留数据的完整性,将犯罪数据降维成4维数据(λ 值分别约为:λ 7=1.26,λ 3=0.93,λ 5=0.23,λ 6=0.02对应的属性分别为文本特征、年龄、文化程度和婚姻状况),生成犯罪数据降维表,如表3所示。
二级市场走势看,5G板块整体走势强劲,尤其是光模块、基站天线的个股涨幅较大。光迅科技股价在年线处企稳回升,且成交量逐渐放大,或将进入新一轮上升通道,投资者可适时逢低布局,择机高抛。
表3 犯罪数据降维表
2.3.2 数据加权优化
对于犯罪数据进行清洗和预处理,便于聚类分析[8],数据预处理的说明如下:入所日期(取值年、月)、性别(男性:0,女性:1)、出生日期(计算出年龄)、民族(汉族:1,回族:2,黎族:3,其他民族省略)、文化程度(文盲:1,小学:2,初中:3,中专、高中:4,大学及以上:5)、婚姻状况(未婚:1,已婚:2,离婚:3,丧偶:4)、文本描述(文中假设“被拘留”天数作为文本特征进行处理),案由中按照具备攻击性和不具备攻击性进行区分,例如盗窃、卖淫和赌博等被视为不具有攻击性,殴打他人、寻衅滋事和扰乱单位秩序等被视为具有攻击性(不具有攻击性:0,具有攻击性:1)。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[11]是一个有代表性的基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在数据库中发现任意形状的聚类。
在数据优化之前,为整合数据,结合实际文中不采用离群点数据(簇类标识为0,该类数据视作人工干预数据),仅采用簇类中的数据,将无法归类到任何一簇的数据进行剔除处理。在数据优化过程中,通过引入权值α ,通过不同的权值来平衡相应数据属性权重,对犯罪数据进行加权优化。为此,本文引入如下加权优化公式:
4)每组连通的核心点形成一个簇。
2.4 犯罪案由预测
本文采用支持向量机(Support Vector Machines, SVM)[19]对输入数据进行训练和测试,预测犯罪案由,SVM中的分类器可以不加修改即可直接使用。同时,在数据上应用基本形式的SVM分类器可以得到低错误率的结果,SVM能够对训练集中的数据点做出很好的分类决策。本文使用支持向量机中应用较广的一种算法,即径向基函数算法(Radial Basis Function, RBF)[20],径向基函数是一个采用向量作为自变量的函数,能够基于向量距离运算输出一个标量。它是一种单调函数,具有易理解、结果易懂等优点。本文使用的支持向量机参数为:SVC(C=1.0,cache_size=200,class_weight=None,cofe0=0.0,decision_function_shape=′ovo′,degree=3,gamma=20,kernel=′rbf′,max_iter=-1,probability=False,random_state=None,shrinking=True,tol=0.001,verbose=False)。
SVM过程实现的一般步骤[18]如下:
1)准备数据集。将数据集进行处理转化为SVM支持的数据格式,并对数据集进行缩放操作。
2)选用核函数。常用的核函数有线性核函数、多项式核函数、RBF核函数、sigmoid核函数等,本文选用RBF算法对犯罪数据进行训练和测试。
3)重复实验。SVM用训练集得到的最佳参数对整个数据集进行训练得到SVM模型,并用该模型进行数据预测。
4)进行验证。一般验证方式有Holdout验证、留一验证和K折交叉验证等方式。K折交叉验证的优点是能够重复运用子样本集进行训练和验证,每次的结果验证一次模型,K折交叉验证是最常用的验证方式,本文即选用此验证方式。
3 模拟实验
根据第2章降维后的犯罪数据,结合数据加权优化公式对其进行加权优化处理,通过计算获得的α 分别为:α 1=0.91,α 2=0.10,α 3=0.94,α 4=0.96,生成输入数据,如表4所示。
总体来看,情报信息机构的知识服务在经过几年的理论导入之后,随着研究和实践的深入,以文献为载体的成果数量在一个较长的时间里出现了波动增长的态势。近年来统计数据的下滑,反映了在大数据、云计算和人工智能等现代信息技术迅速发展的条件下,知识服务的理论和实践进入了蛰伏期和升级换挡阶段。
表4 犯罪数据输入表
本文采用十折交叉验证[21]来测试预测模型准确性,将犯罪数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行实验。利用Python中支持向量机算法对训练数据进行学习、建模,而后利用模型对测试数据进行犯罪预测,计算出预测犯罪案由的准确率。在模型测试过程中,为正确评估模型性能,进行多次实验,经过十折交叉验证,得到犯罪预测模型的准确率和误判率,并计算得出平均准确率和平均召回率,以此来衡量模型预测的准确性,并评估犯罪数据预测模型性能,如表5所示。
将10次实验结果准确率的平均值作为对模型性能的衡量方式,经过计算,该犯罪预测模型的平均准确率约为0.964,平均召回率约为0.831。
表5 模型衡量指标
本文介绍了一种新的犯罪数据预测模型,简明扼要,易于实现,并在预测的准确率方面得到了较为理想的结果。同时,由于实验数据采集的随机性和多样性,样本选取过于集中,加上基于密度聚类方法不能很好地反映高尺寸数据和数据变化的密度等缺陷,本文的实验数据存在过度拟合的可能,实验结果难以从定量上精确预测犯罪案由,仅可从定性上对违法犯罪进行有效评估。
4 结束语
近几年来,全国部分城市开始提出并探索“智慧警务”建设,将数据挖掘和机器学习相关理念融入到公安实践工作中,可以为案件分析提供有益的指导和帮助,顺应了下一轮警务改革与发展的战略选择和时代潮流。在信息化建设的今天,情报搜集分析能力越来越重要,充分利用基层数据,经过深层次数据分析,其结果服务基层,反哺实战效能,真正做到从数据中获取情报线索,为侦查打击、基础管理和情报服务提供信息保障[22]。本文将犯罪数据加以归类、分析再预测,旨在提升基层民警情报搜集分析和研判能力,为民警在分析犯罪数据时发现相似犯罪提供数据支撑。同时,本文仍存在许多不足,如数据采集过于集中,没有体现出地域差异性,实验存在一定的随机性,结果不能更加细致、精确地预测犯罪案由以及追溯犯罪原因。因此,要深入挖掘犯罪动机等因素,建立全面准确的预警信息,还需实地调查和理论研究相结合,进一步将理论联系实际,建立更为有效的犯罪预测相关模型。
参考文献:
[1] KIANI R, MAHDAVI S, KESHAVARZI A. Analysis and prediction of crimes by clustering and classification[J]. International Journal of Advanced Research in Artificial Intelligence, 2015,4(8):11-17.
[2] 王慧,郑涛,张建岭. 基于聚类的关联规则算法在刑事犯罪行为分析中的应用[J]. 中国人民公安大学学报(自然科学版), 2010,16(3):64-67.
[3] 李国军. 论大数据驱动下的预测警务创新[J]. 中国人民公安大学学报(社会科学版), 2015,31(6):3-8.
[4] JORDAN M I, MITCHELL T M. Machine learning: Trends, perspectives, and prospects[J]. Science, 2015,349(6245):255-260.
[5] 陈等阳,王朝煌. 网格空间资料探勘应用于犯罪预测之研究[J]. 净月学刊, 2018(2):56-66.
[6] 嘉兴市公安局. 追梦的脚步——桐乡公安智慧警务纪实[Z]. 嘉兴:嘉兴市公安局, 2017.
[7] 赵华珍. 数据挖掘技术及其在刑侦工作中的应用分析[J]. 科学中国人, 2016:111-113.
[8] 夏颖,王哲,程琳. 聚类分析在犯罪数据分析中的应用[J]. 合肥工业大学学报(自然科学版), 2009,32(12):1924-1927.
[9] 吉根林,孙志挥. 数据挖掘技术[J]. 中国图象图形学报, 2001(8):715-721.
[10] HAN J W, KAMBER M, PEI J, et al. 数据挖掘:概念与技术[M]. 范明,孟小峰,译. 3版. 北京:机械工业出版社, 2015:298-300.
[11] 毛国君,段立娟. 数据挖掘原理与算法[M]. 3版. 北京:清华大学出版社, 2016:306-307.
[12] 王桂芝,王广亮. 改进的快速DBSCAN算法[J]. 计算机应用, 2009,29(9):2505-2508.
[13] 陈峰. 基于聚类的增量数据挖掘研究[D]. 大连:大连海事大学, 2007.
[14] TORGO L. 数据挖掘与R语言[M]. 李洪成,陈道轮,吴立明,译. 北京:机械工业出版社, 2016:15-17.
[15] ZAFARANI R, ABBASI M, LIU H. 社会媒体挖掘[M]. 北京:人民邮电出版社, 2015.
[16] 陈鹏,瞿珂,陈刚,等. 反恐背景下的个人特征数据构成与涉恐个体的挖掘分析[J]. 情报杂志, 2018,37(4):38-41.
[17] 赵桂儒. 较大规模数据应用降维的一种方法[J]. 电脑知识与技术, 2014,10(8):1835-1837.
[18] 张良均,王路,谭立云,等. Python数据分析与挖掘实战[M]. 北京:机械工业出版社, 2017:13-17.
[19] DEAN J. 大数据挖掘与机器学习[M]. 北京:人民邮电出版社, 2017:121-123.
[20] HARRINGTON P. 机械学习实战[M]. 李锐,李鹏,曲亚东,等译. 北京:人民邮电出版社, 2016:89-91.
[21] 范永东. 模型选择中的交叉验证方法综述[D]. 太原:山西大学, 2013.
[22] 陈鹏,瞿珂,胡啸峰. 犯罪情报分析中的数据挖掘应用[J]. 计算机系统应用, 2017,26(2):249-253.
Application of Data Weighting Optimization Based on Clustering in Crime Prediction
SUN Xiao-chuan, LU Tian-liang
(School of Information Technology & Network Security, People’s Public Security University of China, Beijing 102600, China)
Abstract : In recent years, traditional violent crimes and adult crimes in China have shown a downward trend. However, the types of crimes are endless. In order to effectively improve the ability of crime prediction in the public security practice and combat various types of illegal and criminal events, a new crime prediction model is proposed for crime data in this paper. The crime data are classified by density clustering analysis method, then the data is dimension-reduced to extract key attributes to generate feature data, and then the feature data are weighted and optimized, and the data are learned by the way of machine learning to predict the type of crime. The experimental results show that compared with the traditional methods, the proposed method has better prediction effect, providing a new path support for the detection and prevention of similar cases in the public security practice.
Key words : crime prediction; feature data; weighted optimization; machine learning
文章编号: 1006-2475(2019)06-0055-05
收稿日期: 2018-11-13; 修回日期:2018-12-07
基金项目: 国家重点研发计划“网络空间安全”重点专项(2016YFB0801100); 国家自然科学基金资助项目(61602489); “十三五”国家密码发展基金密码理论研究课题(MMJJ20180108)
作者简介: 孙小川(1991-),男,四川绵阳人,硕士研究生,研究方向:网络空间安全执法技术,E-mail: sun475449402@163.com; 芦天亮(1985-),男,副教授,研究方向:网络安全,恶意代码。
中图分类号: TP391
文献标识码: A
doi: 10.3969/j.issn.1006-2475.2019.06.009
标签:犯罪预测论文; 特征数据论文; 加权优化论文; 机器学习论文; 中国人民公安大学信息技术与网络安全学院论文;