基于Python关于世界自杀率影响因素的分析以及机器学习预测论文

基于Python关于世界自杀率影响因素的分析以及机器学习预测

文/刘子桦 马若炎

摘 要

本论文主要通过根据世界卫生组织2018年公布的全球自杀数据与联合国公布的HDI指数,结合世界银行统计的1985-2016年的世界主要国家GDP水平数据建立的数据集为研究与探索数据。利用Python Pandas科学分析库,对影响世界不同国家自杀率的因素进行数据与相关性分析。最后利用机器学习算法训练数据集,获得关于自杀率的预测模型,用于评估与测测国家与地区的自杀风险,从而指导相关政府与机构进行自杀预防工作。

【关键词】 自杀率 相关性分析 探索性数据分析 机器学习

1 引言

自杀是一种全球性的现象。根据WHO提供的数据显示,2012年,自杀死亡占全世界死亡总数的1.4%,在2012年的死因排序中居于第15位。

出租车企业可以通过对司机的道德培训和对其服务的有效监管,开创自己特有的竞争优势,使更多的乘客愿意为安全买单,从而提高出租车司机的载客量。

本文利用1985-2016年世界101个国家的自杀人数以及宏观参数的数据集,考虑时间(年),人口,HDI指数,GDP指数以及其衍生变量对自杀率的影响,并且对数据进行相关性分析,探究单个因素与总自杀率的线性相关性。最后利用多元线性回归与随机森林进行预测模型的生成。

蚕蛹油脂熬制工艺是通过加热使油脂从脂肪组织细胞中释放出来,有一些工艺,加热温度较低,通过机械作用破坏细胞使油脂释放出来。熬制工艺分为干法熬制和湿法熬制,干法熬制在加工过程中不加水或水蒸气,在常压、真空和压力下进行,而湿法熬制工艺中,脂肪组织是在水分存在条件下被加热的,得到产品颜色较浅,风味柔和。

2 相关性分析

2.1 相关分析的工具与实现方法

2.2.2 自杀率与性别组成之间的关系以及国家人类发展指数(HDI)之间的关系

并且使用梯度下降算法,不断缩小损失函数:

选取101个不同国家人口的增长速度为自变量,自杀率为因变量。由计算可知,在全球的范围内,自杀率与人口增加率之间成线性关系的拟合系数为0.0185。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.131,0.217,0.135。说明二者整体上成正相关,即人口增长速率增加会导致自杀率的增加,但是这种相关关系十分微弱。

r 亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式:

《岳麓书院历史简表》记载:“太平军过长沙,书院毁半。同治七年(1868年),巡抚刘崐大修。”刘崐任湖南巡抚4年半时间,大规模修复扩建了岳麓书院,还使城南书院、湖南贡院等湖湘文化重要传承地焕然一新。天心阁、谷山汉墓陵园、云麓宫、爱晚亭、风雩亭、牌楼口、邓禹墓等人文古迹也在刘崐主持下修葺一新,至今仍为湖南风景胜地。

2.2 单一变量相关性分析

2.2.1 自杀率与人口增长速度以及年龄分布之间的关系

将两组患者不同时间点血压MAP、血氧饱和度SpO2、心率HR数值作详细统计与分析,包括入手术室后基础值T0、诱导插管前即刻T1以及气管插管后即刻T2、切皮时T3等时间点数值。

图1:随机森林与多元线性回归比较

HDI指数是联合国1990开发计划署创立了人类发展指数,以“预期寿命、教育水平和生活质量”三项基础变量,按照一定的计算方法,衡量各个国家人类发展水平。本文选取不同国家HDI指数为自变量,自杀率为因变量。根据计算显示,在全球的范围内,自杀率与年龄组成之间成弱线性关系,拟合系数为0.578。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.215、0.333、0.241。说明二者整体上成正相关,即性别比例的增大会导致自杀率的增大,但是这种相关关系较弱。

本论文主要采用皮尔森相关系数逐个分析单一变量对最后因变量(自杀率)之间的相关程度。相关计算方式如下:估算样本的协方差和标准差,可得到样本皮尔逊系数,常用英文小写字母r代表:

选取男女性别比例为自变量,自杀率为因变量。由线性拟合可知,在全球的范围内,自杀率与年龄组成之间成强线性关系,拟合系数为0.55261。Kendall与Spearmans以及Pearsonr相关系数的值分别为0.540,0.742,0.743。说明二者整体上成强正相关关系,即性别比例的增大会大概率导致自杀率的增大。十分具有参考性,对人口政策具有指导意义。

在探究年龄分布情况时,选取年龄分布为自变量,自杀率为因变量。为了能够更好的表示一个国家的年龄分布,将5-14岁,15-24岁,25-34岁,35-54岁,55-74岁,74岁以上等不同年龄段分别赋予1-6的加权分数并且进行加权平均获得一个总分。利用Sklearn对1985-2015年之间全球的年龄组成与自杀率之间的进行线性拟合。根据相关性分析可知,在全球的范围内,自杀率与年龄组成之间成弱中等线性关系,拟合系数R^2为0.0928。Kendall与Spearmans以及Pearsonr相关系数的值分别为-0.242,-0.206,-0.305。说明二者整体上成负相关,即年龄组成增加(老龄化)会导致自杀率的减少。

2.2.3 自杀率与人均GDP之间的关系

选取不同国家人均GDP为自变量,自杀率为因变量。由计算得知,在全球的范围内,自杀率与人均GDP之间成相关关系的概率很低。拟合函数为0.021,Kendall与Spearmans以及Pearsonr相关系数的值分别为0.161,0.224,0.145,说明二者整体上成正相关,但是这种关系很弱,几乎可以视为不相关。

3 多元线性拟合与决策树及随机森林预测模型构建

3.1 多元线性拟合

对于多元线性回归,我们应该考虑每个特征值xj与其权重w乘积之和:

所以我们的线性模型为:

前期要勤采收,早上市,市场商品价格高,同时还可以减轻植株负担。如果营养生长过旺,可适当晚些采收,压秧防止徒长。

4.2.2 患者自控硬膜外镇痛(patient controlled epidural analgesia,PCEA):椎管内持续应用阿片类药物,如芬太尼、舒芬太尼、哌替啶、氢吗啡酮、吗啡及局麻药进行PCEA一直是有效的剖宫产术后镇痛方法。对于需要大量术后镇痛药物的患者(如慢性痛患者),使用PCEA很有必要。但是,对于PCEA的理想给药剂量还没有一致结论。同时,因留置的硬膜外导管放置时间长,而存在硬膜外感染、血肿甚至截瘫的风险,且导管移位、打折、拔出困难也是PCEA的并发症。同时,佩戴或移动镇痛泵可影响产妇活动,加重护理工作,增加住院时间、住院费用。

计算当L(f)最小时候,对应的w与b的值:

其中及σx分别是对Xi样本的标准分数、样本平均值和样本标准差。

在具体实施中,选取在本文中提到的人口增长率、性别比例、年龄组成、以及人均GDP四个相对独立的因素,进行归一化操作,然后合并作为特征向量构成因变量,目标变量为自杀率,生成4维向量进行多元线性回归。整个数据被分为90%的训练集以及10%的测试集。得到的多元线性回归拟合的拟合方程如下:

利用此方程对训练集数据与测试集数据进行线性拟合,结果显示训练集上均方差为0.678,测试集为0.596。

面对纷繁复杂的市场环境,茅台酱香酒公司主动求新求变,对组织、市场内外部进行一系列“大手术”:实施“工资清零、同工同酬”的薪酬制度,推行“干部能上能下、员工能进能出、收入能高能低”的晋升制度,形成了催人奋进的良好氛围;推进后勤组织结构优化,后勤保障功能得到进一步加强;完善产品开发流程,实施首问负责制……一系列大刀阔斧的改革让系列酒的品牌优势和品质优势得以充分释放。

3.2 利用随机森林进行预测

随机森林是利用多棵树对样本进行训练并预测的一种分类器。在本文中,使用50个决策树(Decison Tree)进行概率分类,进行投票程序,最终得到了误差更小,使用度更高的机器学习预测模型。利用随机森林生成的预测模型在训练集上的误差为0.606,在测试集上的误差较为理想,达到了0.098,是比较好的预测模型。如图1所示。

4 结束语

本文通过开放数据集,利用Python Pandas以及scikit-learn进行数据探索与分析,探究了国家宏观因素与自杀率之间的相关系数。并且建立多元回归模型、随机森林预测模型,其中随机森林预测的残差仅为0.0980,起到了很好的自杀率预测效果。

参考文献

[1]Tom M.Mitchell.MachineLearning[M].China Machine Press:China,2005:38.

[2]World Health Organzation.National suicide prevention strategies:progress, examples and indicators[R].Switzerland:WHO,2018.

[3]覃玉冰,邓春林,杨柳.基于皮尔逊相关系数的网络舆情评估指标体系构建研究[J].情报探索,2018,10:2-6.

[4]尹儒门,昌骞,王文剑.一种模型决策森林算法[J].计算机科学与探索,2019,8:1.

[5]徐文彬.中国自杀率随社会经济状况变化的模式研究[D].中国:大连医科大学,2017.

[6]赵玉新.多元线性回归中多重共线性的研究[J].产业与科技论坛,2019,03:1.

作者简介

刘子桦(1996-),男,华南理工大学,设计学院,本科。

马若炎(1998-),男,华南理工大学,设计学院,本科。

作者单位

华南理工大学 广东省广州市 510006

标签:;  ;  ;  ;  ;  

基于Python关于世界自杀率影响因素的分析以及机器学习预测论文
下载Doc文档

猜你喜欢