浅析基于数据驱动的传染病发病率预测方法论文_陈超

摘要:传染病发病率与气候、饮水、空气质量、卫生条件等众多因素相关,各因素之间关系复杂,难以预测,基于数据驱动的传染病发病率预测假定各种影响因素均在发病率中有所体现,即前期的发病率涵盖了主要因素的影响,所以基于数据驱动的预测模型参数较少,适用范围广。本文对传染病发病率预测的意义、评价方法及典型基于数据驱动的传染病发病率预测方法进行介绍。

一、传染病发病率预测的意义

随着新时代中国社会经济的快速发展,高铁交通缩短了地域之间的距离,日行万里已是常事,人与人之间的距离接触变得更加容易,与此同时,野生动物的捕杀与食疗文化的扭曲现象明显,片面追求经济的快速发展所导致的生态环境破坏日益突出,人类免疫力受到影响,使得某些传染病的传播和扩散变得更为容易。人类社会正面临着潜在的危险,传染病爆发或大流行会给人类生存带来不可估量的损失与生命威胁。

传染病发病率预测技术反应了传染病的时间规律和发展趋势,为国家宏观控制疫情、分配社会资源、制定应急对策等工作提供了数据支持。特别是近年来,非典、禽流感与新冠疫情传播迅猛,引起了足够的重视,促进了传染病发病率预测技术的广泛的研究,期望为部署防治预防工作提供更为准确的判断依据,一定程度上降低传染病带来的人力、物力、财力的损耗,这关系到人民的生命安全、也关系到国家的稳定和发展,在理论和实际中,均具有重要的理论价值和现实意义。

二、模型评价指标

模型拟合精度的评价方法有关联度检验、残差检验和后验差检验,最常用的是后验差检验方法,对模型拟合的残差进行定量分析。首先计算传染病发病率原序列均值的方差,均值计算如下:

计算原序列的均方差:

其次计算残差的均方差,即预测值与真值之间的偏差:

并计算两个标准差的比值:和小误差概率:,由计算方法可知,标准差的比值是两个序列之间的离散度比较,值越小说明拟合精度越高,小误差概率评价预测的每个发病率的准确程度,值越大说明模型预测越准确。拟合精度分类见表 1,若检验结果在允许的范围内,则可以用所建立的模型对发病率进行分析预测。

表 1后验差检验判别参考表

对模型训练精度进行评价,采用平均相对误差(Mean Relative Error, MRE)及决定系数()两个指标对模型训练精度进行评价。MRE越小,越大,说明模型拟合精度越高。计算公式如下:

式中,为第个预测值,为第个真值。

采用相对误差RE(Relative Error,RE)对单次预测结果进行评价,计算如下:

三、典型发病率预测模型

在实际应用中可将发病率序列看做时间序列进行分析,时间序列是指按照时间顺序排列的数字序列,而时间序列分析就是通过一些数理统计方法对序列进行处理并得到其中的规律,然后对未来事物的发展趋势进行预测。目前存在的时间序列分析模型主要有微分方程模型,余弦模型,自回归模型,差分自回归滑动平均模型等。

人工神经网络是一种模拟人类大脑神经结构进行信息处理的问分方程模型,是目前应用最广泛也是最成熟的机器学习算法,具有较好的容错性,并行性,鲁棒性以及非线性拟合能力。神经网络通过将大量的节点相互连接,形成网状结构,网络中的节点也称为神经元,通过带有权值的有向弧连接。神经元是网络中的信息处理单元,对应着一种特定的输出函数(激励函数),具有单一的输出,而各节点之间互连的权值代表输入元素在本处理单元中的权重大小,可见,每一个神经元的功能就是取得输入向量和权值大小,在激励函数的作用下得到一个输出结果,也就是说输出结果由连接方式,权重和激励函数来决定。

人工神经网络类型较多,其中最典型的是BP神经网络,通常有三个层次:输入层,隐含层和输 出层。输入层用来接收外界输入的信息并传递给隐含层,然后隐含层根据神经网络中设置的激励函数和权重值对信息进行处理变换并传递给输出层,最后由输出层向外界输出信息处理结果。在使用神经网络进行训练时,如果输出值与实际值不符,则将误差反向传播到输入层,然后使用梯度下降方法不断修正权值,当学习得到的权值可以使误差达到预先设定的值,或者学习次数达到设定的值时,则停止对权值的修正。这种方法中学习次数和误差范围的设定很难把握,而且很有可能会造成过拟合的现象,并导致神经网络的学习速度慢,容易陷入局部极小值的缺点。

灰色系统理论是年由我国学者邓聚龙教授创立的,是指具有灰色性的系统,所谓灰色性就是数据的不明确性,而灰色系统就是这种模糊的既包含已知信息,又包含未知信息的系统,对灰色系统建立的预测模型称为灰色模型。虽然灰色系统是模糊的,但是灰色理论认为其中仍存在整体规律性。

因此用灰色模型进行建模需要首先将原始数据累加生成法进行处理,得到新的序列,新序列削弱了原始数据的随机性,消除了数据不全的问题,使数据呈现出较明显的特征规律,然后对新序列建立一种微分方程模型,最后对所得的数据进行逆生成还原即可。目前最常用是GM(1,1)灰色预测模型,表示的是1阶的、1个变量的微分方程模型。

四、结论

典型的线性时间序列分析方法主要针对传染病发病率的相关性和平稳性建立线性模型,但传染病的传染因素比较复杂,很少具有线性规律。为此,各种非线性的方法也受到了极大的关注,其中包括基于模糊理论的模糊时间序列预测模型以及基于核理论的非线性模型,比较常用的有指数平滑法、灰色模型法、马尔科夫链法、自回归移动平均法等,这些方法假定发病率符合某种趋势,利用历史数据进行参数估计,虽然克服了线性模型某些缺陷,但非线性映射能力仍然不足预测效果受影响较大。

论文作者:陈超

论文发表刊物:《医师在线》2020年3期

论文发表时间:2020/4/7

标签:;  ;  ;  ;  ;  ;  ;  ;  

浅析基于数据驱动的传染病发病率预测方法论文_陈超
下载Doc文档

猜你喜欢