基于公开数据的SARS流行规律的建模及预报,本文主要内容关键词为:建模论文,规律论文,数据论文,SARS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212;R511
文献标识码:A
SARS的突然来袭和每日的疫情公告为我们提供流行病学研究的基本数据。基于数据人们试图发现疾病流行的规律,探求疾病的起因,以及控制和防治的办法。基于数据的规律研究一般有三大类方法:一是建立确定性的微分方程或动力学模型;二是采用现代数据挖掘(datamining)技术直接从数据中获取信息,认知规律;三是基于统计学和随机过程、时间序列分析对数据进行统计建模。我们的研究主要是基于第三类方法,它将和其它方法以及流行病学专家和临床医学专家的专业知识互为补充,以更好的把握带有不确定性的SARS演变规律,使人们从另一个角度更好的认识疾病。
一、封闭体系的流行病学模型
在流行病学模型中,较为简单的基本的封闭体系的模型就是微分方程组,其基本假设:
(1)人群分成两类:被怀疑感染人群x(t);被感染人群(病人总数)y(t);
(2)感染率是被感染人群的一个比例λ:ay(t);
(3)没有人口流动,N是封闭体系总人数;
(4)x(t)+y(t)=N;
(5)在初始时刻:x(O)=N。
从而建立如下微分方程:
对微分方程求解得到感染人数为:
针对SARS疫情的发展,随着人们对SARS的了解,控制措施的不断加强,感染强度α的值在不断减小。也就是α是受控制措施影响的,控制措施的增强会导致α值的不断减小,经验告诉我们相邻两天的控制措施是基本不变的。
由于我们有丰富的每日数据,采用迭代公式:
并根据实际观察不断修正相应的α值,得出的一系列总确诊人数和新增病例数预测值与实际值的比较,如图1.1和图1.2所示:(图中第一天是4月20日,最后一天是6月3日)
该模型虽然形式比较简单,只考虑了被怀疑人群和被感染人群。但是还是刻画了SARS流行规律的一些最基本的东西。比如感染机制。模型在对确诊人数预测的时候,在疫情发展阶段还是比较准确的。在疫情逐渐得到控制的时候,有比较大的偏差。这是因类SRS的流行规律的一些其它因素在模型中没有考虑到。控制模型与自然流行模型是不相同的。模型主要是对确诊总人数的预测。用本模型给出的每日新增人数的预测值,没有考虑到随机因素,而且受到前一天的影响较大。采用递推法,只能对未来1~2天的数据比较准确。如果继续对未来预测,则会产生比较大的系统偏差。
二、ARMA模型对北京医院确诊病例的建模及预报
时间序列分析有多种方法常用的方法是把数据表达为经典的分解式:
在选取趋势项时,我们参考了英国统计学家Willin Farr用曲线模拟的方法。(Willin Farr在1840年用正弦曲线对1837-1839年每季的天花死亡资料进行模拟,同时,在1866年,他成功地运用此方法预测了当年在英格兰的牛瘟的流行,这种方法后来被John Bromlee进一步发展。)
我们根据历史数据选取趋势项为:套色版(Chromatography)工具里面的GCAS函数。
的初步建模为ARMA(3,2)通过极大似然估计法,对模型进行精调,得到:
X(t)-1.195X(t-1)+0.02435X(t-2)+0.04619X(t-3)
=Z(t)-0.05983Z(t)-0.04017Z(t-2)
WN Variance=266.723186
AR Coefficients 1.194972
-0.024351
-0.461923
Standard Error of AR Coefficients 0.606258 1.039089 0.555309
MA Coefficients -0.598312
-0.401685
Standard Error of MA Coefficients 0.585794
0.581653
(Residual SS)/N=266.723
AICC=533.105052 BIC=535.817899
从而得到的预报,(图略)
接下来我们对ARMA(3,2)进行诊断检验,选取由MeLeod与Li(1983)建议的统计量:
从而得到:p-value=1-α=0.92739,
故这个模型的残差平方在水平α>0.07261的条件下通过了Pormanteau检验。
由得到北京医院尚有病人数的预测结果。根据模型得到如果不出现意外反弹北京医院的确诊病人总数在6月末有望期望降到60人以下,达到WHO的要求。因此从6月11日开始,20天左右的时间内至关重要,丝毫不能懈怠。
三、病死率初步估计
采用Boltzman函数对总确诊人数和总死亡人数,进行非线性拟合并预测,得到最终的死亡人数和确诊人数。
对总人数的拟合及预测如图3.1(图略),见原文下同,对总死亡人数的拟合及预测如图3.2(图略)。
得到:全世界的病死率=9.6%
用此方法,对各个地区的病死率的预测结果如表3.3(表略)
同时我们对病死率进行了Bayes估计。定义病死率为:
(1)在确定其先验分布时,我们采用了,选定先验密度密数形式(bera函数),再估计其超参数的方法,具体如下:选用的密度函数形式是Beta分布
(2)选用的历史数据是:香港、新加坡、天津、河北、内蒙、广东。(由于以上地区的SARS疫情发展已经基本接近尾声,所以选用上述地区作为历史数据)
根据样本值,用矩估计确定beta分布的参数α,β。
得出这次SARS疫情结束时,其它各地区的病死率,如表3.2。(表略)贝叶斯估计,考虑先验影响,能够得到较为精确的统计推断。而且上面两种估计方法得到的结果相差不大,说明估计的结果是较为准确的。
华北地区的病死率结果比较,山西<河北<北京<天津<内蒙。说明内蒙和天津的医疗措施有待进一步的改善;广东的病死率明显低于其它地区,在一定程度上我们认为广东在对SARS的医疗实践值得其它地区借鉴。当然,由于广东作为SARS较早发病的地区,在信息收集方面的完整程度,没有其它地区规范。中国的病死率明显的低于世界其它地区,而且低于世界平均水平。可以看出整体来说,中国对SARS的医疗实践相对来说比较有效,有可能中西医结合对SARS的治疗确实有效的原因。当信息不完整也可能引起病死率的变化。
四、结束语
以上是我们基于公开数据的SARS统计建模和分析的一些结果,由于这些公开数据是不完整且不充分的信息,我们的分析结果和研究对象都还是有一定局限。但是所用方法将有一定的参考价值。