数据资料与拟合模型,本文主要内容关键词为:数据资料论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 建模中的数据资料
组建数学模型的目的是想利用它来有效地分析和解决实际问题,而数据资料就是数学模型与实际问题相联系的重要途径和手段。这里所说的数据资料指的是人们从实际问题中所收集到的事实观察值和测量值。然而由于实际问题的复杂性,使得我们所得到的数据资料有可能是不精确的或者不完善的。但是与我们所组建的数学模型相比较,它更直接来自于现实世界,并带有大量与实际问题相关的信息,所以,数据资料应该是组建数学模型的重要依据和检验数学模型的重要标准。因此,在建模过程中如何处理好数据资料和数学模型的关系就显得非常重要。
在建模过程中,数据资料往往以下面几种方式对数学模型的组建起作用:
1)在建模过程中(特别是在建模的初期), 当我们开始构架问题的模型时,数据资料能够帮助我们对所构架的模型给予提示。有些模型(我们称之为经验模型)则是完全建立在数据资料的基础之上。
2)数据资料可以帮助我们对模型的参数给出估计。 使用数据资料给出模型参数值的估计过程,我们称之为模型的参数估计。
3)数据资料还可以用于检验模型的效果。 也就是说检验模型计算出来的理论数值是否合理地反映了实际的观测结果。如果有若干个模型描述同一个实际问题时,模型效果的检验可以帮助我们选择最优的模型。
2 最小二乘法
最小二乘法实质上是在观察点处误差的平方和达到极小的前提下,使用简单曲线拟合观测点的一种方法。假设(x[,1],y[,1]),(x[,2],y[,2]),…,(x[,n],y[,n])是一组观测数据,如果y与x 之间有线性模型y=a+bx的关系的话,则每一对观测值
考虑到偏差的代数和性质,我们令
是所有观测点处误差的平方和。
显然,Q值越小,对应的直线方程就越理想,因此我们可以把Q值作为拟合线性模型效果的一个准则。于是问题就变成,已知一组数据(x[,i],y[,i]),i=1,2,…,n,求使得Q值最小时的线
为此,我们就认为人口数量是时间的函数。这样一来,我们以时间t作为横坐标,人口数量N作为纵坐标,将问题所提供的统计资料以散点图的方式标于坐标系中。
从散点图,我们可以发现这些散点近似在一条直线上,于是,我们设想人口数量随时间而直线增长,因此,我们有模型N=a+bt,模型中的参数a,b就可以使用最小二乘法来给出估计。
将上述数据代入上面的公式,可以求得N=14.51t-27753.55。 作为预报,当t=1999时,得到N=12.52亿。即,估计我国1999 年的人口数将为12.52亿。
当然,我们还可以在若干较强的假设下,从作用机理的角度出发给出一个描述自然增长的人口群体增长的数学模型。它给出的规律是人口的总数N(t)将以指数函数N(t)=N[,0]e[rt]的形式增长。这样,我们也可以用指数模型来拟合我国的人口统计资料,为此,对模型的两边分别取对数,lnN=lnN[,0]+rt,可知lnN将与时间t有线性模型的关系。针对所给出的统计资料(t[,i],N[,i]),我们假设它与模型之间有关系lnN[,i]=lnN[,0]+rt[,i]+ε[,i],i=1,2,…,n,其中ε[,i]为数据资料的误差。于是利用最小二乘法,对lnN[,0]和r给出其估计值,有lnN[,0]=-27.9047,N[,0]=7.6055×10[-13],r=0.01756这时,我国的人口增长模型为N(t)=7.6055×10[-13]e[0.01756t]。利用这个模型,对1999年的人口数量做预报,可得N(1999)=13.39亿。
比较这两个模型的拟合效果,我们分别计算在这两个模型假设下的理论值,并将它与实际值相比较,得到下表:
计算两个模型下的误差平方和,在线性模型下,Q[,1]=2481.84,而在指数模型下,Q[,2]=6874.57。故线性模型的拟合效果较好。仔细分析这些数据,我们将会发现,指数模型的偏差主要发生于1984年以后,并且有逐年偏高的趋势。联想到我国人口发展的实情可知,它恰好反映了我国计划生育政策对人口增长的影响。而这一因素对于自然增长的人口群体模型来说是被忽略的因素,这就是导致指数模型对于1999年我国人口数估计偏高的一个原因。