高维纵向数据群点的刚体结构检验方法,本文主要内容关键词为:刚体论文,纵向论文,检验方法论文,结构论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:0212
引言
建模预测方法在技术、经济、医学、社会等等领域重要的数据分析工具。纵向数据的预测模型现在受到越来越多重视。所谓纵向数据,就是在不同地区或者不同时间对相同事件进行追踪观测所得到的数据。在这一方面,大量的研究集中在未知参数或未知函数估计方法上,检验问题还较少涉及。见Diggle, et al.(1994)。在实际研究中经常需要研究高维纵向样本点集合随着时间变化的运动规律(这里简称为“高维群点”)。本文中,我们研究如何检验高维群点在时间变化中,即运动中是否保持刚体结构的问题。这个问题在研究中国城市群的经济发展多元性有着重要意义。
然而,由于维数的影响,使得计算工作量大,并且难以获得群点的整体特征。这类研究甚为困难,从而被称为维数祸根,见Huber(1985)。在相关的研究中,王惠文、冯允成(1993)利用主成分分析理论提出多维数据表的动素分解、合成和向前推测方法,指出高维群点的运动可以完备地分解成三个部分,即:质心的平移运动、主轴的旋转运动,以及各个样本点在主轴上的投影变动。由此可见,可以通过对数据表中少数主要特征进行建模预测,来最终合成对整体数据表的未来预测。这为大幅度降低建模与计算工作量,同时在建模中保护群点的主要特征并识别它们的运动方式,提供了一种新的研究思路。 Zhu and Ng(1995)、Zhu and Fang(1996)研究了相关的问题。
如果在群点运动中,各样本点相对主轴的坐标均未发生变化,则可以认为这是一个“刚体群点”。王惠文、朱力行、冯鸣鸣(1996)研究了刚体群点预测模型,指出对于刚体群点,只要预测其重心平移和主轴旋转,就可以完整地预测所有样本点的未来方位。高维群点的质心平移运动可以采用现有文献中的质点预测模型。王惠文、刘强(1996)提出了高维群点的主轴旋转预测建模方法。
然而要正确地使用刚体预测模型,还必须检验一个高维群点在运动中是否保持刚体结构。在回归分析中,模型检验已经受到相当的关注,特别是对于基于降维数据建立的模型,有一个适当的检验的必要的,使我们对于降维后的模型有一个合适的评估。Stute,Theis and Zhu(1998)提出更新过程方法,Zhu(2003)提出一种降维方法进行检验,Zhu and Ng(2003)考虑了部分线性模型的检验。
本文提出一种高维群点变形系数的定义以及对高维群点在运动中是否保持刚体结构进行检验的方法。论文通过仿真案例验证了方法的合理性,并通过对中国东部、西部城市经济发展过程中刚性结构变化的比较分析,揭示出一些特殊的经济现象与规律,说明了高维群点刚性结构研究的重要应用价值。
一、多维群点的刚体性质定义与检验方法
(一)基本思路
在物理学中定义,刚体是由彼此间距离保持不变的大量质点组成的质点系。任何一个刚体在空间的运动可以分解成两个独立的部分,一个是刚体的平动,它可以用刚体质心的平移运动表示;另一个是刚体的定轴转动,可以用刚体主轴的旋转运动表示。本文定义的刚体主轴是群点变异最大的方向;第二主轴
垂直,是变异第二大方向,以此类推……。显而易见,当从时刻T运行到时刻(T+ 1);如果群点保持刚体结构,则每一个样本点在主轴上的投影坐标不发生改变。由此可以给出高维群点具有刚体结构的定义。
定义1 记分别为T时刻与(T+1)时刻的n行p列数据表,它们具有同样的样本点,并且每个样本点均采用同样的变量测量。不失一般性,假设它们均为标准化的数据表。对它们分别进行主成分分析,如果两个数据表中任一样本点的主成分均相等,则称高维群点在运动中保持刚体结构。如果记
为T时刻与(T+1)时刻的主成分矩阵,则这时应该有:
这个定义从运动的物理过程也是十分容易理解的。在主成分分析的过程中,通过数据的中心化处理可以消除高维群点的平移运动,而通过旋转变换可以消除高维群点的转动变化。因此,对进行主成分分析,相当于将两个群点都转换到标准位置。比较两个群点在标准位置各个样本点的空间坐标 (即主成分),如果未发生变化,则称高维群点在运动中保持刚体结构。从这个思路出发,可以给出对高维群点在运动中是否保持刚体结构进行检验的统计方法。
(二)检验方法
(1)设计检验统计量
三、案例研究
分别选取中国14个沿海城市和14个西部地区城市为作本点(见表1);选取社会劳动者人数、社会商品零售总额、工业总产值、外贸收购总额作为指标变量,研究它们在1986~1992年逐年的刚体结构变化情况。
表1 城市名
1992年中国开始第二轮改革开放,并全面推行市场经济。通过刚体检验系数计算,1992年沿海城市的刚体系数高达0.8468,而西部城市的刚体系数仍保持为0.1976。为了比较西部城市和沿海城市 1991~1992经济发展结构的变化情况,可以绘制这两类城市的主成分比较图,见图3(a)和图3(b)。为了清晰起见,图中只给出第一、二主成分在1991年和1992年的比较曲线。事实上。分别对两类城市 1991和1992年数据做主成分分析,在四次分析中,前两个主成分的累计贡献率均在90%以上,所以用两个主成分进行比较已具有很好的代表性。从两个图的比较可以看出,1992年沿海城市的刚体结构被迅速打破,而西部城市的经济格局基本未发生大的变化。
图3(a) 1991~1992西部城市主成分比较
图3(b) 1991~1992东部城市主成分比较
分别计算这两类城市1986~1992年逐年的变形系数,见表2、图4。
表2 两类城市逐年的变形系数
年份1986~1987 1987~1988 1988~1989 1989~1990 1990~1991 1991~1992
西部城市 0.1826 0.1573 0.3762
0.1273
0.1299 0.1976
东部城市 0.1712 0.2101 0.4329
0.2666
0.1467 0.8468
图4 两类城市逐年变形系数比较图
在图4中,比较两类城市的变形系数可以看出一些有趣的经济现象。中国作为一个发展中的国家,在经济发展出现较大变动时期,由于各地区对经济调整的适应性和发应速度不同,地区经济发展会出现较大的差异性。例如在1988~1989年经济压缩时期,两类城市的经济发展均出现明显的不平衡现象。另外,从图4中看出,沿海城市由于待殊的经济政策,发展速度较快,因此其变形系数变化一直大于内陆城市。特别在1992年第二轮改革开放大潮中,沿海城市发展速度很快,表现出更加个性化的特征。而西部城市在1992年经济起飞阶段,其变形系数虽略有增加,但相对沿海城市来说,变化不大。除 1988~1989年经济压缩时期外,西部城市一成不变的刚体状态始终未能发生重大变化,该地区受改革开放的影响远不如沿海城市。
四、结论
在对技术、经济、社会系统进行分析与建模研究时,纵向高维刚体群点的预测模型是一种新的有效的统计模型。例如,对于一个平衡发展的城市群体进行经济预测,通过建立纵向刚体群点预测模型,将更有助于把握整个城市群体的发展特征,并大幅度降低建模工作量。针对纵向高维数据群点在运动中是否保持刚体结构的问题,本文给出了一种运用蒙特卡罗的统计检验方法,并通过定义“变形系数”来测量刚体结构受到破坏的程度,论文对于是否可能采用刚体群点预测模型提供检验方法和理论支持。
论文通过仿真案例验证了方法的合理性。并选取中国东部、西部的部分城市为样本点,对两类城市在经济发展过程中的刚性结构变化进行比较分析,揭示出两类城市经济发展的一些重要特征。在中国目前的经济发展进程中,各地区必须首先打破刚体,才能得到快速发展。而本文提出的高维群点变形系数可以较好地描述城市经济发展的个性化待证,这对于解释大规模经济数据中的一些本质现象与规律提供一种新的统计工具。该方法对其他技术科学研究领域,也具有重要的应用价值。