基于多元统计的国家经济发展水平比较分析
朱兆钦
(中山大学岭南学院 经济学系,广东 广州 510000)
[摘要] 衡量一国的经济发展水平可以从多种经济指标入手,但这会给国家分类的尝试带来困难,同时也不利于比较国家间的相似性。多元统计的方法可以有效解决考虑因素过多带来的困难。从多元统计的视角出发,对国家间的相似性进行度量,同时对各种发展指标进行归类总结,探究其背后的原动力,有利于拓展我们对经济发展的理解,并较为客观地评价其他国家和我国之间的相似性。
[关键词] 多元统计;国家分类;聚类分析;主成分分析
一、引言
(一)研究背景及意义
评价一个国家的发展有许多维度,而如何将国家分类则更加困难。例如,将国家分为发展中国家和发达国家只是一种粗略的分类方法。而评价和分类的片面性对完整客观地总结改革开放以来的成果和不足的尝试会产生不利影响。然而,运用多元统计的方法,[1]我们可以同时将大量评价指标纳入考虑范围,并对其进行归类和化简。我们还可以对国家之间的相似性进行合理度量,从而将不同国家更恰当地分类。另外,多元统计方法还可以显示各项指标间的内在联系,有利于我们找出纷繁复杂的发展现象背后的原动力。
本文选取了中国和其他54个随机选取的国家和地区,尝试运用多元统计方法对国家发展的11个指标进行分析,并根据这些指标将国家分类。从而找出和我国情况最为相近的国家,并尝试解释指标背后的原动力。相比于其他国家,情况相近国家的各项变革可以作为更有效政策参考。此外,对指标的分析可以加强我们对经济发展的理解。
(二)变量筛选
本文主要研究世界各国发展状况的分类和比较,并对国家间的相似性进行度量。数据来源为世界银行数据库① 世界银行数据库网址https://data.worldbank.org.cn/ 。选取的变量为:0~14岁的人口(占总人口的百分比)、15~64岁的人口(占总人口的百分比)、农业增加值(占GDP的百分比)、城镇人口(占总人口比例)、人口超过100万的城市群中的人口(占总人口的百分比)、耗电量(人均千瓦时)、二氧化碳排放量(人均公吨数)、通电率(占人口的百分比)、能源使用量(人均千克石油当量)、工业增加值(占GDP的百分比)、国民出生时的预期寿命。其中,为了保证数据充足,部分国家的部分变量选取年份为2014—2018年。由于这些变量一般来说在几年内变化不大,故本文在除原始数据展示外,不再特殊标注。
这些指标的选定是为了从多方面反映国家的发展情况和福利水平,而不仅限于传统的三产业划分和人均产出等维度。这些指标强调了人口结构、产业结构、能源结构、环境保护和国民福利水平五个方面。[2]其中,0~14岁的人口(占总人口的百分比)、15~64岁的人口(占总人口的百分比)强调人口结构因素;农业增加值(占GDP的百分比)、工业增加值(占GDP的百分比)强调产业结构;耗电量(人均千瓦时)、通电率(占人口的百分比)、能源使用量(人均千克石油当量)强调能源结构;二氧化碳排放量(人均公吨数)强调环境保护;国民出生时的预期寿命强调福利水平。尽可能多地包含各类指标,有利于我们更全面地评价国家的发展程度,并且更好地测量国家间的相关性,最后按照这些指标把上述国家分类。
二、聚类分析
本文的目的之一是对样本国家进行分类,并说明国家之间的相似和不同。因此,聚类分析是一项基础性的工作。对上述所有变量的聚类分析可以揭示国家之间的相似性,并找出和我国发展阶段相似的国家。因此,本文的聚类分析为Q型聚类分析,即对样本而非变量聚类。
令为所有样本总的离差平方和,Gi 中样本的类内离差平方和为;m 个类内利差平方和之和为。此时定义复相关系数。pm /W 值越小,即R 2越大,表明类内离差平方和在总离差平方和中所占的比例越小,即每个类分得越开。因此,该统计量可以用于评价合并成m 个类时的聚类效果,R 2越大,聚类效果越好。本例中,第一次聚类的R 2最大,为1,最后一次聚类R 2直接降为0(见表1)。
3.半偏R 2统计量
(一)类平均聚类法
本文一共包含55个国家,因此各个国家之间的距离则有种,且计算得均方根为4.690416。该方法下共有54次聚类,每一类的项目数目从2到55不等。本文样本中,第一次聚类的伪F统计量最大,为57.8,且第一次聚类两两者之间的标准化均方根距离最小;伪t 2值较大的一次聚类为倒数第三次聚类(第五类和第六类的结合),伪t2值达到43.3(如图1)。
图1 聚类数准则
综上,55国可以被初步划分为3类,第一类发展情况相对较差,共16国,第二类只有阿拉伯联合酋长国、澳大利亚、韩国,共3国。第三类则是包括我国在内的其他剩余国家,共36国,这些国家发展水平普遍远强于第一类国家。
图2 类平均聚类分析
(二)离差平方和(ward)聚类法
1.协方差矩阵特征值
考虑大量EV接入的电-气-热多能耦合系统协同优化调度//潘振宁,王克英,瞿凯平,余涛,王德志,张孝顺//(4):104
其中第一类到第四类特征值为6.36438423,1.55825111,1.20035901,0.80417123,与后面一系列值差距悬殊,且特征值占总方差的90.25%。因此第一到第四聚类为主要聚类。
2.复相关系数R 2统计量
表1 聚类历史
靠训练实践磨砺血性胆魄。坚持仗怎么打兵就怎么练,坚持从难从严从实战需要出发摔打部队,加大训练演习难度强度险度,加大野外艰苦环境、复杂电磁环境、陌生地域海域空域演训力度,研发运用好信息化智能化虚拟仿真演训系统和平台,开展实战化对抗性演训。进一步端正教风研风学风、训风演风考风,防止和克服教学科研、训练演习中的形式主义、消极保安全和弄虚作假等不良风气。
如:在某房屋建设工程中,建筑尺寸的准确性成为影响施工质量的主要因素,经监理人员查明,导致建筑尺寸不足的主要原因为使用不合格的钢尺进行放线,同时相关工作人员未能及时发现,继而导致整栋楼房均存在尺寸不足的隐患。通过法院最终判决,房产开发公司不仅需要补交罚款同时要退赔资金给用户。由此可见,即使再小的细节也会影响施工质量,带来巨大隐患。不仅如此,在监理工程开工前,必须要检测待使用准备使用设备的质量、性能等,必要时需要对相关技术检测合格证进行审查,满足要求后才可投入使用。在使用各种设备、器材、材料时必须要详细记录,做好备案。及时妥善处理不合格设备,重新配备合格产品并达标后才能继续使用。
在对样本数据进行标准化处理后,首先需要对11个变量的相关系数矩阵、特征值、特征向量等进行具体计算,得出以下结果(见表2):(省略了占比极小的第7—11主成分):
该统计量用以评价合并GK 和GL 的效果,半偏R 2是上一步R 2值与该步R 2值之差,因此半偏R 2值越小,说明上一次聚类效果越好。本例中倒数第二次的半偏R 2值为0.1326,倒数第三次半偏R 2为0.0557,最后一次聚类的半偏R 2上升至0.4082(见表1),综合来看,样本国家可以分为2类或3类:第一类是安哥拉,喀麦隆,刚果(布),阿拉伯埃及共和国,埃塞俄比亚,加纳,洪都拉斯,肯尼亚,柬埔寨,莫桑比克,尼泊尔,巴基斯坦,菲律宾,南亚,塞内加尔,坦桑尼亚,共16国;第二类是阿拉伯联合酋长国,澳大利亚,大韩民国,共3国;阿根廷,奥地利,阿塞拜疆,保加利亚,玻利维亚,巴西,瑞士,智利,中国,哥伦比亚,哥斯达黎加,古巴,厄瓜多尔,西班牙,法国,英国,格鲁吉亚,希腊,哈萨克斯坦,黎巴嫩,摩洛哥,墨西哥,蒙古,马来西亚,巴拿马,波兰,葡萄牙,巴拉圭,罗马尼亚,俄罗斯联邦,泰国,突尼斯,土耳其,乌克兰,乌拉圭,南非被归为第三类,共36国(如图3)。
图3 Ward离差平方和聚类分析
(三)结论
类平均聚类方法的谱系聚类如图2所示:
总之,教师要紧紧把握教材的编写特点,依托学生的年龄特征和数学学习的倾向,从信息采集、问题分析到解题策略探寻,带领学生从现实生活入手,层层递进,步步深入。把凌乱的信息梳理成序,从纷繁多样的数学应用中抽象、概括出数学思维模型,从而掌握解决问题每个步骤的基本策略和方法,发展学生的建模思想,培养学生的核心素养。
三、主成分分析
主成分分析也称主分量分析,利用降维的方法,把多指标转化为少数几个综合指标,是一种分析、简化数据集的技术,根据这些变量能够获得主成分的背景解释。在反映样本国家的11个变量中,可能某些变量之间存在共同之处、相关性,集中、共同地体现经济增长质量评价的某些方面,故本部分对所选的55个国家2017年的11个反映发展情况的指标做主成分分析,从而对国家发展的主要方面进行初步探究。
(一)主成分的提取
半偏
表2 主成分结果
主成分分析的目的是为了减少变量的个数,因此,一般不会使用所有主成分,忽略一些较小方差的主成分将不会对总方差带来大的影响。我们称为主成分yk 的贡献率。第一主成分的贡献率最大,即综合原始变量X 1,X 2,…,Xk 的能力最强,y 1,y 2,…,yk 的综合能力依次减弱。只取m (m <p )个主成分,称为主成分y ,y ,…,y 的累计贡献率,它表示y 1,y 2,…,yk 综合x 1,x 2,…,x k的能力,通常我们选取m ,使得累计贡献率达到85%以上。本文中我们提取了4个主成分(见图4),累计贡献率为90.25%,四个主成分的表达式可以写为如下:
根据第一主成分从小到大的顺序排列(见表3)可以看出,莫桑比克是样本55国中生产效率最低的国家,而阿拉伯联合酋长国则是生产效率最高的国家。这一结论部分源于阿联酋的产品较为单一,因此其石油产业的科技水平极大地决定了整体生产效率。相比之下,我国工业品种类极多,跨度极大,因此提升整体生产效率所需的努力也更多。
图4 陡坡图和已解释方差图
(二)主成分分析
观察第一主成分,我们发现变量被分为三类,0~14岁人口占比和农业人口占比被分为一类,工业增加值占比被忽略,剩下的其他变量被分为一类。而在实际情况中,科技水平低的国家更依赖于农业,且必须依靠高生育率保证有效劳动的供给。这样一来第一主成分就更小。科技水平高的国家对农业的依赖度下降,且在高预期寿命和低生育率的双重作用下0~14岁人口占比变小,而其他变量数值(如城镇人口占比,人均能源消耗)更大,可见第一主成分说明的是科技水平,或者说生产效率水平。观察第二主成分,我们发现低端制造业发达的国家得分会高一些,这些国家刚刚从农业国发展为工业国,因此工业产值比较重要,但通电率却有待提升,因此第二主成分说明的是低端制造业水平。第三主成分是能源系数,人均能耗高的国家得分高,而城市化通过集中供暖等手段增大了能源使用效率,在同等福利水平的条件下减少了人均能耗。而发达工业国则更可能有较高水平的第四主成分:人口构成相对偏向中老年,而且电网覆盖率水平极高,此外由于能源利用效率高,人均的二氧化碳排放量和能源使用量也相对较小。
故意无视是种短视行为,只看到和注重眼前短期好处,或是只关注自己,完全不考虑其他个体或是当下的实际情况。默认补偿则是一种弥补故意无视造成的不良结果的行为。在时间上是事前和事后的关系。旅游者选择低价游的故意无视和默认补偿行为与价格因素、信息对称情况、搭便车因素相关。在3个影响因素中,搭便车因素的影响程度相对较小。旅行社的故意无视是因为不合理低价游既是旅行社获取利润的方式,也是旅行社激烈竞争的结果。并且可以通过与导游、购物店形成回扣链收受回扣,利用旅游者购物弥补利润。相关管理部门因为协调工作的困难性和旅游者带来的经济效益,所以睁一只眼闭一只眼,使回扣链形成“公开的行规”。
通过在Qt Creater环境中新建一个Qt Widgets Application应用程序,并新建一个继承于QMainWindow类的MainWindow窗口类,设计一个主界面,方便用户添加学生信息,管理学生信息功能的选择,其中管理学生信息包括了对学生信息的浏览,查询,修改,删除等功能,如图1所示。
而第二主成分排列后尼泊尔得分最低,说明其最不可能是一个新兴工业国。阿联酋则得分最高,这是因为其过于单一的产业:能源产业恰好和低端制造业同属产业链的底层,因此阿联酋具有一定低端制造国的特性,比如产品附加值少,工业(能源行业)十分重要。我国在这一主成分的得分反映了我们在产业链上仍有不小的上升空间。
在埃里斯塔市中心广场有一座约有2米高的标碑,寓意是埃里斯塔在我心中,当地人则将其称之为“我爱埃里斯塔”标碑。
此外,我国在第三和第四主成分上的得分处于中间水平。这与经济体处于结构转型的事实相对应:一方面我国正在发展为发达工业国,另一方面我国农业部门仍雇佣大量的劳动人口。能耗方面,一方面我国经济的发展促进了能源消费,但另一方面我国能源利用效率有待提高。
(三)结论
上述分析表明:评价国家发展的四个主成分之间没有必然联系。农业国的生产效率不一定低,而发达工业国的人均能耗水平也可能不高。此外,一些单一产业国家的总体生产效率会极大地受其支柱产业的影响。而我国在四个主成分上的得分也体现出经济体处于结构转型的事实,一方面我们具有发达工业国的特征,而另一方面农业部门仍然雇佣了大量的劳动力。[3]
表3 样本国家主成分得分
四、总结
以上的分析既对国家间的相似性进行了测量,同时也对经济发展的内在因素进行了初步探究。在参考不同国家的政策时不仅要关注政策本身,更要关注不同国家间的差异。例如,在聚类分析中,韩国与我国的距离较远,则我们在参考韩国的政策时更要充分考虑国情差异。此外,以上分析也有利于我们评价我国当前的发展程度:农业国向工业国的转变仍在进行。
参考文献:
[1]王学民.应用多元统计分析[M].上海:上海财经大学出版社,2014.
[2]王锋,吴丽华,杨超.中国经济发展中碳排放增长的驱动因素研究[J].经济研究,2010,45,(2):123-136.
[3]李艳.数据分析软件SAS实用教程[M].武汉:武汉大学出版社,2015.
Comparative Analysis of National Economic Development Level Based on Multivariate Statistics
ZHU Zhao-qin
(Department of Economics,Lingnan College,Sun Yat-sen University,Guangzhou 510000,China)
Abstract: Many economic indicators can be used to measure a country's level of economic development,but this will make it difficult to classify countries,and at the same time,it is not conducive to comparing similarities among countries.However,the method of multivariate statistics can effectively solve the difficulties caused by too many factors.From the perspective of multivariate statistics,the similarity between countries is measured,various development indicators are classified and summarized,and the driving force behind them is explored,all of which are conducive to expanding our understanding of economic development and evaluating the similarity between other countries and China objectively.
Key words: multivariate statistics;national classification;cluster analysis;principal component analysis
[中图分类号] F832;F323
[文献标识码] A
[收稿日期] 2019-05-30
[文章编号] 1671-6671(2019)04-0087-10
[作者简介] 朱兆钦(1998-),男,吉林四平人,中山大学岭南学院经济学系2016级学生,研究方向:宏观经济学。
[责任编辑:王 帅]
标签:多元统计论文; 国家分类论文; 聚类分析论文; 主成分分析论文; 中山大学岭南学院经济学系论文;