世界主要国家经济增长聚类分析
郑泓钦 1 赵彬杰 2 朱本心 3
(1.柴郡中学(美);2.重庆一中国际部,重庆 401122;3.无锡天一中学,江苏 无锡 214000)
摘要: 世界各国在追求经济增长的数量和质量提升的过程中,形成了独具特色的发展模式,探讨发达国家和新兴市场国家在提高经济增长质量过程中所走的不同道路及其表现出的共同特点,为新常态下中国经济追求质量型增长提供重要的借鉴和启发作用。本文采用基于动态时间规划的聚类分析方法,对世界主要国家的GDP增长率进行聚类分析。研究发现,经过聚类分析得到的相同组别的国家具有相似的经济增长模式。通过聚类分析,我们可以更清晰的观察各个国家的经济增长与其他国家的关联关系。
关键词: 经济增长;动态时间规划;聚类分析
一、前言
在英国工业革命后,人类近代史上第一次出现经济可持续发展,随后,发达国家现代经济增长速度不断加快,发展中国家与发达国家差异化发展明显。为探究各个国家的经济增长模式的特点,本文拟采用一种基于动态时间规整的聚类方法,对各国GDP的变化进行聚类分析。
电脑上的照片并不清楚,但仍能看清那个瘦小的女孩儿有一双清亮的眼睛,万姐坐在电脑屏幕前仔仔细细地看着,毫不掩饰地哭了。晚上,我把打印好的照片拿给她,她仍然显得有些激动,爱惜地抚摸着,就像在抚摸女儿的头发。
二、方法
动态时间规整(Dynamic Time Warping,简称DTW),是一种对时间序列距离的定义方式。给定目标序列和待匹配序列,DTW算法对待匹配序列在时间轴上做不均匀的拉伸、压缩或平移,在不破坏序列本身的时序条件下,使得待匹配序列与目标序列在同时有值的时间点上差别最小,两序列在这些时间点上取值的差距之和被称为规整路径距离,并以此作为两时间序列距离的度量。因此,DTW算法定义的距离是一种最短距离。
给定两序列X =p 1,p 2,...p i ,...,p m 与Y =q 1,q 2,...q j ,...,q n ,其长度分别为|X |=m 与|Y |=n 。如图1所示,两序列中距离最近的点以虚线连接,为了保证时序的正确性,图中的虚线不能相交。将这些点对(p i ,q j )构成的顺序序列称为两个序列的时间规整路径。
(ii)依据评价值(j=1,2,...,n)对方案aj(j=1,2,...,n)进行排序,然后,选择最优方案。由于 a3> a2> a4> a1,因此,a3是最优方案(产品 3是最优的)。即,产品3是在阀值水平δ=0.2条件,一致性水平大于0.8(一致性=1-0.2=0.8),迭代次数c≤288的条件最优方案。也就说,产品3是基于2015年4月-2016年4月的1,500条有关4个主流品牌手机客户偏好数据挖掘发现,估计有80%以上的客户可能偏爱的手机产品。
由于通过DTW算法计算的两时间序列之间距离是非线性的,对于一个时间序列的数据集,虽然能计算出时间序列两两之间的距离,但并不存在一个线性空间能使得诸时间序列样本以点的形式存在于其中。这样K-means/c-means等基于簇的质心或中位点的聚类算法都失去了作用。本处使用一种自底向上的层次聚类法,以避开无法获取分组质心或中位点的限制。
图1 DTW算法示例
满足如下递归关系:
图2 DTW算法图解
定义路径单元w k =(i ,j )代表的点对的距离为d (w k )=dist (p i ,q j ),则至路径单元点对w k =(i ,j )的规整路径距离为总的规整路径距离为最小的总规整路径距离即可以作为两序列间的一种非线性距离。
当δR=0时,将其代入式(17),可得到发射机的相关函数(correlation function,CF),即
经过上述步骤后,数据集X ={x 1(n 1),x 2(n 2),...,x k (n k )...,x K (n K )}将被归为两部分,一部分处于簇集合C ={c 1,c 2,...}中,是聚类的结果;剩余的无法归类的序列被视为孤立序列。
定义规整路径序列w =w 1,w 2,...,w K ,其中 max(m ,n )<K <m +n -1,w k =(i ,j ),i 为当前点对中属于序列X 的点的下标,j 为当前点对中属于序列Y 的点的下标,且w 1=(1,1),w K =(m ,n ),i 与j 均单调递增。如图2所示,以两序列分别作为X 轴与Y 轴时,一条规整路径可表示从起点w 1=(1,1)至w K =(m ,n ),只能向右上方延伸的折线。
1.根据{D (x i ,x j )},寻找距离最小的两条序列x i (n i )与x j (n j ),定义簇c ={x i (n i ),x j (n j )};
定义矩阵{C (i ,j )}为代价矩阵,其中元素D (i ,j )即为从起点w 1=(1,1)开始到w k =(i ,j )的最短规整路径距离。根据上述递归关系,并根据初始条件C (1,1)=d (w 1)=dist (1,1),可以计算出整个代价矩阵{C (i ,j )},C (m ,n )即为最短规整路径距离。
根据上述分析,DTW算法适用于长度不等或采样频率不均匀的时间序列之间的距离计算,本质上是一种形态的匹配。在序列的长度较短,且不存在明显的周期性时,DTW算法有较好的效率和匹配度,因此它被广泛应用在语音识别中的单词、短语匹配中。
产房、保育及育肥前期是最需要保暖的地方,特别要注意猪舍温度的稳定,不能温差过大 (不超过5℃),造成仔猪应激,引起疾病。保育和产房要储备一定量的电热板和取暖灯,以防有损坏并能及时的补充上。育肥前期的猪只可铺垫草或垫板取暖。同时,应准备额外的例如燃油暖风机等临时加温机器,以备临时升温用。
4.剔除{D (x i ,x j )}中步骤C中提取的分组包含的序列相关的距离元素,重复步骤1、2、3,直到步骤1中的两条起始序列距离大于成簇起始阈值D ths 为止。
C (i ,j )=dist (i -1,j -1)+min[C (i -1,j ),C (i ,j -1),C (i -1,j -1)]
2.根据{D (x i ,x j )},寻找其中除c 中序列外与c 所有元素的平均距离最短的序列x m (n m ),若该平均距离满足其中距离阈值表示簇c 中已包含元素的个数,d c 表示簇c 中已包含元素相互之间的平均距离,d 为一常数,由数据集总的稀疏程度决定),则将其加入簇c 中;
3.重复步骤2,直到某一x m (n m ),满足为止。此时簇c 收敛,作为一个分组被提取;
给定时间序列数据集X ={x 1(n 1),x 2(n 2),...,x k (n k )...,x K (n K )},利用DTW算法计算任意两条序列的距离,获得K ×K 的距离矩阵{D (x i ,x j )},随后进行下述步骤:
3.1 与AD相关的基因 与家族性早发AD相关的经典基因有APP、早老素1(presenilin 1,PS1)和早老素2(presenilin 2,PS2)。载脂蛋白(apolipoprotein E,APOE)是晚发性AD的最强危险因素[8]。最近遗传研究发现了许多影响晚发性AD的新基因位点[9]。
三、数据处理
本文选取自1985年~2012年136个主要国家的GDP增长率数据。该数据来自世界银行对各国的长期统计数据。数据集中的136个国家中,不包含除坦桑尼亚和南非之外的其他撒哈拉以南非洲国家,这是因为大部分此类国家在上述时间段存在内战与统计数据缺失的问题;也不包含欧美国家的一些海外领域,因为此类地区的经济规模太小,无法与主要国家相提并论。数据集的起始点从1985年开始。由于1991年前后前苏联与前南斯拉夫地区出现了大量新国家,这些国家在1985年之后的一段时间并不存在数据。这种情况适合采用DTW算法进行处理。
首先对数据做预处理,由于DTW算法计算距离时主要关注时间序列之间形态的区别,因此对所有的时间序列做z 标准化处理,消除纯粹的序列高度与波动剧烈程度带来的影响,使得匹配只在序列的形态或称为变化趋势的层面上进行。
水土流失是面源污染的主要途径,水库流域内水磨坡以上130 km2内多为林区,植被较好,水磨坡以下148 km2内,植被不良,只有60 km2的乔灌覆盖,这部分内的水土流失较为严重。水土流失造成大量的泥沙随暴雨径流进入河道、水库,泥沙中的氮、磷物质进入水库,造成水库富营养化程度升高。
进行聚类分析后,有82支序列构成了12个簇,剩余的54支序列成为孤立序列。12个簇的具体构成如下:簇1包含亚美尼亚、阿塞拜疆、白俄罗斯、捷克共和国、哈萨克斯坦、立陶宛、马其顿共和国、波兰、俄罗斯联邦、塞尔维亚、斯洛文尼亚、特立尼达和多巴哥、越南;簇2奥地利、比利时、西班牙、芬兰、法国、英国、意大利、卢森堡、荷兰、葡萄牙、美国;簇3阿尔巴尼亚、格鲁吉亚、匈牙利、拉脱维亚、所罗门群岛、斯洛伐克共和国、乌克兰;簇4孟加拉国、古巴、吉尔吉斯共和国、摩尔多瓦、蒙古、巴拿马、秘鲁、罗马尼亚、塔吉克斯坦、坦桑尼亚、乌兹别克斯坦;簇5厄瓜多尔、斯里兰卡、菲律宾;簇6爱沙尼亚、几内亚比绍、印度尼西亚、柬埔寨、马来西亚、泰国;簇7保加利亚、巴哈马、加拿大、瑞士、德国、冰岛、日本、瑞典、南非;簇8安道尔、挪威、新西兰、圣马力诺、汤加、萨摩亚;簇9希腊、爱尔兰、列支敦士登、马耳他、萨尔瓦多;簇10阿根廷、哥伦比亚、土耳其、乌拉圭;簇11澳大利亚、巴巴多斯、中国、格陵兰岛;簇12格林纳达、圣基茨和尼维斯、波多黎各。
四、结论
图3 簇1、2、6、10各国经济增长率变化图
这些簇由GDP增长率序列构成,同一组中的国家理应在经济上存在一些关系。模式较明显的包括:簇1,主要由前苏联和前南斯拉夫国家构成;簇2,全为欧洲发达国家与美国;簇3与簇4中基本为前苏联国家与东欧前社会主义国家;簇6中包含了许多东南亚国家;簇7主要由剩余发达国家组成;簇8中包括欧洲的袖珍国家与一些小的群岛国家;簇10为南美大陆国家;簇12全为中美洲小国。图3展示了簇1、2、6、10四组国家GDP增长率的变化。从图中可以发现簇1所包含的前苏联及前南斯拉夫国家在解体后出现了不同程度的经济衰退,随后趋于稳定;簇2所包含的欧美主要发达国家则反映了世界经济的整体变化趋势;簇6所包含的东南亚国家在1997东南亚金融危机期间出现了较大程度的经济衰退,与其他国家有明显区别;上世纪90年代的拉美国家正在进行一场大规模的结构改革,在2003年前,经济波动幅度很大,从2003年后,经济进入了一个新的扩张时期,簇10所反映的正是拉美国家在这一段时期的经济情况。
参考文献:
[1]Liao T.Clustering of time series data—A survey[J].Pattern Recognition,2005,(38):1857~1874.
[2]林毅夫,任若恩.东亚经济增长模式相关争论的再探讨[J].经济研究,2007,(08):4~12+57.
[3]孙景宇,姚万军.理解前苏联国家的经济增长——基于实证研究的讨论[J].世界经济研究,2009,(07):74~80+89.
[4]张明哲.20世纪90年代以来欧洲经济增长研究[D].中国社会科学院研究生院,2010.
[5]朱书林.联合国1994年拉丁美洲经济报告[J].国际研究参考,1995,(5):25~28.
中图分类号: F112
文献识别码: A
文章编号: 2096-3157(2019)22-0117-03
作者简介: 1.郑泓钦,柴郡中学(美)学生。
2.赵彬杰,重庆一中国际部学生。
3.朱本心,无锡天一中学学生。