函数数据挖掘及其在中国消费函数分析中的应用,本文主要内容关键词为:函数论文,中国论文,数据挖掘论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C81 文献标识码:A
引言
近年来,学术界涌现了一大批针对流式数据挖掘的研究成果。所谓流式数据,指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流式数据看成历史数据和不断增加的更新数据的并集。在我们的社会生活与实践中会遇到许多复杂的流式数据集,函数数据(Functional Data)就是复杂流式数据结构的一种形式。函数数据这一概念最早出现在加拿大统计学家Ramsay,J.O.(1982)的文章《When the Data are Functions》中[1]。真正对函数数据进行分析始于1991年Ramsay,J.O.和Dalzell,C.J.发表的文章《Some Tools for Functional Data Analysis》[2]。目前,函数数据分析成为统计学术界研究的热点,涌现了大量相关的理论和经验分析文章,应用领域也不断扩大,从化工制药到生物医学[3],从地理勘测到经济测算[4],等等,其良好的应用效果和使用价值备受人们关注。然而,数据挖掘的研究对象大部分是针对离散型数据而言,对于函数数据挖掘的研究,将打破连续型数据和离散型数据长期以来的分离状态,实现离散和连续的过渡。
为了更好的扩展函数数据分析方法应用领域,我们有必要根据实际问题从数据挖掘的角度,对函数数据的理论进行研究,不断完善函数数据分析方法。一个函数数据由n个数据点构成,将原始的函数数据转换成真正的函数形式是函数数据分析的一个重要环节,由于大多数数据都带有噪声成分,所以常需要一些平滑技术来进行数据的预处理[5,6],也就是构造函数数据的具体形式。然而,在函数数据的构造过程中是将观测次数或时间作为自变量,这样对复杂现象的分析就有了一定的局限性,例如,我们测量了收入与消费的函数数据,对此问题的解决将为构造一般函数数据的理论及方法奠定基础。因此,本文研究以Bernstein基函数构造一般函数数据形式的理论及方法,并对中国的消费函数数据进行挖掘,以得到消费函数速率变化的规律性。
一、以Bernstein基构建函数数据
设函数y(X)的观测值由T个数据点构成,在此我们将它视为函数数据而不是多变量数据,因为观测数据点背后都存在着相应的函数y(x)。
这里我们注意到,现有的某些经典基函数在实际运用中可能显得不那么理想,例如多项式基为幂基时,随着阶数的增加系数矩阵会出现病态的情形;对于拉格朗日(Lagrange)基函数,求导复杂,且每增加一个数据点时,原来的结果不能利用,这不适合数据挖掘的要求;对于傅立叶(Fourier)基函数,当某些不连续的函数或低阶导函数不连续的情况,它就不适合了。基函数选择的合理不仅意味着更少的运算量,并估计出的系数本身可以具有一定的解释意义,而且导数的估计也是特别重要[7]。而Bernstein基函数的最大优点是对计算机输入与交互修改拟合曲线带来很大的方便,体现出利用机器学习处理复杂数据的特点,这是对函数数据挖掘的最好切入点。这一特点是由Bernstein基函数的性质所决定的,其表现在以下五个方面:
二、中国消费函数的构建及消费速率分析
近年来,中国城镇居民消费水平显著提高,居民的物质和文化生活得到了明显改善。然而,居民的收入差距迅速扩大,这一现象不仅会给未来经济的持续增长带来不利的影响,也会严重影响城镇居民消费需求和消费结构。我们知道,消费函数不论是在经济学理论还是在经济政策实践中都具有重要意义,通过对消费函数分析可以发现收入的变化对居民消费的影响。目前大多数学者运用计量经济学的理论和方法对消费函数进行研究,其基本思想是以线性模型描述变量之间的因果关系,但其缺陷是无法挖掘出消费随收入变化的各种发展速率。为了解决这一问题,找出不同区域的城镇居民在收入状况和支出行为上的差异,以便因地制宜地引导居民消费,在此我们将通过构建中国城镇居民消费函数数据来进一步剖析中国各省(自治区、直辖市)消费函数变动状况以及发展速率等。
其结果见图1所示。文中的数据来自1996年至2005年的《中国统计年鉴》,由于篇幅有限,原始数据我们不再列出。
图1 中国31个省市城镇居民消费函数(m=4)
对所构造的消费函数进行误差分析,计算,其残差比见表1(略,参见原文)所示,并以90%使得所有的理论值与实际值的残差比区间为(-2.5%,2.5%)。这说明以Bernstein基函数构建消费函数数据具有较高的精度。
从图1中我们可以初步地看出,中国各省(自治区、直辖市)城镇居民消费性支出随着人均年收入的增加均出现增长的趋势,但反映不了消费随收入的变动速率。为此,根据我们构建的消费函数数据,对(15)式求一阶导数,即
其结果见图2所示,它反映了中国31个省市城镇居民随收入变化,相应着消费的均匀发展速率,也就是收入对消费的边际效应函数,从图2我们可以挖掘出如下知识:
1.各省消费函数的一阶导数函数除西藏外,均为非负函数,即,消费函数在研究期内为不减函数。这里需要提及的是西藏自治区消费函数在研究后期出现下降趋势,这是由于原始数据所描述的趋势波动的峰谷较多,当m=4时的Bernstein基函数不能较好的反映消费函数的波动趋势。当取m=5,西藏自治区消费函数见图3表示,表明一阶导数非负,消费函数在研究期内也为增函数,但消费增长的速度总体看是逐渐减小。
2.河北和北京消费增长的速度趋于下降趋势;安徽、甘肃、宁夏、青海等省消费增长的速度呈现“上—下—上”趋势;江西,辽宁,西藏消费增长的速度呈现“下—上—下”趋势;福建、广西、贵州、山西、四川、重庆等消费增长的速度呈现“下—上”趋势;新疆和海南等消费增长的速度呈现“上—下”趋势;上海和浙江的消费增长的速度基本趋于一致。同样,对(15)式求二阶导数,其结果见图4所示,它反映了中国31个省市城镇居民随收入变化,相应着消费的加速发展速率。如果,说明收入的变化对消费影响的增加速度趋于下降;如果,说明收入的变化对消费影响的增加速度趋于上升;如果,消费函数出现“拐点”,即说明消费函数在研究期内不仅是增函数,而且存在有一定的波动性。我们可以从图4中详尽地看到各省消费函数波动的具体情形。
图2 中国31个省市城镇居民消费函数均匀发展速率(m=4)
图3 西藏自治区消费函数(图a)和—阶导数(图b)
三、结束语
函数数据挖掘技术和方法研究的主要目的在于应用,其研究的成果还可以对移动通信通话记录进行客户流失分析,对股市分钟交易数据的投机交易行为进行探测,通过网站的访问日志数据分析来优化网页内容,提高网站平均访问率和浏览时间等等。通过对函数数据挖掘的理论分析,以及对中国消费函数数据的研究,我们应该清楚地认识到,统计学要随时地关注数据分析,哪里有数据,哪里就应该有统计分析。统计学方法一直就是数据挖掘研究的主要方法,在函数数据挖掘领域中必将发挥越来越重要的作用。统计学和数据挖掘的关系是相辅相成的,在函数数据挖掘中适当运用统计方法会显著提高挖掘的效率和效果。同时,函数数据挖掘中所出现的问题也将促进统计科学的进一步发展。
图4 中国31个省市城镇居民消费函数加速发展速率(m=4)