简单、复杂与地理分布模型的选择,本文主要内容关键词为:地理分布论文,模型论文,简单论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修订日期:2015-02 DOI:10.11820/dlkxjz.2015.03.007 1 引言 20世纪50-70年代,地理学界发生了著名的“计量革命”。从此,地理学从一个空间描述性的学科演变为空间分布的科学,地理研究方法也从单纯的定性分析转变为定性、定量相结合的分析方法。加拿大学者Burton(1963)曾经指出,在1960年代初,地理学的计量革命结束了,此后进入理论革命阶段。但是,地理学理论革命没有实现预期的目标。有人分不清计量化与理论化的区别,认为整个过程都是计量化,因此认为不存在什么“计量革命”,而是所谓“计量演化”。这类文字游戏姑且不论。问题在于,为什么地理学计量化之后的理论化不成功?为什么相当多的地理学家一度逐步放弃了地理学的数学工具?计量革命的原因在于地理学在美国的生存危机。由于计量革命(计量化)、GIS技术(信息化)乃至今天地学计算方法(计算化)的出现,欧美地理学得以继续发展(陈彦光等,2009)。然而,地理学的理论化依然障碍重重。根本的原因在于,人们对地理系统性质的错误认识与不适当的建模,导致解释和预测的失效。举例说来,城市系统原本是复杂系统(Allen,1997;Wilson,2000;Batty,2005;Portugali,2006),复杂系统服从幂律,或者局部尺度服从幂律(Buchanan,2000;Barabasi et al,2003;陈彦光,2008b),局部幂律意味着存在一个标度区(scaling range)。城市位序—规模分布的Zipf定律就是复杂性的一个标志(Bak,1996)。但是,为了分析方便,很多地理学家选择了对数正态分布函数。原因之一在于,对数正态分布简单,具有特征参数,容易从数学上解析。另一个典型的案例是城市人口密度分布。本来城市人口密度服从负指数模型,即所谓Clark(1951)定律。但是,Sherratt(1960)等人后来选择了正态分布函数,而Dacey(1970)等学者则罔顾数据拟合效果不佳的事实,支持正态分布模型的选择。理由也很简单,Dacey(1970)自述就是正态分布性质良好——要比指数分布容易处理。从数学性质看来,虽然指数分布不如幂律分布解析困难,但比正态分布分析难度要大(Goldenfeld et al,1999)。问题在于,分明是没有特征尺度的系统,地理学家却错误地当作有特征尺度的分布来建模,其解释和预测效果可想而知。建模的基本目的就是解释和预测。如果模型解释不符合实际,预测不准确,怎么能令人信服?有些模型虽然在实践中解释现象和预测趋势的效果较好,但理论理解却遇到了困难,如异速生长模型的标度指数,引力模型的距离指数等,基于欧氏几何学都无法理解。只有今天的分形几何学才能给出合理的解释。由于诸如此类的原因,那个时代的很多计量和理论地理学模型、方法慢慢地被放弃乃至淡忘了。多年之后,人们才开始反思并重新认识地理学的计量化和理论化的前因后果(Philo et al,1998)。 科学研究的基本范式是数学理论和受控实验(Einstein,1953;Waldrop,1992;Bak,1996;Henry,2002)。数学描述是科学研究的开端,但单纯的描述是不够的。计量革命的结果之一是将地理学由单纯描述性的学科变成了空间分布的科学。然而,空间分布理论建模的基本问题却一直没有得到解决。数学被称为研究“数”与“形”的学科。数、形及其关系可以用于地理学的数字与形态、过程与格局以及空间与地方的分析。科学研究的高等数学方法包括所谓“老三高”(微积分、线性代数、概率论与统计学)和“新三高”(拓扑、泛函分析、抽象代数)。经验分析主要利用“老三高”,理论建设可能涉及“新三高”。无论运用何种数学工具,关键在于找到特征尺度,或者与特征尺度有关的参数(郝柏林,1986;Takayasu,1990;艾南山等,1999)。为了说明这个问题,有必要认识两种不同性质的系统和相应的概率分布。一种是简单系统,对应于有特征尺度的分布,叫做有尺度分布;另一种是复杂系统,对应于无特征尺度的分布,叫做无尺度分布。通过分布特征认识系统的性质,针对系统的性质选择不同的数学模型。看起来问题比较简单,然而具体操作却又十分困难。正因为如此,才有大量的学术意见分歧和争论。通过学术争论,问题逐步明朗起来。基于城市研究的多年心得,以及与国内外专家的相关讨论,本文探讨有关简单、复杂和分布模型的关键性的问题,以供从事地理系统数学建模和复杂性分析的同行参考。 2 简单与复杂 2.1 简单分布与复杂分布 地理现象可以概括为分布问题,包括空间分布(如城市人口密度分布)和等级分布,后者包括规模分布(如城市位序—规模分布)。由于等级结构与网络结构的等价性(Batty et al,1994;Chen et al,2014),规模分布在广义上依然属于空间分布。只要解决了分布的数学建模问题,地理科学的理论化才可望找到关键的突破口。然而,由于地理分布的复杂性,不同性质的分布相互交织,相关分布模型的性质也没有有效澄清,地理理论建模的难题至今悬而未决。为了解释这个问题,首先必须区分两类不同性质的概率分布,据此了解不同性质的地理系统(表1)。认识地理分布特征与系统性质的关键概念在于“尺度”——尺度是认识地理学原理的核心概念之一(梁进社,2009)。 如果一种分布具有特征尺度,则为简单分布。简单分布的特征为:理论上可以计算出有效的平均值,或者数学模型中带有平均值或者与平均值有关的参数。正态分布、对数正态分布、指数分布、对数分布、泊松(Poisson)分布,Weibull分布等,均属此类。如果一种分布的曲线表现为中间高、两头低,则其分布更为简单(如正态分布、泊松分布);如果这种曲线左右对称,则尤其简单(如正态分布);如果为单侧拖尾分布,但可以找到有效的平均值(如指数分布),则也不复杂。简而言之,简单分布的表现之一是趋中性,即向特征尺度回归(如正态分布),或者向特征尺度限定的范围集中(如指数分布)。举例来说,人类身高服从正态分布,具有向平均值回归的趋势。所以家具制造、楼房建设乃至城市设计,都要考虑人类平均身高问题。城市人口密度服从指数分布,指数函数的递减速度参数(rate parameter)的倒数给出一个尺度参数(scale parameter),这个尺度参数与人类活动的平均距离有关,城市人口呈现向以尺度参数为半径的范围内集聚的趋势(Chen,2008)。根据中心极限定理,有特征尺度的分布在极限条件下都可以逼近正态分布——正态分布是所有概率分布中最为简单的一种分布。 如果一种分布没有特征尺度,则为复杂分布。所谓复杂,并非数学表达式艰深,而是基于一种分布函数难以展开分析。复杂分布具有如下特点:其一,无尺度,即没有特征长度或者有效的平均值。改变测量范围,测度不同;改变样本的规模,平均值随之改变(Chen,2010b)。其二,极端性。高端很少,绝大多数处于低端。其三,长尾。从高端到低端具有无限度延伸的趋势,形成长尾分布(Jiang,2015)。幂律分布属于典型的复杂分布。由于没有有效的平均值(特征尺度),方差/标准差、协方差都没有意义,不能通过观测数据给出有效的概率结构,从而无法通过简单的途径进行解释和预测。简而言之,复杂分布的表现之一是极端性,在数学建模方面则体现为标度性或叫做无尺度性。所谓无尺度性,就是尺度不变性或标度对称性。对于这类分布,大数定律和中心极限定理无效。地理数量分析的一个传统失误在于,借助中心极限定理对于所有的分布进行正态逼近,从而导致无尺度分布现象的解释和预测偏离实际。 2.2 简单系统与复杂系统 科学计量分析的关键在于找到具有特征尺度的变量或者测度,数学建模的关键则是抓住特征尺度层次进行数学描述(郝柏林,1986;Takayasu,1990)。在特征尺度的基础上,描述宏观的环境尺度和微观的要素尺度(郝柏林,2004)。然而,地理系统特别是人文地理系统为复杂系统,而复杂系统不同于简单系统(表2)。基于简单系统发展的计量分析方法和数学建模思想,对于复杂的地理系统无效。 简单系统通常是有尺度系统,对应于有尺度分布。传统的高等数学微积分、线性代数、概率论与统计学主要是针对有尺度系统发展的科学研究工具。对于简单系统,一定可以找到具有特征长度的测度描述它,从而数学建模、定量分析都迎刃而解。抓住了特征尺度,解释和预测都比较容易且结果符合实际。正态分布、泊松分布、指数分布、对数正态分布等,都表征这类系统。如果一个地理系统或者地理系统中的某种现象服从此类分布,均可以采用传统的定量分析方法解决问题。 复杂系统为无尺度系统,对应于无尺度分布。由于找不到特征尺度,无法有效测量和建模,从而难以解释和预测。如果一个系统服从幂律,表现为幂指数分布,则可判断它具有复杂性的特征。在极限条件下,幂律分布无法有效逼近正态分布。虽然传统的高等数学在复杂系统研究过程中必不可少,但一个关键性的问题无法解决,那就是基于特征尺度的描述和分析。在这种情况下,分形几何学、异速生长、无尺度网络等理论就会发挥作用(陈彦光,2008b;Batty,2008)。分形和标度研究的意义在于,基于没有特征尺度的测度(长度、面积、数量等等)建立一种幂律关系,据此得到一种分维或者标度指数(Mandelbrot,1983)。分维或者标度指数却是有特征尺度的(Chen,2010b;Chen et al,2013),这就为复杂系统分析提供了一个新的角度——利用有特征尺度的参数对无特征尺度分布进行解释和预测。 无论简单系统抑或复杂系统,关键在于:找到特征尺度的变量或者参数。简单系统的长度、面积、规模都是有特征尺度的,可以直接基于尺度开展分析;复杂系统的长度、面积、规模之类没有特征尺度,但可以借助无尺度的观测量计算出一种具有特征尺度的分形参数或者标度指数。 3 数学模型选择难题 3.1 数学模型选择的主观性 为什么同一组观测数据或者同一种地理现象,不同的人选择不同的模型,并且往往众说纷纭、莫衷一是?究其根源,方法方面在于科学研究的“三个世界”的分歧,对象方面则在于地理现象的无尺度性。Casti(1996)曾经给出所谓“三个世界”观点:基于观测事实的现实世界(real world),基于逻辑推理的数学世界(mathematical world),以及模型建设和参数估计的计算世界(computational world)。现实世界和数学世界都非常客观,但将数学世界与现实世界联系起来时,必须通过计算世界。在计算世界中,不同的认识和处理办法都会出现,于是产生种种判断和意见的分歧。举例说来,对于城市规模分布、城市人口—城区面积异速标度分析等,有人考虑标度区(scaling range)及其对应性,有人不考虑标度区的存在,处理方式不同,选择结果和分析结论当然就不一样了。对于城市人口密度分布,有人从数据结构的角度,根据拟合优度选择模型;有人从建模功能的角度,根据解释和预测效果选择模型。认识不同,角度不一样,结果就会大相径庭。特别是,对于地理现象,分析的尺度和采样的粒度都会影响计量结果。以城市人口密度分布建模为例,人口普查的地理单元大小不一样,同一个城市的模型参数估计结果就会有偏差,这就是近年来地理学家津津乐道的可变地域单元问题(modifiable areal unit problem,MAUP)(Openshaw,1983;Cressie,1996;Unwin,1996;Kwan,2012)。所谓MAUP,是指空间计量的地域单元大小的改变,会显著影响统计量的计算结果,严重时会影响统计推断结论的有效性。今天看来,MAUP的本质在于地理分布的无尺度性,MAUP其实也就是空间分析的尺度依赖性。城市人口密度计算通常借助人口统计单元(如街道、乡、镇)进行空间加权平均(陈彦光,2000;冯健,2002)。如果地理空间分布具有特征尺度,则改变地域单元不影响空间加权平均结果;但如果地理空间分布无特征尺度,则改变数据提取的尺度或者空间范围,统计平均结果随之而变。城市人口密度服从负指数分布,似乎是具有特征尺度的。但是,人口分布的支体(support)——城市土地利用形态——却是无尺度的(Chen,2010a)。所以,在城市人口密度分布分析过程中,MAUP难以避免。 地理分布建模的主观性还与分布函数给出的几何形态的相似性有关。指数函数、幂指数函数、双曲函数等,其曲线形态都是一端高、一端低,形成拖尾。如果不从数学上做深入分析,直观上很难区分它们的异同。不妨看看以下几个特殊的分布函数。①幂律分布。这是地理现象中出现频率最高的一种分布,也是过去最令地理学家费解的一种分布。幂律分布的性质为(Chen,2008;Chen,2010b):其一,没有特征尺度,找不到有效平均值;其二,曲线为极端型,长尾分布特征;其三,自相关和偏自相关拖尾,代表记忆性和长程作用;其四,具有标度对称性,即伸缩变换下的不变性;其五,微分、积分结果依然为幂律,无法通过变换开展常规统计分析。②指数分布。指数分布看起来有点像幂律分布:曲线一端高、一端低、拖尾分布。但是,指数分布具有如下特征(Chen,2008):其一,具有代表平均值的参数,有特征尺度;其二,衰减极快,不具有长程作用;其三,偏自相关一阶截尾,无演化记忆;其四,具有平移对称性,不具有标度对称性。上述性质与幂律截然不同。指数分布在极限条件下可以逼近正态分布,但幂律分布绝不可以;③Gamma分布。Gamma分布是指数分布与幂律分布的乘积,隐含有标度性质,一般属于简单分布,但在一定条件下可以归属于复杂分布(Chen,2010a);④双曲分布。传统的、标准的双曲分布可以表示为y=l/x,虽然它像是幂律分布的一种特殊形式,但它与幂律不同,因为它的积分形式为对数函数,而对数函数是简单性质的函数。可见,标准双曲函数容易解析(通过累计变换化简)。过去很多学者在研究位序—规模分布的过程中宁愿选择这个函数,就是因为它简单。但是,Mandelbrot(1983)对它有所推广,将其形式定义为:y=l/x[D]。这样一来,双曲函数就与幂函数没有严格区别了。因此,在一些有关分形文献里,双曲分布常与幂律分布相提并论。 3.2 简单模型与幼稚模型 简单是数学建模和理论建设的基本法则,但是,简单性很容易引起误解,从而简单模型退化为幼稚模型(naive model)(Diebold,2007)。简单模型在于变量少、参数少,但解释和预测效果良好。幼稚模型的构建和分析方便,但不具有实质性的解释和预测效果。导致幼稚模型的原因很多,主要有:其一,单纯根据拟合优度选择模型。数学建模总要采用观测数据来拟合理论方程,得到经验拟合结果。初学数学建模的人往往根据拟合优度的高低来选择数学表达式,殊不知拟合优度不是模型选择的唯一判据,更不是根本判据。模型的好坏最终要根据理论解释和经验预测效果来做出最终裁决。其二,根据数学分析的方便程度选择模型。传统的数学建模是基于特征尺度的,大量分布模型都有特征尺度参数,从而分析起来相当方便。但是,如果研究对象本身没有特征尺度,却采用具有特征尺度的函数来描述,其结果当然幼稚了。尽管如此,在标度分析方法发展起来之前,很多学者的确根据数学处理的方便程度来进行模型遴选和参数估计。 在所有的分布中,最最简单的莫过于正态分布。正态分布具有简单性的多种特质,包括特征尺度(平均值)、可叠加性(正态分布的叠加依然是正态分布)以及左右对称。在正态分布模型中,平均值、标准差都有了。计算出平均值、标准差和协方差,一个系统的概率结构就非常清楚了。所以一个地理系统如果服从正态分布,则其解释和预测就非常容易。正因为如此,有些地理学家抛弃拟合效果良好的Clark模型不用,而选择正态分布函数描述城市人口密度分布(Dacey,1970)。与正态分布相关的一种分布是对数正态(lognormal)分布。所谓对数正态分布,就是变量取对数之后,服从正态分布。可见对数正态分布也很简单,只要变量取对数,平均值、标准差等统计量都可以计算出来,从而概率结构也就清楚了。所以,有人抛弃城市规模分布的Zipf模型不用,采用对数正态分布函数描述城市位序—规模分布特征;抛弃城市人口密度的Clark模型不用,采用对数正态分布函数描述城市人口分布的空间形态(Parr et al,1989)。如前所述,所有具有特征尺度的分布,包括指数分布、对数正态分布,在极限条件下都可以逼近正态分布,这正是传统概率论与统计学的核心理念。 问题不在于有尺度抑或无尺度,而在于能否解释和预测。要想有效地解释和预测,模型选择必须与现实问题在性质上匹配。对于有尺度的系统选择有尺度的分布模型,并且选择适当(如正态分布系统选择高斯函数,指数分布系统选择指数衰减函数),效果当然很好。问题在于,如果系统有尺度(如城乡比曲线),选择了无尺度函数(幂指数函数);对于无尺度系统(如城市形态),选择了有尺度函数(如指数分布,对数正态分布),那就不可能得到有效的解释和可靠的预测结论了。在早年的计量革命时期,由于缺乏标度概念,为了方便,很多学者将无尺度的系统当作有尺度的分布来建模(典型的例子是采用对数正态分布函数代替Zipf定律或者Pareto分布)。如今,由于复杂性研究的兴起,标度分析日益受到重视,不少研究者走到另外一个极端,将有尺度的简单系统当作幂律分布来描述和开展分析。于是有人感叹,如今幂律是过度识别(over-identified)甚至被滥用了。 3.3 典型分布函数的比较分析 人文地理系统中最典型的两类分布可能是指数分布和幂律分布。以城市地理学为例,对于单个城市而言,城市人口密度主要表现负指数分布,服从Clark定律(Clark,1951);对于区域中的城市集合体来说,城市规模分布主要表现为幂指数分布,服从Zipf定律(Zipf,1949)。然而,无论城市人口密度,抑或城市规模分布,都有人选择对数正态分布。原因大致如下:其一,分布形态相似。指数分布、幂律分布和对数正态分布具有共同的特征:都是拖着尾巴的曲线。在数据处理过程中,三种分布容易混淆。不仅如此,有些观测数据(包括城市人口密度、城市规模分布)既可采用对数正态分布拟合,也可利用负指数分布或者幂律分布拟合,以致一些结果似是而非。其二,分析难度不同。对数正态分布简单,其易于处理的优点几乎仅次于正态分布。较之于幂律分布,指数分布具有良好的性质,容易处理;较之于指数分布,正态分布具有良好的性质,容易解析。对数正态分布在数学技巧上类似于正态分布,因此要比指数分布和幂律分布简单得多。选择对数正态分布,可以避免很多数学分析方面的麻烦。 除了上述因素之外,还有统计分析的问题。之所以一些学者坚持采用对数正态分布描述城市人口密度分布或城市规模分布,原因在于:其一,拟合优度。有些城市规模的观测数据采用对数正态分布拟合要比采用幂律分布拟合,拟合优度(即)更高。其实,两种拟合是不可比的,因为自由度不同。但是,很多初学者不明白这个道理。类似地,有些城市人口密度的观测数据采用对数正态分布要比采用指数分布函数拟合的相关系数平方更高。道理同上。其二,处理失误。误解的一个重要原因,在于很多初学者不懂得标度区的概念,数据处理方式不当。以城市为例,中国官方认可的城市660多个,但只有550多个达到应该达到的规模,大量小城镇没有发育起来。因此,在双对数坐标图(log-log plot)中,660多个城市只有前面550多个城市的位序—规模形成直线,其余100多个城市出现垂尾现象——形成一条下垂的“尾巴”(在标度区之外)。然而,一些初学者拟合的时候,并没有掐掉标度区之外的尾巴,从而对数正态分布模型可能给出更高的。 4 解决问题的途径 4.1 理论途径 科学研究的方法范式先后从传统的数学方法、实验方法发展到模拟方法、计算方法。数学是科学研究的最古老的范式。科学研究的数学工具主要是高等数学。“老三高”直接用于数据处理和数学建模,“新三高”则用于更为深刻的理论性质的分析和判断。基于“老三高”选择一个数学模型,但通常不能对模型的性质与区别做出决定性的判断。例如,指数分布模型与幂律分布模型的异同点何在?不容易解释清楚。“新三高”都涉及一个共性,那就是变换中的不变性。利用不变性,可以对数学模型做出区分。例如,指数函数是平移不变和微分不变的,而幂指数函数是伸缩不变的,即具有标度性质。标度,就是伸缩变换中的不变性。有尺度分布如正态分布、对数正态分布、指数分布等等都不满足这个性质,不属于标度范畴。另一方面,如果一个系统服从有尺度分布,则可以基于常规方法开展分析。因此,到目前为止,标度分析主要用于复杂系统的分析。如果不明白这些性质的不同,就会导致不准确的解释和不可靠的预测。以指数分布和幂指数分布为例,通过分布函数的数学分析,可以看出它们在形态和性质上的异同(表3)。 指数分布具有明确的概率结构,而幂律分布不然。以城市地理学问题为例,城市人口密度通常满足Clark定律,表现为负指数衰减特征。一个指数分布模型具有两个参数:一是比例参数,二是速度(比率)参数b(表3)。比例参数代表城市中心的人口密度,没有太多的地理空间信息。速度参数是Clark模型的特征参数,它是城市人口空间分布分析的关键参数。借助微积分知识,可以证明速度参数代表城市人口密度从中心到郊区衰减的平均相对速度。速度参数的倒数为尺度参数,其本质为人口分布尺度的均值,均值的平方则是人口分布尺度的方差(方差的平方根就是标准差了),模型拟合的相关系数代表空间尺度与分布密度对数之间的协方差。借助线性代数和统计学知识可以利用观测数据将上述参数值估计出来,于是城市人口空间分布的概率结构就清楚了。与此对照,一个区域的一群城市,其规模在一定条件下服从Zipf定律。Zipf定律在数学上等价于Pareto分布,这是一种典型的幂律分布。该分布不存在有效的均值,从而标准差和协方差都不确定,故此经典的特征分析方法失效。过去,国内外很多学者花费大量精力探讨最佳城市规模。然而,对于没有典型尺度的现象,在个体层面寻找最佳规模是没有意义的(Buchanan,2000)。不过,在集体层面,城市体系却有一个最佳规模分布(陈彦光,2008b)。城市规模分布的信息可以借助标度指数q开展分析,这个标度指数就是城市规模分布的特征参数,可以作为城市规模分布优化程度的判据之一。与城市规模分布类似,人均收入分布服从Pareto分布,没有特征尺度。过去发展经济学家Chenery等(1986)根据人均收入水平划分一个地区的产业发展阶段,今天看来,其测度选择是有问题的,因而划分的结果未必可靠。 4.2 实践途径 当模型选择的分歧在理论上无法决定的时候,就需要通过学术争论,由实践效果来做出裁决。建模的目的是对现实进行解释和预言乃至优化。当同类现象符合不同模型的时候,就会形成竞争关系:哪个模型具有更好解释和预测效果,哪个模型的计算处理更为简捷,哪个模型对相关模型具有更好的兼容并包性质,则哪个模型会在竞争中最后胜出(陈彦光,2008a)。所以,一个模型的最终确定,可能需要等待很长时间。大自然力求节约,但其过程通常表现出现极大浪费。本文作者的一个猜测是,80%的学术论文可能没有实质性的学术贡献(根据基于Pareto分布的80/20法则推断)。不过,表面无用的论文也有作用:其一,将一些概念炒热了——让更多人了解这些概念;其二,启发一些人的思维,从而通往正确的研究结果。有时候,一篇好的文章不在于它是多么正确无误,关键在于它能否启发读者去进一步地思考。 5 结束语 传统的科学思维是微积分原理、线性叠加原理、大数定律和中心极限原理以及守恒原理。前三个原理源于高等数学,最后一个原理源于物理学。整个西方近现代科学理论体系都是基于这种思维方式建立的。由于上述数学原理,还原论思维根深蒂固;由于上述物理原理,科学追求普遍适用的规律。然而,地理系统是复杂系统,不能采用简单的数学方法建模;地理学规律不同于经典物理学的规律,往往不具备普适性即时空平移对称性(陈彦光,2009)。地理规律不是存在的规律,而是演化的规律;不是时空平移不变的规律,而是尺度平移或伸缩不变的规律。地理空间格局没有规则,基于规则几何学的微积分描述效果有限;地理演化过程非线性,基于叠加原理的线性代数分析效果受限;地理空间分布通常没有特征尺度,基于有尺度概率分布的统计学不能有效分析。地理学计量革命后期理论化的过程中的不足在于,将不规则空间格局当作规则格局处理,将非线性地理过程当作线性过程对待,将无尺度空间分布当作有尺度分布进行分析。凡此种种,都会导致现实世界与理论世界的显著背离。利用不正确的建模结果解释和预测,不能取得令人信服的结果。当然,根源不在于地理学家,而在于当时缺乏必要的数学思想和有效的数学工具。今天,虽然地理学数学建模的工具并未齐备,但较之于计量运动时期,可谓是发达多了。因此,今天不应继续重复当年的错误。 作为空间分布的科学,地理学最需要有效的分布模型。地理系统既具有简单的一面,也具有复杂的一面。对于地理系统中简单的现象、过程和格局,理当采用简单的分布函数进行描述。但是,地理系统的本质是复杂的,复杂现象、过程和格局乃是主体,地理分析更需要反映复杂性的分布函数。简单与复杂并不截然对立,而是对立统一。在地理时空演化过程中,有尺度现象与无尺度现象往往错综交织。地理分析的关键步骤在于识别简单背后的复杂,从而透过复杂过程揭示简单的演化规则。复杂分布模型不在于数学形式和结构,而在于处理过程——常规的尺度分析无效。复杂系统分析的一个有效途径是标度分析。基于常规尺度建立一种幂律分布或者幂函数关系,据此计算标度指数。由于标度指数具有特征性质,过去无法分析的问题今天通常可以给出一些有效答案。标度分析的工具包括分形几何学、异速生长理论、无尺度网络理论,等等。今后还会有更多的理论工具出现。从这个意义上讲,地理学的理论变革不会是太久远的事情,因为地理学理论发展的时机渐趋成熟。需要明确的是,任何分析方法都不是万能的,都有各自的适用范围。正如传统的数学工具不适用于标度现象分析一样,标度分析工具也不适合于有尺度现象的地理分析。具有远见卓识的地理学者绝对不会盲目地反对数学方法,但必须反对盲目的数学方法(所谓盲目的方法,就是不顾地理系统的时空性质,想当然地进行数学建模和数据分析)。对标度现象开展特征尺度分析,抑或对有特征尺度现象开展标度分析,都是不顾地理系统性质,盲目应用数学方法的典型事例。今后进一步的研究可以朝3个方向努力:一是开发地理标度分析的数学建模方法,二是寻求标度分析与特征尺度分析的有效结合,三是将地理分布建模分析与模拟、计算等相关方法有机集成起来,形成系统的研究框架。 引用格式:陈彦光.2015.简单、复杂与地理分布模型的选择[J].地理科学进展,34(3):321-329.[Chen Y G.2015.Simplicity,complexity,and mathematical modeling of geographical distributions[J].Progress in Geography,34(3):321-329.].标签:正态分布论文; 地理论文; 数学论文; 指数分布论文; 幂律分布论文; 空间分析论文; 预测模型论文; 特征函数论文; 数据拟合论文; 特征选择论文; 线性拟合论文; 对数曲线论文; 地理学论文; 城市选择论文; 人口密度论文; 统计学论文; 概率论论文;