空间点模式分析中离散趋势的描述研究及应用,本文主要内容关键词为:趋势论文,模式论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
流行病学是研究疾病在人群、时间和空间中的分布特征及其发生发展规律的基础上进行病因学和相关危险因素的探讨,进而开展疾病防治,保护人群健康[1],而约80%的流行病学资料具有空间属性[2],如病例总是发生在一定的空间位置,而处在某一空间位置的特殊环境又影响疾病的发生,因此疾病的空间分布研究已经引起了研究者的关注。随着空间数据采集管理的便利以及空间统计理论的发展[3],研究者可以较容易地获取与疾病分布有关的空间属性资料,并进行相应的统计分析,然而目前的研究多是限于可视化的探索性分析,忽略了统计指标在描述性分析中的应用,本文借鉴经典统计学中描述离散趋势的统计指标思想和犯罪学中犯罪事件的描述性分析方法,以点模式数据为例探讨了空间点模式分析中描述离散趋势的统计指标的计算原理,并以血吸虫病为例进行了应用研究,显示出良好的应用前景,对于基于面的数据,只要提取其质心坐标就可以应用本文的统计指标进行分析。
一、统计指标
经典统计学中通常采用方差、标准差和四分位数间距等来描述数据的离散趋势,空间点模式分析中则通常使用标准差来构建x/y坐标的标准差、标准差圆、加权标准差圆、标准差椭圆和加权标准差椭圆来描述空间分布的离散趋势,以辅助研究人员理解空间信息的分布特征。下面分别介绍一下它们的构建方法和计算原理。
(一)x/y坐标的标准差
空间点模式分析中描述离散趋势的最简单指标就是分别计算x/y坐标的标准差,表示其离散趋势,计算方法与经典统计学中标准差的计算相同,计算公式为:
示x/y坐标方向的离散程度。
虽然x/y坐标的标准差应用简单方便,并且可以提供一些离散程度的信息,但是它在应用中存在两个问题:①它提供的是描述事件空间分布离散程度的两个独立的统计量,而不是一个汇总统计量;②它采用的是相应坐标系统的测量单位而不是空间上距离的单位,因此其具有理论研究的价值,而在实际应用中较少,更多地是应用(加权)标准差圆和(加权)标准差椭圆进行描述。
(二)标准差圆
标准差圆(standard deviational circle,简写为SDC)的半径类似于经典统计学中的标准差[4],标准差描述的是观察值相对于均数的偏离情况,而标准差圆的半径描述的是空间点模式分析中的事件相对于均数中心的空间偏离情况,标准差的单位与观察值的单位相同,而标准差圆采用的是距离单位(如:米,公里等),与使用的坐标系统和投影方法有关,标准差圆半径的计算公式为:
以均数中心为圆心,r作为半径,画一个表示空间分布离散程度的圆,其内在假设为空间各个方向上离散程度相近,即事件的分布不存在方向性。
研究中可以计算同一研究区域不同事件的标准差圆,或者,不同研究区域同一类型事件的标准差圆,这样就可以对不同区域同一类型事件,或者,同一研究区域不同事件空间分布的离散程度进行比较,分析差异,探讨原因。对于两个面积等特征相似的区域研究同一事件,如果事件总数相似,那么标准差圆半径大的那个区域,其事件的空间离散程度较大。然而,如果两个研究区域的面积等影响事件分布的特征相差很大,那么标准差圆的比较结果不能正确反映二者空间分布的离散程度,容易产生偏倚。为了校正这种偏倚,可以将研究区域内事件的相应属性数据(如:事件所在地的面积)作为权重计算标准差圆的半径,即加权标准差圆。
(三)加权标准差圆
像加权均数中心和加权中位数中心的计算方法一样,加权标准差圆(weighted standard deviatioal circle,简写为WSDC)[4]半径的计算公式为:
图1 标准差椭圆中三个组成元素的示意图
(四)标准差椭圆
标准差圆和加权标准差圆对于空间点模式分析中各向同性事件的离散程度描述是非常有效的,然而,很多地理现象(geographic phenomenon)的空间分布在各个方向上的离散度有时是明显不同的,即所谓的各向异性(anisotropy)[5],如:交通事故发生的地点通常是沿着交通路线分布,而在其他方向上通常很少,表现出与高速公路形状类似的分布,这时用各向同性的标准差圆来描述其离散程度是不恰当的,因为它不能正确地展示事件特有的各向异性的离散程度,这时应该使用标准差椭圆(standard deviatioal ellipse,简写为SDE)[4]。
标准差椭圆的计算相对复杂,它是由旋转角θ、长轴方向的标准差和短轴方向的标准差三个元素确定。从理论上讲,如果事件的分布是各向异性的,那么就必然有一个最大离散度的方向,将其定义为长轴,而与其垂直的通常是最小离散度的方向,定义为短轴,它们可以看作是将笛卡尔坐标系中的x/y坐标轴按照空间点模式分析中事件的地理方向旋转一定的角度θ而得到,θ定义为正北方向(图1的虚线)顺时针旋转与长轴重合时转过的角度(图1)。
标准差椭圆的计算相对复杂,主要步骤为:
(1)计算空间点模式分析中均数中心的坐标,作为标准差椭圆的中心,并以其为旋转点进行旋转;
(2)按照公式(5)计算并确定旋转角θ:
参数的定义同公式(4)。其中,tanθ可以是正值,也可以是负值,正值说明从正北方向顺时针旋转θ与其重合的轴是长轴,负值说明从正北方向顺时针旋转θ与其重合的轴是短轴。根据θ的定义,如果tanθ是正值,那么取arctan就得到旋转角θ的值,如果tanθ是负值,那么旋转角θ应为;
(3)使用公式(5)确定的旋转角θ,按照公式(6)和(7)分别计算长轴和短轴方向的标准差和:
(4)最后,以均数中心作为椭圆的中心、2和2分别为长轴和短轴的长度、为椭圆的面积绘制椭圆并按照旋转角θ进行旋转得到标准差椭圆,然后通过叠加分析显示其离散程度。
(五)加权标准差椭圆
同其他加权空间统计指标一样,为了校正不同位置事件发生概率的不同,可以通过对公式(5)、(6)和(7)中相应的坐标赋予权重计算加权标准差椭卧[4],计算原理与标准差椭圆完全一样,但计算太复杂,可以直接在ARCGIS9.2(ESRI)软件中获得。
二、应用实例
(一)数据来源与分析方法
(1)基础地图
从1:25万的全国县界电子地图中提取安徽省池州市贵池区的区划图,使用GPS对全区207个村进行空间定位,经纬度坐标在ARCGIS9.2(ESRI)中使用西安1980坐标系统进行投影,转换为平面坐标后,以点模式的数据形式进行叠加显示,生成村级基础地图。
(2)急性血吸虫病数据
收集2001~2006年贵池区各血防专业机构及其他医疗卫生机构诊断的急性血吸虫病例资料、个案卡以及有关的疫情调查报告,逐个核对确认病例[6],同时收集全区207个村各年的人口数。将急性血吸虫病例的个案资料和村的年度人口数双遍录入并校对,建立最终用于分析的Excel数据文件。
(3)分析方法
将急性血吸虫病例的个案资料和207个村的年度人口数作为属性数据库,在ARCGIS912(ESRI)中与基础地图中村的空间位置进行匹配,生成完整的空间点模式分析数据库,选用本文介绍的统计指标描述其离散趋势。假设研究目的是分析急性血吸虫病例空间分布的离散趋势及不同年间离散趋势的变化,由于村人口数可能与急性血吸虫病的发病数多少有关以及血吸虫病例的分布可能与贵池区内河流的走向有关,因此以村的年度人口数为权重,选择加权标准差椭圆作为描述急性血吸虫病离散趋势的统计指标来分析其分布的离散趋势,探讨应用价值。
(二)分析结果
2001~2006年全区共报告急性血吸虫病例83例,各年度病例数依次为13、23、13、14、14和6例。2002年的急性血吸虫病例急剧增多主要是2002年发生了洪涝灾害,接触疫水的人数增加所致,而2006年的急性血吸虫病例减少,可能与2006年秋浦河流域综合治理项目的实施和自然干旱有关,不考虑“自然灾害”的影响,从非空间角度可以认为贵池区的血吸虫病的防治效果是比较稳定的[6]。然而,通过空间点模式分析的离散性趋势描述可以对急性血吸虫病有更加清晰全面的理解。图2显示了2001~2006年贵池区急性血吸虫病例的加权标准差椭圆变化图,除2003年外,其他5年标准差椭圆的长轴均与秋浦河的方向相近,可见秋浦河在贵池区血吸虫病防治上的重要性。2003年标准差椭圆的长轴大致沿与秋浦河垂直的方向,原因可能为2002年秋浦河发生的洪涝灾害使得对其治理工作的加大,导致2003年秋浦河流域的病例数减少,而其他方向上的病例数相对增加所致,之后秋浦河的治理工作有所忽视,病例又多散发在秋浦河流域,标准差椭圆的长轴又沿秋浦河的方向。图2中浅灰色填充的标准差椭圆表示了6年发生的急性血吸虫病例总的离散程度,清楚显示了贵池区急性血吸虫病例主要是分布在秋浦河流域一带,可见秋浦河对于贵池区控制血吸虫病起着至关重要的作用。2001、2003、2004和2005年的急性血吸虫病例数相当,但2003年由于治理工作的加大使得该年急性血吸虫病的加权标准差椭圆明显不同,而其他三年的加权标准差椭圆的长轴方向相似,但短轴标准差变化很大,呈现先增加后减少的变化,说明急性血吸虫病发病的集中—发散—再集中的变化,表明血防效果的好—坏—好的变化。对于不同疾病,集中表明该病危险因素分布局限,短期内可以控制或局部消除该病,发散预示着疾病控制难度大,基于该思想可以优先选择危害严重且容易控制的病种进行控制,达到卫生资源的合理配置,而对于同一疾病,则可以通过加权标准差椭圆短轴的变化评价疾病防治效果的变化,对长轴的分析可以为探讨疾病的危险因素提供更加直观清晰的线索,为深入研究提供研究假设。
三、讨论
空间点模式分析的地理对象有点和面两种,本文以点数据为例探讨了空间点模式分析中描述离散趋势的统计指标的构建原理及应用价值,对于面数据只需先计算其质心坐标,然后就可以按照本文的方法计算相应的统计指标。像经典统计学中描述性分析一样,空间点模式的描述性分析也可以分为集中趋势和离散趋势两种,限于篇幅本文只探讨了描述离散趋势的统计指标,对于描述集中趋势的统计指标将另文探讨。然而,不同的是空间点模式分析中不再将资料分为定量和定性资料分别进行描述,它是以空间坐标为主导,以属性数据作为权重进行统一描述,空间描述性统计指标的计算都涉及空间坐标,因此空间坐标准确性的高低对于分析结果的准确性有着直接的影响(如:经纬度坐标投影方法的正确选择)[7],对于任何指标的计算都要注意将坐标转换为二维平面直角坐标后再进行计算。
图2 2001~2006年贵池区急性血吸虫病例空间分布的离散趋势变化图
本文以血吸虫病为例,使用加权标准差椭圆探讨了其应用价值,结果显示出很好的应用前景。限于篇幅本文在分析中仅仅探讨了描述离散趋势的空间统计指标可能的意义,暂时忽略了描述集中趋势的统计指标的应用,二者的结合将更加全面清晰地描述研究事件的空间分布,为研究者提供有用的信息。通过描述性统计指标了解研究事件的空间分布,是进行空间分析的第一步,研究者应该在此基础上继续进行事件的空间自相关分析、空间分布模式探讨和空间变异等分析,为疾病的病因学研究和危险因素的探讨提供有力的统计学证据,本文的目的在于探讨目前被忽略的描述离散趋势的空间统计指标,对于深入的统计推断理论,读者可参考相关文献[8,9]。空间统计学的研究对于充分利用空间信息提供了非常好的方法,已经在地质学、环境生态学、疾病犯罪学和社会经济学等诸多方面得到了成功应用[10],其必将为流行病学的病因学研究和危险因素的探索提供更加丰富的研究手段。