CHAID方法在居民卫生服务需求研究中的应用,本文主要内容关键词为:居民论文,需求论文,卫生论文,方法论文,CHAID论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:R195.1 R195.4 O212.4文献标识码:A
引言
CHAID的全称是Chi-squared Automatic Interaction Detector(卡方自动交互检测),由Kass[1]于1980年提出,适用于分类和序次等级数据的分析,是一种以目标最优为依据,具有目标选择、变量筛选和聚类功能的分析方法[2]。其核心思想是:根据给定的反应变量和经过筛选的解释变量对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。CHAID方法的分类过程是:首先选定分类的反应变量,然后用解释变量与反应变量进行交叉分类,产生一系列二维分类表。分别计算二维分类表的值,比较P值的大小,以P值最小的二维表作为最佳初始分类表,在最佳二维分类表的基础上继续使用解释变量对反应变量进行分类。重复上述过程,直到P大于设定的有统计意义的α值则分类停止[3]。
CHAID最早被用于市场细分的研究中,由于其具有能够处理非线性、交互作用及缺失值等较为复杂的数据,且方法易于掌握,结果解释较为简单等优点[4],近年来有越来越多的学者将其引入到生物学研究的领域中来[5~7]。在卫生服务需求的研究中,影响因素众多,相互之间不仅存在较为复杂的交互作用,且反应变量和各影响因素之间经常为非线性关系,这使传统的参数检验方法在处理此类数据时显得力不从心[3]。因此,本文以研究影响浙江省海岛居民两周患病率的影响因素为例,介绍CHAID方法在居民卫生服务需求研究中的应用,探索适合于卫生服务需求研究的有效方法。
一、材料和方法
(一)材料
数据来源于2003年浙江省象山县海岛居民卫生服务需求与利用调查。对象山半岛的47个行政村, 4个居民区采用分层整群随机抽样方法进行抽样。共抽4个村,1个居民区,713户,2118人,占全镇人口的6.5%。调查内容以家庭健康询问调查为主,包括社会人口学特征、家庭经济状况、生活方式、医疗保险、医疗意向、两周患病和半年慢性病发病和因病伤住院及医疗费用等。采用入户的方法收集数据,按调查表内容对调查户所有成员逐一询问。
(二)方法[8]
附图
(1)计算反应变量Y的分布:
(2)对每个解释变量X,寻找Y的分布差异最小的两个类别(P值最大),用于计算P值的方法依赖于Y的变量类型。CHAID要求各解释变量均为分类变量或等级变量,反应变量可以为分类变量或等级变量,也可以为离散型变量或连续型变量。当反应变量为分类变量时,CHAID按式 (1)计算反应变量和解释变量形成的二维分类表的Pearson(Pearson chi-square)统计量;当反应变量为等级变量或离散型变量时,CHAID通常按式 (2)计算二维分类表的似然比
(Likelihood ratio chi-square)统计量。另外,对于反应变量是连续型变量的情形,CHAID计算的其实是F检验。
表1 反应变量Y的构成情况
Y
频数 构成比
135
35.00
2 88.00
335
35.00
422
22.00
合计100 100.00
附图
附图
表2 解释变量与反应变量Y的关系
附图
表3 与Y形成的六个2×4列联表
附图
表4 合并后的与Y的关系
附图
④计算调整的P值,上述所做的一系列检验将增加Ⅰ型错误的概率,因此必须用Bonferroni[9]对上述P值进行调整。此处因为可能的分类方法有7种
,故调整后的P值为0.0311(=0.004449×7)。
(3)用取代
,重复上述①到④,最后得到
与Y形成的列联表(表6),计算调整的 P值为1(因为0.598559×3>1)。
表5 合并后的与Y的关系
附图
表6 合并后的与Y的关系
附图
(4)比较各解释变量与Y的列联表的调整P值的大小,以P值最小且小于0.05的解释变量为最佳的初始分类变量。此处,以为初始分类变量,将Y分成两部分(
=1和
=2,3,4)。接着,在此基础上进行同样方法的拆分,直到满足停止拆分的条件为止。
二、结果
在分析之前必须先对各变量进行量化,结果见表1。为了防止模型的过度拟合,将原始数据集分成训练样本和检验样本(两者所占比例分别为70%和30%),首先对训练样本应用CHAID法建立树形模型,再用检验样本对模型进行修正。
用AnswerTree3.0统计软件对该资料进行CHAID分析,得图1(图略,参见原文)所示树形图。图中方框为树的“结点”,前后两层之间是根结点和子结点的关系。反应变量Y按照统计检验所得P值的大小依次拆分,第一层P值最小,该解释变量对反应变量的影响最大,依此类推,直到某结点不存在统计学差异为止。
表7 反应变量(Y)和解释变量的量化
附图
附图
三、讨论
国内[10,11]的相关研究表明,慢性病、年龄、性别、婚姻状况、文化程度、职业、体育锻炼等都可能对居民的两周患病率产生影响。从本研究的结果可知,影响海岛居民两周患病率的因素包括调查前半年是否患有慢性病、与同龄人相比的健康状况、年龄、性别以及医疗保障形式等。
调查前半年是否患有慢性病与两周患病率的关系最为密切。居民在调查前半年患有慢性病者两周患病率较高,反之,居民在调查前半年未患有慢性病者两周患病率也较低。调查前半年的慢性病反映了居民自身的健康状况,这部分居民不但自身健康状况较差,而且有相当一部分人的慢性病持续到了调查前两周,因此对居民的两周患病率造成了直接影响。这与史雅翼等对浙江省农村居民所做的研究结果一致[11]。
在调查前半年患有慢性病的人群中,与同龄人相比的健康状况()是影响其两周患病率的重要因素,较同龄人健康状况好的居民其两周患病率也低。且在这部分人群中,性别是影响其两周患病率的主要因素,女性的两周患病率相对较高,说明女性的卫生服务需求相对较高,这与性别对浙江省农村居民两周患病率的影响一致[11]。
在调查前半年未患有慢性病的人群中,年龄是影响其两周患病率的因素,15~34岁组两周患病率最低,0~14岁组的两周患病率最高。曹素华等对上海市城市居民的研究结果也表明年龄是影响两周患病率的因素,不过其0~14岁组的患病率低于35岁及以上组。这可能与海岛居民特殊的生活、饮食习惯及0~14岁组的免疫力相对较低有关。性别是影响调查前半年未患有慢性病且年龄为35岁及以上组的因素,女性的两周患病率较男性高,这可能与女性体质衰退较早有关[10]。在调查前半年未患有慢性病且年龄为15~34岁的人群中,医疗保障形式与该人群的两周患病率显著相关,且有医疗保险的居民两周患病率高,这可能是由有医疗保险的人具有较高的就诊率引起的。
对于变量较多、分类较复杂的分类或等级数据,CHAID方法比一般的交叉列联表分析更有效。相对 Logistic回归等参数检验方法而言,CHAID方法不仅可以揭示出具有什么特征的人群发生结果的百分比最高,即最危险的人群,有利于在实际工作中将资源相对集中于这部分人群;而且CHAID方法的分析过程可以显示出变量之间相互作用的方式,能够具体分析到某变量在各人群中的作用方式。另外, CHAID分析以汇总的树形图为表现形式,能够直观地显示出分析过程及结果[3]。
CHAID方法可以处理非线性及变量之间高度相关的数据,不会因解释变量之间的共线性而遗漏有意义的变量。在具体分析的时候,CHAID方法将缺失值也考虑在内,这就克服了有些方法由于受缺失值的影响而使分析的样本量不足的缺点。CHAID方法要求解释变量为分类变量或等级变量,因此在进行分析前,必须先对变量进行整理分类;CHAID方法对反应变量的要求较宽,可以为任意类型的变量。特别地,当反应变量为连续型变量时,可以不受资料多变量正态分布的限制,这也是CHAID方法优于传统参数检验方法(如回归分析、ANOVA等)的一个方面[12]。
在应用CHAID方法解决问题的时候,由于解释变量众多且各解释变量自身又有多个类别,使最终生成的树可能非常庞大,如何实现对树的适当修剪成为要解决的关键性问题。研究者必须在熟悉CHAID方法的基础上,结合自身专业知识,以期得到最佳模型。