调查数据的分析与应用_相关系数论文

调查数据的分析与应用,本文主要内容关键词为:数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在社会调查和市场调查中,经常要调查人们的观点、态度等主观问题,搜集的数据大部分为定性数据(即分类和排序数据)。笔者发现对该类数据的分析大多还是局限在频数、频率和交叉汇总分析。而大量调查数据中包含的许多有用信息却得不到利用,这是因为许多统计方法不能直接对定性数据进行分析,因此如何对定性数据作进一步的统计分析,如显著性检验、相关分析、回归分析、多元变量分析等,是调查数据分析中十分必要的内容。

本文将笔者近些年在实际调查中总结归纳的一些对定性数据的分析方法介绍如下,希望对读者有所帮助。

一、交叉汇总表中的变量显著性检验一列联分析法

交叉汇总表(又称列联表)是将两个及以上的变量进行交叉分类,计算其频数和频率进行分析的方法(例如表1显示了某地区某单位职工年龄与职称之间的交叉汇总情况)。从汇总结果看,该单位职工的职称与年龄似乎存在相互关系,但这种关系在统计上是否显著呢?

表1 按年龄分的职称情况

年龄

 职称

  合计

  无职称

  初级职称

 中高级职称

35岁以下

  87

  30 23140

35~4537

6 22 65

45岁及以上10

3 11 24

合计 134 39 56229

为了说明年龄与职称两变量之间是否有统计上的显著关系,即是否相关,常用卡方分布进行检验,这种分析一般称为列联分析法。

统计量常用于列联表中变量之间是否相关的检验,尤其适合于两个定类变量之间是否有相关的检验。在SPSS中作检验很方便,只要在交叉汇总分析中选择Statistics功能,然后选择卡方检验即可。

二、定性数据的相关分析

卡方检验只能说明变量之间是否存在相互关系,但是不能反映他们之间的相关程度有多大。对两个变量之间相关程度的测定,主要用相关系数。对不同的变量类型所用的相关系数不同,对定类变量可用的相关系数主要有列联相关系数C和Cramer的V相关系数;对定序变量主要可用斯皮尔曼(Spearman)等级相关系数R、Gamma相关系数G和Somers的相关系数D等。

上述用关系数在SPSS的交叉汇总(Crosstabs)分析中的Statistics功能中都存在,只要选择就可得到相应的相关系数值。如年龄与职称之间的斯皮尔曼(Spearman)等级相关系数R、Gamma相关系数G和Somers的相关系数D结果见表2、表3(表略,见原文,下同)。

从各种相关系数值看,虽然年龄与职称的相关程度不是很高,基本上在0.15左右,但是相关系数的检验都是显著的。

三、对数线性模型

上述的检验与相关分析方法,在应用中仍有局限性,首先是他们不能解决多变量(两个以上变量)之间的交互联系的分析;其次,不能准确定量描述一个变量对另一个变量的作用幅度,即自变量一个单位的变化导致因变量变化的期望值。为了解决这些问题,就要利用对数线性模型。对数线性模型的优越性之一就是它具有综合分析多元交互表的功效,并有强大的统计检验功能。

我们仍以表1为例,计算出表中的各单元中的频数的自然对数(),

定义的对数线性模型为:

对应项的意义是:

对数频数=总平均数+因素A分布作用+因素B分布作用+因素A与B的交互作用

上述公式中包括了所有对数频数的影响效应:μ为常数项,相当于回归方程中的常数项,为A因素效应。为B因素效应,因素效应在对数线性模型分析中又被称为主效应或边际效应。为A和B两因素的交互效应。

通过对数线性模型中的这些影响效应和统计检验,就可具体分析变量之间的影响程度。

四、定性数据的回归分析

回归分析是一种典型的统计方法,它用于研究一个因变量是否与一个或多个自变量之间的定量关系。一般的回归模型要求自变量与因变量都是定量数据。当对定性数据进行回归分析时,则要采用不同的方法。

(一)自变量为定性数据,因变量为定量数据时,要利用哑变量(虚拟变量的方法)

例如:人均收入与文化程度之间作回归,人均收入是定量数据,而文化程度(不识字、小学、初中、高中、大学)是定性数据,它为自变量时,就要将文化程度设4个哑变量:,来表示文化程度的不同类型,即:

(二)当因变量为定性数据(0、1变量)时,则要采用Logistic回归模型

它研究取值为仅为两个值的因变量(一般取值为0或1),如:城(1)/乡(0)、男(1)/女(0)、有(1)/无(0)等与某些自变量之间的关系,并可以根据变量的值对因变量进行预测。

例如:因变量:性别(1、0);自变量:收入,可作Logistic回归分析,反映不同的收入水平在性别上是否有差异,差异有多大。由于因变量只有两个值,所以可以把它看作成取值在0~1之间的概率p,并得到下面的模型:

该模型称为logistic回归模型。具体应用原理可见相关文献。

五、因子分析

因子分析的最大特点是利用降维的思想,将若干个有相分联系的变量,综合归纳为少数几个主要的公因子,来综合反映现象的本质特点。

例如,某年在西部地区,我们对有关机关和事业单位的人员作了调查(样本量为460人)。其中调查了以下问题:

“您认为本地区社会经济发展最急需解决的问题依次是:(请选出最主要的三项,并按重要程度排序)

1.资金 2.人才 3.新观念 4.信息 5.相关政策 6.知识与技术

请排序:第一重要问题_______;

第二重要问题______;

第三重要问题______。

由于问卷中的变量设计为定序变量,分为第一重要问题、第二重要问题和第三重要问题三个级别的重要程度,常用的分析方法也是计算各种问答的百分比,即频率分析。但是频率分析也只能对每一个重要问题进行分别的汇总,不能综合地反映问题。而因子分析方法不仅可以进行综合分析,发现公因子,而且还可得到更多的信息。

对上述的选项按三级李克量表进行处理:凡是选为第一重要的因素赋予10分,选为第二重要的因素赋予7分,选为第三重要的因素赋予4分,没有被选中的因素都设为0分,新设置六个变量(因为问题的选项有六项),将每个人的回答情况由原来三个变量转换为资金、人才、…六个变量的转换具体转换方法见表4(表略)。

然后对资金、人才…等六个变量进行多元统计的因子分析,其分析结果见表5。

表5 旋转后的因子载荷表

内容

第一公因子

第二公因子 第三公因子 第四公因子

资金 0.838

人才 -0.640

新观念 -0.904

信息

0.979

相关政策

0.887

知识与技术0.904

由资料可知,前4个因子的方差贡献率达到了85%以上,所以,我们可以取前4个因子作为主要因子加以分析,对其进行方差最大化旋转,其结果发现,第一公因子是资金与新观念;第二个公因子是人才和知识与技术;第三个公因子是相关政策:第四个公因子是信息。这说明在发展西部经济中最急需解决的问题是资金与新观念,其次为人才和知识与技术,再次是相关政策、信息。该分析结果与前面的频率分析基本一致。并且从因子分析中我们还可得到更多的信息。

首先,第一公因子为资金与新观念,反映解决西部地区经济发展最重要的因素是资金与新观念,但是,两个变量的因子载荷符号正好相反,这说明越是关心“资金”的人,越不重视“新思想、新观念”方面的问题;而越是关心“新思想、新观念”的人,在“资金”方面则越不重视。

其次,信息这一选项被排在最后,从一个侧面说明了西部地区经济较之东部,还处于粗放发展阶段。落后的经济,更需要资金、人才和技术。对于西部地区,“科技革命”对社会和经济的影响还远远不够,“信息时代”还尚未到来。

从上面的分析中我们可知,因子分析方法可应用于定型数据分析,并且能得到更多的信息,但是正如其他统计方法一样,因子分析是否适用于某些数据的分析,最终还要取决于分析的结论是否符合现实的经济意义,即在实际中是否能给出合理的解释。

标签:;  ;  ;  ;  

调查数据的分析与应用_相关系数论文
下载Doc文档

猜你喜欢