先验信息在教育现象抽样调查中的应用_简单随机抽样论文

教育现象抽样调查中先验信息的应用,本文主要内容关键词为:现象论文,信息论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

抽样调查是获取数据的主要方法之一。虽然目前在教育研究中抽样调查已很常见,但结合教育特点对抽样方案本身的研究很少。由于抽样方案影响数据收集,从而影响统计结果的精度,乃至影响所得的结论,所以结合教育现象的特点考虑抽样方案,是一件很有意义的事情。本文考虑将教育现象中的先验信息用于抽样方法的选择、抽样数目(即样本容量)的确定,目的是建立抽样方便、分析简单、精度能预先控制的抽样方案,从而提高抽样过程的可行性和统计结果的有效性。

一、利用先验信息选择抽样方法

概率抽样理论针对不同的实际问题有多种不同的抽样方法及相应的分析方法。如何根据实际问题选择合适的抽样方法,有赖于一般的抽样理论知识,也有赖于与所论问题有关的先验信息(包括背景常识、专业知识以及在抽样前就已知或能推知的各种事实)。在教育现象的研究中,有不少先验信息可资利用,作为选择抽样方法的参考。

1.与分层抽样有关的信息

教育现象中所考虑的总体,其个体往往可以很自然地分类,如总体范围大,可考虑按省、县等行政区域分类,或按城市学校和乡镇学校分类,或按重点学校和普通学校分类,等等;范围小的可考虑按学校分类,或按年级甚至班、组分类,也可按其他标志分类。这些分类将总体分成了若干子总体,为分层抽样提供了便利。抽样理论告诉我们,如能合理分层,使变量在层间差异大而层内差异小,则分层抽样的精确度比简单随机抽样的精确度有大的提高。根据抽样调查中考虑的主要指标(即变量),结合我们的经验和所掌握的各种信息,可以很好地决定如何分层。如果需要总体的某些分类数据,则要分层抽样。如关于小学生课外作业时间的调查,要求有各年级的数据时,年级就应作为层。又如,文盲人口比例或总数的调查,需要男、女文盲人口的数据时,应按性别分层。如果调查的指标与生活水平有关,如学生营养状况调查、身体素质调查、辍学情况调查,人口文化层次调查等,可按城市、小镇、农村分层,也可根据经济发展水平按行政区域或地理区域分层。如果调查的指标与学生的学习成绩有关,如升学率、升学成绩、会考成绩等调查,可按重点学校和普通学校分层。如果调查的指标与学生年龄有关,如心理方面的调查、学习能力方面的调查、某一学科观念的调查等,可按年级或年级段分层。

2.与整群抽样有关的信息

上面谈到的许多分类中的类,也可以成为整群抽样中的群。如果说,分层抽样是为了提高统计结果的精确度,那么,整群抽样则是为了抽样操作简便。与简单随机抽样相比,整群抽样一般会降低精确度。我们应考虑的是,何种情形应避免整群抽样。理论上可以证明,若群内均方与群间均方接近,则随机整群抽样的精确度与简单随机抽样的相差不大。也可以换一个角度来说,如果群内正相关系数不大,则整群抽样的精确度与简单随机抽样的相差不大。在相反的情形下,则差别大。这说明,如果调查指标与总体的某种类的集体行为关系密切,则不宜按这种类分群。如学生课外作业时间的调查,就不宜以班作为群,因为同一个班学生的作业量相同,因而群内相关系数大。如果不是有类似的这种集体共同行为的模式存在,整群抽样是值得考虑的。如与升学考试或会考成绩有关的调查,简单随机抽样非常麻烦,而按整本试卷来抽样是很方便的,即相当于将试室作为群。如果对考生的座位作过随机编排(有些地方的高考就是随机编排座位的),整本抽样就更加可取了。

3.与等距抽样有关的信息

等距抽样与简单随机抽样相比,不仅容易实施,而且往往更精确。事实上,等距抽样是一种特殊的分层抽样,等距样本在总体中分布得更加均匀。若总体内各个体的次序是随机排列的,理论上可以证明,就平均来说,等距抽样与简单随机抽样的精确度相同,但等距抽样操作简便多了。当调查的指标与总体内个体的排列顺序无关时就属于这种情况。如调查的项目与学生的学号无关时,按学号进行等距抽样是非常方便的。又如,要调查图书馆藏书的借阅情况,既可以在书架上直接抽取等距样本,也可以在索引卡片盒中抽取等距样本,因为图书的借阅情况与摆放位置和书名笔画都无必然的联系。当然,在索引卡片盒中抽样不如在书架上抽样方便。在书架上抽样时,每隔若干本书抽一本又不如每隔一定距离抽一本书方便。

若总体有线性趋势,则等距样本比简单随机样本有效得多。这时,一个合乎逻辑的做法是等距抽样的变式,即样本的第一个个体不是从头k个个体中随机取一个,而是取头k个个体中位于中间的那一个:当k 为奇数时,抽样的起点号码为(k+1)/2,k为偶数时,起点号码为k/2或(k+2)/2。如小学班上的座位是按身高从矮到高排的,而调查的项目与学生的身高有关时,按座位号可看作有线性趋势。又如,若学生的学号是按入学成绩从高到低录取新生时的顺序排列的,而调查的项目与学生成绩有关时,按学号也可看作有线性趋势。理论上可以证明,当调查的指标是均值而总体有线性趋势时,等距抽样的精确度比简单随机抽样的高得多,前者的抽样方差只与抽样间隔数k有关,而后者的与k和总体总数N都有关。

若总体有周期趋势,一般不宜用等距抽样,(最坏的情形是抽样间隔数k恰为周期的整数倍, 此时一个等距样本与从总体中随机取单个观测值无异,)除非已知周期而取抽样间隔数k为半周期的奇数倍, 此时均值的抽样方差为零。在教育现象中,有一些时间周期、学期等,也可能有人为的周期,如有的小学班级男女生间隔而座,按性别就有了周期;若按学生成绩高低间隔而座,则按成绩有了准周期。一般地,若怀疑有周期而又不很了解,则不要用等距抽样。不过,在教育现象中要调查的指标呈现周期规律的情形很少,因而,在大多数场合等距抽样是值得考虑的。

二、利用先验信息确定样本容量

一个实用的抽样调查方案,迟早要决定抽取多大的样本,即决定样本容量n。容量太小会使调查结果缺乏精确度而降低其效用, 太大则会浪费人力、财力和时间,还可能增加计算误差。在教育研究中,一些专业知识,一些有目的的预先控制措施,以及一些过去对同类问题的研究时收集存留的数据,都可能帮助我们决定一个令人满意的容量。

确定样本容量通常包含如下步骤:

1.对抽样结果的精确度提出要求。一般是在一定的风险水平a下, 提出一个绝对误差或相对误差界限。对于平均值,设为总体均值,为样本均值,可要求

3.上述求n[,0]的公式中包含了总体的未知参数S或P, 需要对它们进行估计,这正是先验信息发挥作用的地方。我们固然可以采用试点抽样的结果来估计,但这样做常常是一件麻烦的不必要的事情。在教育研究中,我们可以采用同一总体以前的抽样结果,也可采用同类总体的抽样结果。如果对所研究的现象有更多的了解,也可以猜测总体的结构,经验地给出一个估计。以高考后的试卷抽样为例,普通高考科目总分为150,目前难度一般控制在0.5上下,相应的平均分为75上下。经验上可以认为75至140(理科可取150)之间含有3个标准差。 如果难度不是0.5,理论上说标准差会小些。高估标准差意味着高估容量,可以保证所要的精确度。

4.如果抽样方式不是简单随机抽样,则可以将上述方法算得的容量乘以所用抽样方法的设计效果(deff)来计算需要的样本容量。一个抽样方案的设计效果定义为该方案的样本估计量的方差与一个容量相同的简单随机样本估计量的方差的比率。一般地,设计效果也是抽样后才能算出,因而也需要利用先验信息,比如用过去同类总体同种抽样方法的设计效果。例如,若一个整群抽样的设计效果为2,则整群抽样所需的容量是简单随机抽样所需容量的2倍。对于分层随机抽样和等距抽样,用简单随机抽样方案算出的样本容量一般地已足以保证所需的精确度。

三、应用先验信息进行抽样的一个例子

一次大型考试后,不论是要评价试题质量,还是要了解考试情况,都可通过抽样收集考生分数,计算出整份试题和各题的质量指标(诸如信度、难度和区分度),及其它有关信息,如考生分数分布表及直方图,指定频率(百分数)对应的分数段,等等。整个数据分析过程已有一些现成的程序,只要将数据输入,就可以很快得到所要的数据、图表。问题是这样得到的指标多大程度上反映了整个考试的真实指标?换句话说,由样本得到的指标与真实的指标有多大误差?如何预先控制误差?这就需要用到抽样理论,从抽样方案的设计开始考虑。一般地,没有必要同时用所考虑的全部指标来选择抽样方案,只需针对一、二个基本的指标如平均分、及格率进行考虑。下面是一个有关高中会考成绩的抽样,其中利用了若干先验信息。

某省的高中会考数学科总分100分,1994 年评卷登分后进行了抽样。对抽样的试卷要记录各题分和总分,考虑抽样方案时的指标是及格率和平均分。根据前文的讨论,首先分成重点中学(包括县级重点中学)和普通中学两层进行抽样将会提高精确度。从有关统计资料可知该届考生重点中学占了17.6%。即层权为W[,1]=0.176,W[,2]=0.824。此处考虑按比例分配的分层。为了抽样易于实施,分层后采用整群抽样,每本试卷作为一个群,有25份试卷,记M=25。(为便于计算,不取那些不足25份试卷的入样)。由于会考及格率较高,一般不低于90%,可以想到就及格率而言,分层后整群抽样与随机抽样相比差别不会大,但平均分的差别会大些。这样,以及格率P 为指标确定需要的样本容量较方便。我们要求有90%的把握保证由样本估计的及格率p与真实的及格率P之差不超过2%,即Pr(│p-P│≤0.02)=0.90。由前面的公式计算得

这样,我们只需抽取一个容量为500的样本,合20本试卷。 近似于按比例分配,第一层取k[,1]=4本共100份,第二层取k[,2]=16本共400 份。抽样后得到如下数据:

先分析及格率。p[,1]=1.00,p[,2]=0.9275, 及格率的估计为p=W[,1]p[,1]+W[,2]p[,2]=0.940。

这说明就均值而言,分层后采用整本抽样的精确度大约为分层后以单份试卷来抽样的精确度的四成。从设计效果说,分层后整群抽取500 份相当于分层后随机抽取200份试卷。但整群抽样500份(即20本)远比单卷抽样200份容易实施。前后两个的比率为2.6, 它可作为下回同类对象抽样的先验信息。顺便提一下,若是高考试卷抽样,及格率就没什么意义,而平均分与各项试题质量指标密切相关,所以评价高考试题质量时控制平均分的精确度较好。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

先验信息在教育现象抽样调查中的应用_简单随机抽样论文
下载Doc文档

猜你喜欢