单一被试实验与元分析技术,本文主要内容关键词为:技术论文,单一被试论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
在特殊儿童心理与教育研究中,由于被试的容量与异质性问题,团体实验设计与数据处理方法难以应用,所以,许多学者提倡采用单一被试实验设计。单一被试实验是以一个或几个被试为研究对象,通过对被试在基线期与处理期的行为变化来分析、推断实验处理是否有效。随着研究的发展与统计技术的进步,单一被试实验在实验设计与数据处理上有了新的进展。在实验设计上,分单基线与多基线实验设计,单基线实验设计有:A-B、A-B-A、B-A-B、B-C-B、A-B-A-B、交替处理设计、变更标准设计等;多基线实验设计有:跨情景、跨行为、跨被试及几种变式的实验设计。在对实验结果的分析中,除了定性描述外,还可运用统计技术对基线期与处理期数据进行统计推断。对应于单基线的实验设计,有T检验、C检验与U检验;对应于多基线变式的实验设计,有W检验与R检验[1]。由此可见,单一被试实验的发展,对其实验结果的解释将更为准确与科学。在特殊儿童心理与教育研究中个案研究是一种常用的手段,但以往的研究大多以定性描述为主,如与单一被试实验相结合,则可实现定性与定量分析的结合,从而提高研究水平。
然而,任何一种实验设计都要接受信度与效度的检验,单一被试实验主要受到实验外部效度的质疑,即需要回答:“如果重复这项研究,会得到同样的结果吗?”、“如果用不同的被试,也会得到相同的结果吗?”,即其核心问题是:单一被试实验的类化作用有多大?从操作层面上说,提高单一被试实验外部效度的主要手段是实验复制,即:直接复制、系统复制与临床复制,其目的就是扩展原实验结果的适用范围[2]。毫无疑问,实验复制在一定程度上提高了单一被试实验的外部效度。但其周期较长,研究对象的范围与实验结果的普适性有限。如果能在某一研究领域,对多项单一被试实验研究结果做出定量综述,从更大范围评价实验处理的有效性以及研究特点与研究结果的关系,就能得到一项或几项研究无法获得的信息量。值得注意的是,上世纪70年代中期发展起来的元分析技术为实现上述目的提供了有效方法。以下先对元分析技术的基本原理及分析步骤做一简单介绍,再从国外一个较新的研究为例,说明单一被试实验如何与元分析技术相结合,并在此基础上对两者结合应用的问题提出几点建议与看法。
2 元分析技术的基本原理及应用
关于元分析的定义有多种说法,Glass认为:“元分析就是利用数据分析的方法对大量个别研究进行定量综述”。他还认为元分析有以下主要特点:(1)元分析是一种定量分析方法,它不是对原始数据的统计,而是对统计结果的再统计。(2)元分析应包含不同质量的研究。(3)元分析寻求综合的结论[3]。
通过元分析可达到两个目的:一是确定各研究的平均效应值有多大,二是探讨研究特征与研究结果之间的关系,确定研究特征是如何影响效应值的。现就从这二个研究目的出发,分别叙述如何判断多项研究结果的总体效应值,以及如何分析研究特征与研究结果之间的关系。
2.1 如何判断多项研究结果的总体效应值
2.1.1 样本效应值
在元分析中,要对许多实验研究的结果进行定量综合,首先要计算出每一研究结果的效应值,以两组实验设计的研究结果为例,其效应值为实验组均数减去对照组均数,然后除以两组的联合标准差,并根据样本的效应值来估计其对应总体的效应值。
2.1.2 效应值的集中趋势
有了各研究的效应值,就可计算其平均效应值。一般地,可简单地求出各效应值的算术平均数。但有时考虑到从各研究中得到的效应值的精度不同,故可用每项研究的样本容量作为权数,求出总效值的加权平均数。
2.1.3 效应值的的离散程度
同一组数据的描述统计一样,元分析不仅要知道各效应量值的趋中趋势,也要知道其离散程度,因此还要计算各效应值的方差估计值。
2.1.4 效应值的一致性检验
各效应值的一致性检验可看成是效应值之间的同质性检验。如果各效应值之间的差异未达到统计学所规定的范围,则说明各效应值是同质的,亦即各研究之间具有相似的研究特征。如果各效应值之间的差异超出统计学所规定的范围,则说明部分效应值是不同质的,即各类研究有不同的研究特征。在元分析中,一般用H统计量来检验各效应值的差异是否显著。
2.2 如何分析研究特征与研究结果之间的关系
如果各效应值差异显著,便可用多种统计手段对研究特征与研究结果之间的关系进行分析,如:聚类分析、方差分析、相关分析及回归分析等,以下以单一被试实验为例分述如下:
2.2.1 对各项研究的效应值进行聚类分析
例如有50项对脑瘫儿童早期训练的单一被试研究,可根据每项研究基线期与处理期的数据计算出50个效应值,如果这50个效应值之间差异显著,便可对其进行聚类分析,假如可聚成3类,则可分析每类研究的共同特征,如将3类不同的研究结果归因于三种不同的训练方式等。
2.2.2 对不同研究特征的效果进行评价
如以三种教学干预模式为标准,将50项研究分成3组。则可以效应值为因变量,以3种干预模式为因素水平进行方差分析,如F检验有显著差异,则进行3组均数的多重比较,以此判定哪种干预模式最为有效。如以A(教学干预模式)及B(干预时间)为因素,假设A有3种水平,B有2个水平,就可进行二因素完全随机方差分析,即分析A、B因素的主效应与AB之间的交互效应。
另外,也可对3种训练方式予以赋值,然后对50个效应值与对应的赋值分求等级相关系数。如相关系数较高,则说明,效应值越大赋值分也越大;或者,效应值越小赋值分也越小,如此便可推知哪一种训练方式效果最好。
2.2.3 根据不同的研究特征预测研究效果
如以50个研究的效应值为因变量,以3类研究特征的赋值分为预测变量,求出3个偏回归系数,建立多元回归方程式,从而可预测其它类似研究的效应值。
3 单一被试实验与元分析技术结合运用的一个实例
1999年,美国加利佛尼亚大学H.Lee Swanson教授等人,发表了一篇题为“对学习困难儿童干预研究的元分析”的研究报告[4]。该文收集了85项单一被试研究,并用元分析技术对其研究结果进行了综合分析,以下对其作一简要介绍。
3.1 研究目的
该研究的主要目的是:1)验证直接指导或策略指导教学模式是否优于其它教学模式;2)验证某些学科领域是否受教学干预的影响更大?如注重语言技能的领域(如:阅读、写作)与其它领域(如:算术、社会技能)相比,两者受教学干预影响的程度是否相同?3)验证不同样本定义的研究是否会产生不同的干预效果。不同的样本定义是指:一些研究将学习困难界定为:标准阅读测验分数等于或低于25百分等级,而标准智力测验成绩等于或高于85,而另一些研究对此则无严格的规定。
3.2 研究方法
3.2.1 资料的收集
资料收集主要有三个途径:有关网站、网站中未包括的期刊与文章、向有关部门索取未发表的文章。计算机检索的主要术语有:学习困难、阅读障碍、教育障碍、学习不良、干预、训练、补救和指导等。所有被纳入的文章必须符合以下5条标准:1)、研究采用单一被试实验设计。2)、研究为效应值的计算提供了有效的信息;3)、研究提供了被试的有关信息,如:干预对象是智力正常的儿童或成人,但在某些学科或其它相关领域存在问题等;4)、研究为被试提供了他们过去在普通课堂上没有接受过的指导、帮助或治疗;5)、研究以英文撰写。
3.2.2 研究特征的编码
对研究特征进行编码是对研究特征与研究结果之间的关系进行统计分析的前提,编码的合理性与客观性可用编码一致性指标来衡量。该研究主要对以下研究特征进行编码:1)、样本特征;2)、研究方法;3)、教学成分;4)、实验处理条件。由4为博士生对每篇文章的有关指标进行编码,各指标内部一致性的计算公式为:一致数量/(一致数量+不一致数量),规定内部一致性不得低于80%。该文将85项研究按研究领域分为12个类别:即认知领域、识词、阅读理解、拼写、数学、写作、一般阅读、语音和拼字技巧、成绩、社会技能、知觉运动和语言。
另外,按教学训练模式将所有研究分为四类:即策略指导模式(SI)、直接教学模式(DI)、综合模式(SI+DI)、非SI和DI模式。同时给出了判别类别的标准,对直接指导模式有11条标准,如:快速呈现材料、有图示或表格说明、将任务分步骤、教师示范、小班化指导等,如符合上述四条标准以上的研究,便归为直接指导模式。对策略指导模式有7条标准,如:详细讲解、教师示范、提示使用策略、分步和综合指导、交流、教师提问、在学生需要时教师才提供帮助,符合上述三条标准以上的研究,可归为策略指导模式。在此基础上,又细分为20个教学成分,如:策略模仿与归因训练、一对一教学、分割任务、引导反应与提问、团体指导等。
3.2.3 有关的统计处理
该综述中效应值的计算:即处理期平均值与基线期平均值差除以处理期数据的标准差。
考虑到与团体实验设计的研究相比较,单一被试实验设计研究的效应值可能较大,故采用Rosenthal公式(1994)计算效应值,即基线期与处理期的平均标准差为,Sg是用原始数据计算出的平均标准差;r是基线期与处理期的相关系数。同时也采用矫正效应值,即矫正效应值=原效应值*,并规定:矫正效应值大于3为不合要求,无需分析。
Gleser和Llkin(1994)曾说过,“一种处理模式中的所有处理可以被看作为该模式的不同步骤和方面,有理由相信,各结果的综合处理效应值可充分概括总的处理效应”。因此,对于有多重干预的研究(有多种实验处理方式或教学成分)可计算出多个效应值,再用综合分数代表这类研究的总效应,即将各效应值平均化。所以,该综述既给出了每一研究中所有变量的效应值,也给出了每项研究的平均效应值。另外,经分析表明:效应值的差异主要来源于各研究特征之间的差异。
该综述对效应值的估计主要采用二种方法:一是计算与研究方法、文章特征、被试特征、处理情景有关变量的主要效应值,并计算与指导方法有关变量的主效应。二是采用回归分析,即用最小加权方差分析(WLS)来估计有关线性模式参数。对效应值大小的判定,采用Cohen的标准,即绝对值为0.2是小效应,0.6为中等效应,0.8以上是大效应。
3.3 主要结论
该综述的主要结论如下:1)除了书写以外,所有训练类别的效应值均等于或大于Cohen的0.8的水平;2)某些教学成分在效应值的评估中占有较大的方差(15%),这些教学成分包括:呈现/重复和练习/复习/掌握规律(即对较长的材料采取分散复习和重复练习,有顺序复习,每天复习与每周复习相结合)、分割任务(即将学习目标技能分为小单元与子部分后,再分别与综合练习)、小组交流(即小组间的师生及生生交流)、策略提示(即教师提示学生使用策略,并口头说明使用策略的优点及步骤)。3)在以被试智力和阅读水平为标准时,策略指导模式比直接指导模式能更好地预测效应值;4)在阅读训练中,高智商矛盾组(智商分高但阅读分)比低智商矛盾组(阅读分高于智商分)的效应值要低,而在其它训练类别中,高智商矛盾组比低智商矛盾组的效应值高;5)与其它教学干预模式相比,综合模式(DI+SI)使低智商矛盾组产生了较高的效应值。
4 对单一被试实验与元分析技术结合应用的看法与建议
4.1 单一被试实验的规范化
从以上的介绍与分析中可以看出,元分析技术确实为单一被试实验结果的定量综合提供了有效的工具。不妨作一比方,各单一被试的实验结果好似基本建筑材料,对各实验结果的综合过程就似一项系统建设工程,完成这一工程的手段就是元分析技术。自然,工程质量的优劣,既取决于初始材料质量,也取决于结构材料的手段。要保证单一被试与元分析技术结合运用的水平,首先必须规范单一被试实验研究,包括:正确选择因变量与处理变量、基线期与处理期的数据量与特性要符合有关的统计要求(如两期数据均非自我相关)、尽量排除无关因素的干扰,提高实验的内部效度等,只有规范的单一被试实验研究才能为随后元分析技术的运用提供合格的材料。
4.2 单一被试实验研究特征的多样化
与上述有关的第二个问题是单一被试实验研究特征的多样化。从前面的介绍与分析中知道,可以从被试特征、实验情景、实验干预模式等方面来定义研究特征,各研究特征的合理分类与准确定义关系到元分析能否正确揭示研究特征与研究结果之间的关系。单一被试实验研究特征的多样化可包括两方面:一是各项研究应该包含多种研究特征;二是各研究特征中又应包括多种成分。假如,在多项单一被试实验中,仅能概括出少量的研究特征,或者其中大部分研究的实验处理模式相同,这都将无法充分发挥元分析技术的功能与优势。
4.3 元分析技术的计算机程序化
从上述介绍与分析中可知,元分析过程的步骤较多,涉及的数据量很大,需要应用多种统计方法,其中的一些统计方法也较为复杂。由于元分析技术的特殊性,目前已有的一些统计软件如SPSS并不适用于元分析。据悉,国外已有元分析统计软件,如由德国学者Shwarzer(1988)编制的软件,该程序包括10个子程序,即数据文件管理、效应值d的组合、效应值d的聚类分析、效应值r的组合、效应值r的聚类分析、概率值P的组合、系数转换、加权平均数、相关值的显著性检验、相关值的茎叶显示[5]。目前,引进与介绍或开发功能更为完善的统计软件对元分析技术的应用及推广十分必要。