关于结构效度,本文主要内容关键词为:结构论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0. 引言
陈宏(1997a;1997b)对语言测验里的结构效度问题做了深入的讨论。本文拟就这个问题再说几句。我们准备讨论以下三个问题:1.结构效度概念的形成及其背景;2.有关结构效度的讨论;3.目前对结构效度的认识和我们的看法。
1. 结构效度概念和它出现的背景
1.1 结构效度概念
结构效度概念是Cronbach和Meehl在1955年的一篇文章中首次提出的,这个概念一提出,就成了美国心理测量协会的一个行业标准,同时,结构效度也成了心理测验和语言测验追求的一个质量标准。结构效度的一个标准表述见于《心理学大词典》(朱智贤主编1989):“结构效度亦称构想效度,或概念效度,即测验在多大程度上正确地验证了编制测验的理论构想。一套测验的编制,往往要对所测量的心理特性提出一种理论上的设想,依此编制测验,然后检验测验结果在多大程度上符合构想的理论。”结构效度概念提出四十年来,对它的讨论、批评乃至误解层出不穷。
1.2 哲学背景
结构效度理论是在逻辑实证主义影响下产生的。Messick(1989)说,“结构效度概念在50年代初被系统化,当时,在心理学,特别是在方法论方面,逻辑实证主义是一种起主导作用的势力。因此,它提供了一个现成的框架,效度概念在这个框架中形成并得以合法化,就是必然趋势了。”对结构效度理论产生了直接影响的是亨普尔(Hempel,C.G.)。亨普尔提出了两个模型,一个叫“演绎规律说明”模型(deductive-nomological model,简称D-N模型),一个叫“归纳统计说明”模型(inductive-statistical model,简称I-S模型)(罗嘉昌1996)。按照亨普尔的观点,“整个系统(指理论系统——笔者按)浮在观察层面之上,而又靠转译规则与其相连。这可以看作是一些纽带,它们虽然不是网络的一部分,但却使网络上的某些点与观察层面的特定部位相连接。由于可通过这些联系进行转译,则这个网络可起到一种科学理论的作用:从某些观察数据,通过一条转译纽带,我们可以上升到理论网络的某一点,通过另外一条转译纽带,我们可以再回到观察层面。”(亨普尔1952,转引自Messick 1989)亨普尔这段话有助于理解结构效度概念。
1.3 建立结构效度理论
Cronbach和Meehl把亨普尔的理论引进心理测量领域。他们认为,“要建立一个测量结构的测验,就要求有一个严格的(虽然可能是概率上的)推论环节。要证明一测验有效地测到一个结构,就一定得有一个围绕着概念的定律网络。”换句话说,“一结构可被科学地接受的必要条件是,它必须存在于定律网络之中,至少其中的某些定律要包含可观察的东西。”(Cronbach & Meehl1955,转引自Messick1989)于是,Cronbach(1971,转引自Messick1989)说,“结构效度理论,是按科学哲学的正规方式表述的。”
在测验中建立结构效度的大致过程是:(1)提出一个假说性结构,假设用它来解释测验表现;(2)从产生结构的理论中推导出关于测验表现的一个或几个假设;(3)用逻辑的和经验的方法对假设进行检验(Popham1988)。如果测验结果出现了我们假设的行为,那么测验就是有效的,同时,我们的理论假设也得到了证明。
1.4 关于“结构”
在心理学中,像“焦虑”、“能力”等概念都是“结构”;在语言测验领域,“语言能力”、“交际能力”、“熟巧程度”也都是“结构”。这些概念“描述的不是一个行动,而是思想、行动特有的组织和效率。”(Cronbach1990)
为什么要使用“结构”这个词呢?Cronbach(1971)解释说,“我们可以使用概念这个术语而不使用结构,但后一术语在于强调那些范畴是一些精心创造的产物,可以用来把经验纳入具有定律性质的普遍陈述。”(转引自Bachman1990)这就涉及到“结构”(construct)这个词的本义。construct来源于construe,前者的一个意思是“思维的产物”,而后者的意思是“解释”。因此,“一个结构就是以一种方式对观察到的东西进行解释——即把观察到的东西组织起来。”(Cronbach1990)
1.5 结构效度的特殊性
在测验理论中,有好几个效度,如内容效度、预测效度、效标关联效度等,这些效度指的都是测验的性质。结构效度和它们不一样,它不仅指测验的效度,亦即平常所说的“是否测到了要测的东西”,而且它也指理论假设是否得到了经验数据的证明。因此,结构效度既和观察层面有关,也和理论层面有关。这样我们就可以大致理解Cronbach把亨普尔的理论引进测验的理由,也可以理解他何以要使用“结构”而不使用“概念”。
2. 批评和讨论
结构效度理论提出以后,结构效度问题就成了心理测量和语言测量里的最重要的问题,凡是涉及人的心理特质和深层能力的测验,无不追求结构效度。但同时,对结构效度理论的批评也不断出现。在这些批评意见中,人们并不是要否认结构效度对测验的重要,而是说结构效度理论(尤其是早期的)有这样或那样的问题。
2.1 关于定律网络
当Cronbach和Meehl引进亨普尔的理论,把结构效度理论作为一个定律网络提出来后,人们就对这个东西提出批评,原因是人们不理解这个东西,用Cronbach(1989)的话说,“很多人被这个哲学原理搞懵了。”我们刚才说过,Cronbach和Meehl是想按实证主义思想使心理测量学获得一定的理论高度,因此,Meehl和Golden(1982)对这个思想又做了进一步的解释:“理论概念是在一个定律或统计‘规律’的网络中获得定义的,对其进行定义的正是这些概念在网络中的作用,而这种定义是概念化的或含蓄的。概念的意义部分地来自理论框架自身,而不论这框架可能是多么地脆弱和单薄。说到一个实体,你是根据有关它的理论陈述在何种程度上与观察陈述相连而得知其意义的。这些陈述是说它在哪儿出现、它有何影响、它会如何以及它由什么组成。这些特性只有极少数是可以直接观察的。”(转引自Cronbach1989)Cronbach(1989)说,这个理论的“理想是把科学知识‘重建’为一个演绎系统。一个概念可视为有定律性质,仅当其被放入‘一个已建好的科学演绎系统’,同时,仅当其陈述了何处出现某条件,就会发生某事时,它也就具有定律性质。即使在50年代,哲学家也是很谨慎地说,这类系统只能近似地得到,只能在成熟的科学中得到,而在心理学中,这种强式理论最多是遥远未来的希望。”因此,“把结构效度与演绎连在一起,是一个策略上的错误”,并且,“给不成熟的科学穿上实证主义外衣是矫饰的,而说结构若不是定律网络的一部分就不可科学地接受,则是自拆台脚。”(Cronbach1989)
“放弃假设一演绎模型的策略对于一门抱负不凡的科学来说是危险的”(鲁宾逊、丹尼尔·N.1979),所以,尽管Cronbach承认把结构效度纳入科学演绎系统是有问题的,但这个做法仍然是有意义的,并且它是产生了巨大影响的,因为从过去到现在,人们仍不想完全放弃这个理想。比如,Compbell(1960)对这个理论就表现出既赞同又犹豫的态度,他担心,结构效度理论给自己开价太高而失去市场,因为心理学家的观念不像物理学那样具有演绎的力量。所以他建议,心理学家应该把理想的定律系统放在一边,而去致力于建立他提出的“特质效度”(转引自Cronbach1989)。但是他的建议并没有引起人们的重视(Cronbach1989)。
2.2 操作主义
对结构效度理论的另一个批评,是说它采用了操作主义。哲学家一般认为,操作主义作为一种哲学几乎毫不足取,心理学家信奉操作主义使哲学家感到大惑不解。
在哲学上,极端的操作主义会导致唯心主义,因为操作主义认为操作是第一性的(高清海主编1988)。“在心理学中采用操作主义,固然有其客观性优点,但其局限也很明显”,因为“使用不同的测验,就有不同的智力定义。”(朱智贤主编1989)
现在,至少在一部分科学家那里,操作主义已经从一种哲学的地位降到一种方法的地位。科学家们的态度是,“在任何科学研究中所遵循的方法都是如此重要,因而没有什么有名望的科学家会承认另一位科学家的研究成果,除非他确切知道在得到这些成果中所采取的程序如何”,“任何科学发现或概念的有效性取决于达到该发现或概念所采取的程序的有效性。”(查普林、克拉威克1979)这也就是说,“他人的证据在科学研究中起着根本性的作用。”(特拉斯特德,J.1979)研究程序应该是可以由别人重复的,科学结论应该是可以由别人验证的,否则,我们无法知道一个理论是否可靠。唐钺(1994)把这看成一种科学方法,称为“操作主义的第二个意义”。普特南(1981)把这叫做“淡化了的操作主义”,尽管他对此不以为然,但他也承认“至少专家们似乎是意见一致的”。
2.3 导致主观臆断
在心理测量领域内部,批评主要是说结构效度概念容易使人误解,容易产生混乱,容易导致主观臆断。Anastasi(1961)说,结构效度“强调这样一种理想,就是,使测验的概念(Construction)建立在一种明晰的理论基础上”,于是,“在结构效度的应用中就可能有一种危险,它打开了通向主观臆断的大门,未经证明就断言测验有效。由于结构效度是一个定义宽泛且不严谨的概念,广泛的误解便产生了。一些教科书作者和测验编制者把它理解为内容效度,以为不过是用称呼心理特质的术语表述罢了。因此,他们所说的结构效度,仅仅是关于他们认为(或希望)测到的东西的主观意见而已。同样不幸的是,结构效度的主要倡导者断言,‘只要一个测验被解释为对某种属性或性质的测量,而这种属性或性质又没有经过操作性定义,结构效度的问题就接踵而至。’”这话听起来有些激烈,但在同一本书的第五版(Anastasi1982)中,这段话改为:“一个可能产生混乱的原因是Cronbach和Meehl说的一句话,他们说,‘只要一个测验被解释为对某种属性或性质的测量,而这种属性或性质又没有经过操作性定义,结构效度的问题就接踵而至。’这篇文章是第一次详细讨论结构效度概念的文献,可是这句话常常被误解为,即使缺乏应有的证据,也可以宣称具有结构效度。然而作者所坚持的观点表明,他们并非要使人作此误解,因为在同一篇文章中他们又说,‘除非整个网络能和实际观察联系起来……否则就不能宣称具有结构效度。’与此相关,他们批评了那种‘以脆弱的文饰作为结构效度证据’的做法。”
对比这两段话,我们可以看出,Anastasi对结构效度的理解是有变化的,她二十年后的理解更接近正确。当然,她对主观臆断现象的批评也是正确的。
主观臆断的一种方式是,“当没有什么标准或内容范围可作为对所测性质的完全充分的定义而接受时,而测验的使用者又想从测验分数乃至被试表现中得出一个推论,那么被试的表现就可以贴上一特定的心理结构的标签,以示归类,在这种情况下,就要建立结构效率。”(Crocker,L.& Algina,J.1986)这段话可以理解为,如果测验没有什么实在的内容可以依据(谈不上内容效度)的话,总得找点东西来代替内容效度,这就是结构效度。这种观点的另一种表现是说,在能力倾向测验中“内容效度就转化为结构效度,因为测验内容是理论结构的一个样本……内容效度和结构效度很难截然分开。”(Davies,A.1990)这类误解的结果是,我说它测量什么就测了什么。对待这种误解,Anastasi(1961,1982)一直坚持的是,一定要有经验性证据支持你的解释。
造成这种误解的更深层的原因是,人们不理解“结构”的意思。在Cronbach那里,结构不等于心理特质。心理特质是客观实在,不是人创造的。结构与概念、观念、理论是近义词,是人创造的。正如波普尔(1956)所说,“理论是我们自己的发明物,是我们自己的观念……是我们自己创造的思想工具。”如果不用波普尔(1977)的“世界3”来解释的话,它本来是没有客观性的,而辩证唯物主义认为概念或理论无非是人对客观世界的反映。按照实证主义者和Cronbach的想法,人根据一定的经验证据,提出一个结构(即理论),然后到观察层面获得更多的经验证据以支持这个结构,而这个结构则可以对客观世界作出合逻辑的推断和正确的预言,于是客观世界被纳入这个结构,整个科学得以合理地重建。但如果把结构等同于心理特质,那无疑是把主观想象与客观实在等同起来。但不幸的是,在关于语言测验的论著中,我们就可以找到这种误解,Hughes(1989)说,“‘结构’一词指的是一种语言能力理论所假设的任何潜在的能力(或特质)。”
我们介绍过,结构效度也可以译作“构念效度”或“构想效度”,有的书也译成“理论效度”。如果我们知道这个概念的意思,并且知道英文的construct的意思的话,我们是可以正确理解这些中文译法的。但如果不知道这些,我们对这些译名的理解和使用就可能出问题。《现代汉语词典》和《辞海》都没有“构念”这个词。“构想”在现代汉语里的一个意思是“想法”。至于“理论”,我们往往把它当做“实践”或“实际”的反义词使用。同理,如果在讨论结构效度或理论效度时,我们说,这测验在理论上是有效的,那就只能是郭树军(1995)所说的“不知所云”。
2.4 结构效度既针对测验又针对理论
在文献里,通常见到的是只针对测验谈结构有效,很少见到涉及理论的,在语言测验领域更是如此。这恐怕是因为结构效度往往与内容效度、预测效度等并称,于是人们就以为和内容效度等一样,结构效度也仅仅是测验的性质而已。结构效度不同于其他效度的地方在于,它不仅涉及测验,同时也涉及用于指导测验的理论,测验的有效和理论的有效是相辅相成的。Cronbach(1990)说:“许多证据凑在一起才能对某一个解释提供支持。正面的结果证明测量有效,同时也证明结构有效。一旦理论没有得到证实,这就需要寻找一个新的测量程序,或者,寻找一个与数据拟合更好的概念。”Messick(1989)也说,“推论就是假设,而证明推论是有效的,就是对假设进行检验。这种检验并不仅仅是针对某个假设,而是针对整个理论的,因为单个的假设是从某种分数解释理论中派生出来的,假设的根源是那套理论。”
举一个例子。我们假设有一种微生物叫“病毒”,这是一个结构,亦即一个理论,这个理论要先对所谓的病毒作理论陈述,我得先说它有什么特点。病毒是肉眼看不到的。于是我们发明一种工具——显微镜,这相当于测验,用它来获得观察层面的陈述。如果我们真的发现了病毒,并且它和我们的理论陈述一致,那是皆大欢喜:工具有效,同时理论也有效。如果没看到我们预言的东西,下面三种情况必居其一:工具无效,理论无效,二者都无效。接下去我们该做的事情是:修改工具,或修改理论,或二者都修改。
如果这里有2.3所说的“主观臆断”,事情就简单了。如果我把结构效度等同于内容效度,那就是说我没有理论。如果我把心理特质和结构等同起来,或者我没有理论,或者世界上没有病毒。如果我只是理论上看到病毒了,或者我可能什么都没看见,或者我可以把随便看到的任何东西都叫病毒。
3. 现在的认识
3.1 多方面的证据
Nitko(1983)提出,建立结构效度需要三个方面的证据:逻辑分析、相关分析和实验研究。陈宏(1997b)已经介绍了具体内容,本文不再赘述。
Messick(1996)认为结构效度是一个一元化的概念,需要从六个方面进行研究。这六个方面是:1)内容方面,包括内容的相关性、代表性及其有关技术指标;2)本质方面,是指在被观察到的表现和题目之间建立联系的理论,这包括处理作业行为的模型,以及支持理论过程的经验性证据;3)结构(注意,这个“结构”的原文是structure,下一个“结构”的原文是construct——笔者按)方面,要看分数量表与结构域拟合的精确程度;4)概括性方面,检验分数的特性和解释的涵盖范围;5)外部方面,指从多特质比较得来的聚敛和判别证据以及标准关联程度和实用性方面的证据;6)效果方面,要看分数解释所蕴涵的价值判断等。
3.2 漫长的路程
Cronbach(1990)把结构效度的检验分为强式和弱式,强式是把结构效度的证明看成是对一特定理论假说的现实的检验,而这是一个漫长的过程。在这个过程中,不断会有与其竞争的假说出现。由于多数人已经不用“上帝的眼光”(普特南1981)看世界,结构效度的证明就只会是许多理论在竞争中发展,而竞争的终结是看不到的。“关于测验的任何一种信息,几乎都有助于理解结构效度”,这形成了结构效度检验的弱式。按照这个说法,Messick的观点,该算作是弱式。
3.3 困难
3.3.1 强科学和弱科学的悖论
Meehl(1991)提出一个悖论。他说“导致精确预言的强式理论,面临着被实证的显著性检验证伪的危险,这种与‘统计上显著’相当的方式,一般用于化学、物理学、天文学和遗传学。弱式理论只预言方向上的差异或两事物间的联系,并不在一个狭窄的范围内说明它的大小,所以,心理学家和社会学家使用显著性检验,其方式与它在硬科学那里相反。这就导致一个悖论,在软的心理学中,用改进逻辑框架、提高测量信度或增大样本来强化统计的作用,这样,才有实证作用,而在物理学中情形却恰恰相反。”
3.3.2 语言测验
语言测验里,测验方面的方法和理论几乎都是从心理测验中移植过来的。语言测验实际上是心理学、心理测量学及某种语言学理论的综合。但是,搞语言测验的人对结构效度的理解并不十分到家。Davies(1983)根据Anastasi的批评得出一个结论,认为结构效度是“安乐椅上的玄想”。另外,语言测验理论和心理测验理论的追求有时并不一样,至少最近是这样。90年代以来,语言测验加快了向交际性方面发展(Alderson,J.C.& North,B.主编1991)。在实践中,往往说一套做一套,说起来我们都对效度高度重视,但真正的效度研究却少得可怜(Stevenson,D.K.1985)。