统计推理谬误的类型及成因分析_概率计算论文

统计推理谬误的类型及成因分析_概率计算论文

统计推理谬误的类型与成因分析,本文主要内容关键词为:谬误论文,成因论文,类型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【中图分类号】B814 【文献标识码】 A

【文章编号】××××-××××(1999)02—0154—06

统计推理是一种归纳推理,它具有从特殊上升为普遍的基本特征。从形式结构看,统计推理的前提是一定数量的统计数据,统计推理的过程就是通过对统计数据的处理以获得相应的结论。然而,正确地进行统计推理并由此提高其结论的可靠性,并非易事。沿着统计推理的轨迹,谬误随处可见,它们深刻地影响着人们的判断能力,妨碍了人们作出合理的抉择。因此,分析统计推理谬误的类型与成因是一项很有意义的工作,它能帮助人们有效地走出思维的误区,使认识逐渐向真理的彼岸靠拢。

一、统计推理谬误的类型

统计推理谬误数量广泛,形态各异,但大致可划分为两类,即收集统计数据的谬误和分析统计数据的谬误。如此划分与统计推理的结构相对应。收集统计数据的谬误实际上是前提不真实的谬误,分析统计数据的谬误本质上则指推理不合理的谬误。

(一)收集统计数据的谬误

统计推理建立在一定数量的统计数据的基础之上,一定数量的统计数据是统计推理的前提。因此,统计推理的第一步工作是广泛、全面、客观地收集统计数据。这种收集既不是简单堆积,也不是完全归纳,而是以一定标准所作的选择,是一种分层抽样。

分层抽样是指:我们所研究的由全部分子组成的一类事物为总体,在某一特定标准下把总体划分成若干小类为“分层”,同时,从分层中抽出的一定数量的更小类为“抽样”,抽出的更小类就是“子样”。分层抽样的应用性很强,当人们不可能或不必要一一穷尽地列举自己所研究的一类对象的全部分子时,通常就采用分层抽样,在获得必要的数据后,对这类事物的总体作出断定。

统计规律表明,子样的计算比率与总体的实际比率有一定的相似概率,但这种概率受到了分层标准和子样质量的制约。分层标准和子样质量直接关系到统计推理前提的真实性并深刻地影响着统计推理结论的可靠性。

收集统计数据的谬误主要表现为“偏颇标准”和“错误子样”。

1.偏颇标准

偏颇标准是指分层抽样的根据不合理,不足以说明问题。如:有一份统计资料认为,坐车非常安全,甚至比待在家里更安全。理由是,在每年每100个人中,有12个人因家中事故而受伤,而只有2.2人因坐车事故而受伤。这份统计资料的数据并不可信。因为,它只以每年每100 人为根据来收集,其中,忽视了一个重要事实,即人们待在家里的时间远远多于坐车的时间。事故发生率不仅要有每人次的标准,还应加上每小时的标准,只有这样才能得到较真实的统计数据。

2.错误子样

错误子样是指收集到的统计数据质量不合格,它具体表现为子样不足、子样单一和子样定向。

子样不足即子样的容量太小,不能有效地消除误差。假若我们所考察的某一事物的总体有众多分子,而我们所取的子样在总体中所占的比率却少之又少,那么,由此推出的结论难免与总体的属性不符,造成轻率概括。例如,某商检部门曾对×型号的彩电作过一次质量跟踪,给购买该彩电的顾客发放了调查表,而反馈的表格仅有两张,均抱怨该彩电图像不稳,音色不清。于是, 商检部门便认定该彩电的不合格率为100%。×型号的彩电质量是否过硬,我们且不作评价,但仅凭两张表格就对×型号彩电的全体质量作了100%不合格的断定, 其谬误是显而易见。

子样单一即组成子样的分子并不是取之于总体的各个不同方面,而是取之于某一个层次,带有片面性。作为我们认识对象的任一具体事物,其总体的属性必然是多方面的,子样只能从这多方面中抽取,才具有普遍的意义。否则,便不能反映总体概貌,结论就会“以偏概全”。例如,某生产队为了解麦种的出芽情况,抽取2000余颗种子搞了一次试验。试验结果:1900余颗出芽,出芽率为95%。据此,他们推算了最佳播种量。可是,种子撒进地里,出芽率却只接近80%。原来,该生产队在测定种子出芽率时,未对种子的总体按上、中、下等级作出划分,而只是以大的、好的组成子样,因此,出现了误差。干扰了对最佳播种量的确定。

子样定向即子样的每一个分子不来自“随机”抽取,而是人为地确定,有特定的方向。不仅层次单一,且掺杂着浓厚的主观色彩,导致推出的结论不合实际,甚至完全与事实相悖。例如,某企业生产一种触电保安器,计划投放市场,有关部门需对其质量进行测定。厂里为保证测定过关,对送检的样品,材料、工序特地增加了层层严格控制。结果,每只样品均质量上乘,合格率为100%。可实际上,这100%的合格率无真实性可言。因为,大批量的产品在生产时比之样品要马虎得多。

分层抽样固然有选择性,但是,这种选择必须以客观为依据。所以,我们在收集统计数据时应该做到:

首先,选择子样的标准应具有合理性,子样能成为得出总体结论的充足理由。其次,子样数量应具有广泛性,当子样的容量逐渐增加,达到一定程度,就会有一个相对稳定的频率,这个频率才能用来充当我们对总体的估计值。再次,子样的性质应具有全面性和随机性,全面性是子样要来自总体的全方位,能反映总体的各个方面,随机性是子样要来自概率抽取,总体中的每个成员都要有成为子样的同等机会,满足上述条件的子样就是优样。优样为统计推理提供一个比较真实的前提。

(二)分析统计数据的谬误

分析统计数据实质上就是根据具体的统计数据进行推理,这是获得统计结论的必要环节。即使统计数据本身真实可靠,但如果分析过程产生了差错,同样会导致荒谬的结论。下面,是三种最典型的分析统计数据的谬误。

1.数值偏见

数值偏见包括“平均偏见”和“比率偏见”。“平均”和“比率”是统计的基本度量指标。人们对它们的理解非常狭隘,一般都以为它们公正或确切地代表了总体的基本属性。其实,平均和比率并不如人们所想象的那么公正和确切。

在统计推理中,平均有三种含义——算术绝对平均数、中位数和众数。在数值表中,算术绝对平均数是所有数值累加再除以数值个数的数;中位数是按大小顺序排列位于中心位置的数,众数是出现频率最高的数。“平均”的三种含义,反映了三种不同情况。如:某工厂需招聘一名工人,甲前去应征。他被告知厂里平均薪金每周300元, 甲工作几天以后,发现没有一个工人的工资超过每周100元, 平均工资怎么可能是每周300元?厂主的解释是:我每周付出的酬金具体分为,我2400 元,我妻子1000元,六个兄弟姐妹每人250元,五个亲戚每人200人,十个工人每人100元,总共6900元,支付给23个人,正好平均每人300元。若把该厂的工资情况列成按大小顺序排列的数值表,就会发现平均的三种截然不同含义。其算术绝对平均数确实是300元,但其中位数却是200元,而其众数则只有100元。实际上, 算术绝对平均数和中位数都不足以代表工人工资的实际水平,只有众数才具有真正的普遍意义。因此,面对平均概念,必须弄清其确切的含义或所指,要把握“平均”的背景材料,即它的最大数和最小数的差距以及每个数出现的频率,不可简单地把平均一律视为算术绝对平均数,而忽视了中位数和众数。如果有少数几个很大数字的存在,算术绝对平均数会造成一种假象,它不仅不能反映总体的基本属性,反而与总体的基本属性相差甚远。

统计推理还经常运用比率,但比率却往往不能完整地表现总体。如:有两份统计资料都以比率为结论。其一称:某地治安状况恶化,杀人案件较过去增加了50%;其二称:汽车的气囊装置安全无比,只有0.1%可能出现失灵。从表面看,50%有些骇人,0.1%则值得欣慰。 可事实上,比率自身的大小并不说明问题,关键在于比率所凭借的绝对数字和所代表的绝对总量,即比率是在什么样的基础上得出的。若第一份资料凭借的绝对数字是2, 而第二份资料所凭借的绝对数字却是150000000,则它们所代表的绝对总量前者只有3,后者却有150000,可想而知,两者中,后者更应予以关注。由此可见,忽视对比率基础的分析,会造成错觉。

2.虚假相关

虚假相关是指在一些具体场合,若干事例就某些统计数据看似乎密切相关,而实际上,两者之间并不存在真正的因果联系。如果依据这些表面相关就轻率地作出它们具有因果联系的结论,便属于“虚假相关”的谬误。如:一位广告商大力推荐某种化妆品,他说:在500 名买该化妆品的妇女中,只有5名表示不满,所以,99%人喜欢这种化妆品, 它肯定非常优秀。其实,没有表示不满并不意味着喜欢,前提不能充分支持结论。

虚假相关的另一种表现被称为“蒙特卡罗谬误”或“赌徒谬误”。它是根据某事件在过去若干场合未出现,于是推断该事件在将来出现的概率将会提高。例如,很多玩轮盘赌的赌徒都以为,盘子在多次停在红色数字上之后,再一次转动时,停在黑色数字上的概率会增大。而实际上,盘子停在黑色数字上的概率仍是1/2,赌徒之所以出错,原因在于误解了统计推理所依据的概率论中的“大数定律”。大数定律表明,随机事件发生的频率具有相对稳定性,当大量同一试验重复地进行,这种频率会接近于某个常数,此常数称为随机事件发生的概率。只要试验次数足够多,随机事件的频率就与它的概率无限接近,但频率不会改变概率。因为,每个随机事件都是独立的,其概率并不受临近的同类独立事件的影响。为防止这种“虚假相关”的谬误,我们在分析统计数据时,必须善于透过现象抓住本质,努力寻找造成这些统计数据的真正原因。

3.不当传递

不当传递一般发生在利用统计资料作两对比的过程中。人们常常以为统计资料所表明的对比关系都是能够传递的,其实不然。假若有三个对象,而且有三种能够比较的指数,当我们将它们两两对照按各指标排列,就会发现它们之间的对比关系有时根本无法传递。把不能传递的关系当作可传递的关系,此种谬误就属于“不当传递”。例如,赵、钱、孙争夺象棋赛冠军。他们以往的赛绩是:赵在2/3的赛事中胜过钱;钱在2/3的赛事中胜过孙。能否以此认定冠军非赵莫属呢?事实上,这些统计资料所进行的比较,其排列应该分为:赵与钱比较;钱与孙比较;孙与赵比较,若设赛程为九场,则在赵与钱的对弈中,赵胜六场,胜率为2/3。在钱与孙的对弈中,孙胜六场,胜率为2/3。至于孙与赵的对弈,其成绩并未出现在统计资料中。我们不能排除孙有1/3、4/9、 5/9甚至全赢或全输的可能,不能仅凭赵比钱强,钱比孙强, 就认定赵一定比孙强。因为,它们的对比是非传递的。又如,某医院为了解药物治疗和心理治疗的不同作用,进行了一次科学试验。试验分为两组,每一组的试验均表明药物治疗的效果要好于心理治疗,但两组的试验结果一合并,情况起了变化,对统计资料的再一次分析则发现,似乎心理治疗的效果更佳。其具体过程为:第一组试验,18人参加。7 人接受心理治疗,3人病情好转,有效率3/7;11人接受药物治疗,5人病情好转,有效率5/11,药物治疗优于心理治疗。第二组试验,23人参加。14 人接受心理治疗,9人病情好转,有效率9/14;9人接受药物治疗,6人病情好转,有效率6/9,药物治疗优于心理治疗。两组试验合并,共41人参加。21人接受心理治疗,12人病情好转,有效率12/21;20人接受药物治疗,11人病情好转,有效率11/20,心理治疗优于药物治疗。这一情况表明,该次试验的两两对比是反传递的。

因此,要科学地分析某些统计数据并使其结果完全令人信服,需要细致地、全面地、完整地考虑蕴涵于统计数据背后的各种可能。在统计数据的对比中,应有三类关系:第一类是传递的,第二类是非传递的,第三类是反传递的,不能简单地将所有的统计数据间的关系统统视作可传递的。

二、统计推理谬误的成因

统计推理是一种认识活动,在这一认识活动中,人们运用观察、实验、调查等手段获得大量经验性数据,并通过抽象、概括、综合等方法进行分析,从而形成一个具有一定理论意义的结论,再借助于语言将这一结论表达出来。从感性的收集,理性的加工,到语言的陈述,每一个环节都有诸多因素的共同作用。稍有不慎,就可能造成谬误,其原因有的来自认识客体,有的来自于认识主体的认知结构。也有的来自于对认识结果的表达理解。下面就这三方面展开讨论:

(一)造成统计推理谬误的客体因素

统计推理所涉及的首先是一系列的随机事件,这些随机事件构成了统计推理的子样,它们是统计推理所要认识的客体,统计推理正是通过子样获得第一手统计数据。对子样的选择、分析固然具有主观能动性,但子样本身的表现是否真实、是否充分,也直接影响着人们的判断。若子样显露的是假象,则人们的判断就会产生偏差。尤其当子样是不同阶层、不同身份的个人时,情况就变得更加错综复杂。如:美国1988年大选,报纸曾对杰西·杰克逊作过一次民意测验,统计数据表明他最多能获得黑人中约50%的选票,可投票时,则发现有90%的黑人支持他。因为,在民意测验中黑人不愿意把自己真正的想法告诉那些白人调查员。[6]这就是子样隐蔽心理造成统计数据失实的实例。此外, 子样的从众心理和迎合心理等也往往使统计数据不真实,从而使其结论不可靠。所以,即使面对以广泛性、全面性和随机性抽取的优样,还须作进一步考察,以判定这些优样所表现的是不是其真正的属性?

(二)造成统计推理谬误的主体认知因素

统计推理所反映的是事物之间的部分和整体、现象和本质、偶然和必然的关系,以观察、实验和调查等手段获得的大量经验性数据,基本上是对事物的部分、现象和偶然性的反映,通过抽象、概括和综合等方法对这些数据进行加工才能认识事物的整体、本质和必然性。主体因素在统计推理中起决定作用,统计推理的过程,实际上是认识主体通过社会实践,凭借原有的认知结构对客体的信息进行筛选、规定、分析和综合的过程。认知结构是最重要的主体因素,它包括人的实践经验、心理素质、文化修养、思维模式等,其作用具有双重性,既可能帮助主体深入地了解和把握客体,使认识逼近真理,也可能将主体引入歧途,使认识产生谬误。若认知结构中存在着种种幻象和偏见,那么,后一种可能就会变成现实。幻象主要指主体的种种心理障碍,诸如感情用事,习惯使然、盲从权威等等,偏见主要指形而上学的观点和方法,诸如主观性、片面性和表面性等等。这些幻象和偏见妨碍主体正确反映客体。它表现为:或者先入为主地接受了一种意见,就把另外的一切都拉来支持这种意见,甚至改造它们使之符合这种意见;或者从自己以往的经验或癖好的学说出发来进行观察和思考;或者盲目地信奉权威,顺从习惯,以臆造的可能世界和陈旧的理论框架来取代客观存在。[7] 其后果是:在收集统计数据时,人为地设置不合理的选择标准,不惜裁剪事实,强求有利证据,故意忽略不利证据等等,造成统计推理的前提不真实;在分析统计数据时,割裂事物之间的有机联系。只见部分,不见整体,只见现象,不见本质,只见偶然,不见必然等等,造成统计推理的过程不合理。

(三)造成统计推理谬误的表达理解因素

统计推理以事物的统计因果性为客观依据,统计因果性的特点是整体性、概率性和描述性。它以集合的全体来归纳个别,以几率分布和平均值来显示规律,以描述性的语言来表达结果。

语言直接与主体的认识活动相联系,它是主体和客体之间的认识关系得以确立和实现的中介。在收集统计数据时,对子样的选择有一个衡量标准,同时,对统计数据的分析是为了得出结论。若用以表达衡量标准和结论的语言不明确,则一方面子样不能清楚地表现自己的情况,另一方面结论也无法令人信服。如:有某大国称,其国人越来越少处在贫困线以下——每8人中只有一人而不再是5人。90年代以来有1400多万人走出了贫穷的深渊。这样的统计资料,它的语言表述并不明确:首先,“贫困线”是衡量标准,可贫困线这个概念却没有定义,它是否已包含了消费需求的提高和通货膨胀的因素,假若只针对个人的合法收入,则其对子样的收集和分析就毫无意义,因为,收入的高低并不是贫穷与否的唯一标准。其次,“1400多万人”反映了一个绝对总量,但它占有多大的百分比却没有说明。假若其所凭借的绝对数字相当大,则1400多万并不是什么了不起的进步。由此可见,语言表达的模糊性和歧义往往会造成统计推理谬误。但语言的表达只是问题的一个方面,问题的另一个方面是对所表达的语言的理解,如果在理解上缺乏“归纳态度”,过分迷信统计数据,把统计推理结论的“可能真”视为“一定真”,也是造成统计推理谬误的原因之一。

统计推理在性质上属于不完全归纳推理,其结论是或然的。然而,或然性的程度却有高低差别,我们虽无法保证统计推理的结果具备一定真的必然性,但却可以提高它可靠性,这取决于收集和分析统计数据时,要防止主观性、片面性和表面性,力求客观、全面、完整,要善于透过统计数据的表面现象,寻找事物内在的、本质的和必然的联系。

收稿日期:1998—12—15

标签:;  ;  ;  

统计推理谬误的类型及成因分析_概率计算论文
下载Doc文档

猜你喜欢