从辛普森悖论看群体生物学中的统计解释与因果关系解释之争_因果系统论文

从Simpson悖论看群体生物学中统计解释和因果解释之争,本文主要内容关键词为:悖论论文,之争论文,因果论文,群体论文,学中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:N031 文献标识码:A 文章编号:1000-8934(2012)06-0031-05

在理论的群体(population)生物学中,种群结构如何变化以及为什么变化是核心问题。种群结构变化的量和方向由性状适合度(trait fitness)的分布来解释和预见。性状适合度分布通常被用来表征自然选择的效用或量。而对“性状适合度分布(或自然选择)究竟是因果性的还是统计性的?”这一问题的回答则是有争议的,并分野出两大阵营。一是以索伯为首的因果解释学派;另一则是以沃尔什为首的统计学解释学派。这一问题显得如此重要和基本,某些重大的生物哲学问题的争议似乎都与这一问题有关。例如:关于“自然选择究竟解释什么?”这一问题的争议以及多元论者[1]和基因选择论者[2]关于“自然选择究竟作用于哪个层次?”这一问题的争议。在某种意义上,关于这些问题的争议都可以还原为群体生物学中的统计学解释和因果解释之争。[3]

一般来说,有三种模型都采用性状适合度作为解释种群结构变化的解释项,它们分别是双因子模型,单因子模型和Gillespie模型。相对于一个种群而言,一个性状的适合度是指拥有那个性状的个体的平均适合度。类比于热力学,温度的变化是由于分子运动平均动能的变化,人们会自然地认为,性状适合度的因果属性来源于每个个体适合度的累积效应,而性状适合度的分布则反映了一个种群结构变化的因果倾向性,即在自然选择过程中的变化趋势。进而得出,自然选择是种群层次的因果过程,这一过程是由性状适合度分布引起,并以适合度分布来测度。基于这一立场的因果解释模型就有双因子模型和单因子模型。下面首先简要分析这两种模型。

1 因果模型及其困难

双因子模型将选择和漂移看作是种群变化的原因,并以如下方程表征这种因果关系:

Z=aX+bY+U. (1)

其中,种群变化的量(Z)以基因频率来刻画,与之相关的是选择(X)和飘移(Y)的量,而选择的量则由性状或基因适合度分布来测度,它是平均繁殖量,繁殖量的方差以及种群规模的函数。飘移的量则是种群规模的函数。aX和bY分别表征着X和Z,Y和Z之间的函数关系。假定X和Y的值,将得到Z的期望值,U是一个误差词项。索伯等认为方程(1)表征一个因果结构。他甚至将进化论定位于“力的理论”,他说:

“所有进化的原因也许能够根据它们‘各自的效应’(biasing effects)来刻画。选择也许能够改变基因频率,而且突变(mutation)和迁移都可能改变基因频率。正如每一种进化力能够根据它对基因频率的影响来得到描述一样,于是有某个进化的原因出现而并不改变基因频率……所有这些将进化论定位于熟悉的领域:它是力的理论。”[4]

在索伯一派看来,进化论的经典观点有四个重要的牛顿力学的特征,(Christopher Stephen归纳如下:

〔1〕力作为原因。像选择,突变和迁移以及基因的随机漂移都可以看作是导致基因频率变化的“力”。

〔2〕惯性律。他们认为进化论也有惯性律,它告诉我们即如果没有“力”作用于系统,系统会怎么样。

〔3〕单力模型。进化论能够提供模型来表征每一种力是如何单独作用的。

〔4〕力的分解。不同的可能进化力能够相互作用并以牛顿的样式形成合力。而净力能够被分解。[5]

这些模型和牛顿力学之间的类比表面看来似乎是颇有说服力的,但是牛顿的分解力模型之所以是一个因果的结构必须满足两个条件:

〔1〕’(通过操作机制A)X的改变要能引起Z的改变(通过操作机制A),(通过操作机制B)Y的改变也能引起Z的改变。

〔2〕’原则上,操作机制A和操作机制B没有相互作用或影响。[6]

根据适合度的定义,适合度分布是平均繁殖量,繁殖量的方差以及种群规模的函数。这里的X是适合度分布(一般假定它为自然选择因子),Y是漂移的量。因此,通过机制B(即改变种群规模)操作Y(即影响漂移的量),却同时一定对X有影响(因为X也受种群规模的影响)。可见,方程(1)不满足条件[2]’,它并不能表征一个因果结构。

至于单因子模型则将适合度分布看作是种群的概率倾向性。这一模型由如下方程来表征:

Yi=aXi+Ui (2)

该方程表征着基因适合度分布Xi和Yi(基因频率)之间的概率因果关系,飘移因子在这里只是相当于一个误差项,无独立的因果地位。所以,该模型称为“单因子”模型。这一模型的好处是,避免了双力模型中所隐含的机制A和B之间的相互影响所带来的因果解释上的困难,单因子模型的实质就是想声称适合度分布是种群变化的概率因果力[7]156。单因子模型所基于的类比是所谓线性回归类比。但是,回归关系并非一定是因果关系,它是统计相关而并非总是因果相关的,例如,日照时间的多少与植物生长的高度之问的回归关系是因果的。但是,冰激凌的销售量和溺水而死的人数之间的回归关系,就只是统计相关而不是因果相关的。[8]所以,将单因子模型看成是因果模型的理由是不充分的。更为严重的是,在某些情况下,如果将统计相关看成是因果相关将会导致Simpson悖论。

因此,下面的问题有两个:第一,在什么样的条件下,我们才可以将概率(或统计)相关看成是因果相关而不会出现Simpson悖论。第二,既然解释种群结构变化的标准模型只有三种,而双因子和单因子模型作为因果解释的模型都是不成功的,那么是否能对Gillespie模型做出因果解释呢?

下面我们将在论文的第三部分回答第一个问题,在第四部分回答第二个问题。

2 Simpson悖论和确定性原则

Simpson悖论由统计学家Simpson1951年提出,它指的是这样一种现象,在一个种群G中,某个事件或行为D,使得事件E出现的概率升高,但是在G中的每个互斥且穷举的子种群中(例如,S和S,S US=G)D却使得事件E出现的概率降低。这种概率反转的现象,被称为Simpson悖论。我们以如下事例来描述这种概率反转的现象:

以上表格反映的是这样一个统计情况,它被用来分析某种药物的疗效,抽样的总人数是80人(G),其中男性(S)40人,女性(S)也是40人。E表示康复人数,E表示未康复人数。单从男性或女性的种群看,用过药的人的康复率都要低于没有用药的人的康复率。而总体来看,用过药的人的康复率50%要高于没有用药的人的康复率40%。可以以如下三个公式来描述这一概率的反转现象:

导致这一概率反转的原因似乎在于男性的康复率(不管是否用药)都要高于用药或没有用药的女性。如果仅从统计学的角度看,这没有什么不正常,也无明显的悖论可言。但是,如果将概率相关看成是因果相关的话,那么基于(3)和(4)可以表明不用药是病人康复的原因,而对(5)的因果解释则表明用药是病人康复的原因。可见,Simpson悖论的实质似乎是因果解释的悖论。不仅如此,在概率反转的情况下,将统计相关解释为因果相关也会带来直觉悖论。例如:如果有病人向医院咨询,我应该用药还是不应该用药?根据(5),你会回答要。但是根据(3)和(4)你会回答不要。产生这一悖论的直觉到底是什么呢?Simpson悖论独特之处就在于,(3)和(4)中的参照类S和S是D的互斥且穷举的子类,我们的因果直觉是:某个药物对被治疗的男性和女性都有效的话,那么应对所有人有效。而当我们对(3)(4)(5)都做因果解释后,明显地与我们的因果直觉违背。另外,要说明的是(3)(4)(5)之间并无逻辑的不一致,因为要有逻辑的不一致的话,(3)和(4)在一起要能够推出与(5)完全矛盾的命题,即P(E/D)<P(E/D)。因此,我们的因果直觉还需要进一步的限制。

Judea Pearl提出将概率相关解释成因果相关的限制性条件“确定性原则”(Sure-Thing Principie)(以下简称STP)[9]为方便说明它的证明,笔者对STP做如下表述:

STP表达的是如果在每一个子种群中,一个行为D增加一个事件E发生的概率,那么该行为必定将增加整个种群中该事件发生的概率的充分条件如下:

(a)不变性条件:(实施或不实施)某个行为都不能改变子种群的(概率)分布。

(b)该行为在每个子种群中都增加一个事件的概率。

只有在满足(a)和(b)的条件下,我们才可以充分地将以上概率相关解释成因果相关(即D是产生E的原因)。相反,在上例中,P(S/D)=3/4≠P(S/D)=1/4≠P(S)=1/2,即在用药的人群中,男性用药的比例不同于不用药的比例,这违反了条件(1)。因此,以上(3)(4)(5)并非存在严格的因果解释上的不一致,而只能说明仅仅基于(3)和(4)的因果直觉是不充分的。假如,对上例的统计结果根据不变性条件作进行如下调整:

这时没有出现simpson概率反转,而根据STP,我们可以充分地给出因果解释——用药是康复的原因。但是,如果在某个实际情况中,某些概率统计关系满足条件(a)(b),但仍然出现概率反转的现象,又会怎样呢?在这种情形下,如果仍然对实际的概率统计相关做因果相关的理解将导致因果承诺的不一致。一方面,在满足(a)(b)的情形下,根据STP,它承诺某个行为是某个事件的原因,或者说二者之间存在着概率因果关系。另一方面,根据概率反转的事实,我们将构成概率反转中的概率相关也解释成因果相关的话,则与STP的因果承诺相矛盾。所以,在这一情形下,我们不能融贯地将构成概率反转的所有概率相关解释成是(概率)因果相关的。可见,STP同时给出的还是因果解释何以可能融贯的限制性条件。下面我们将根据STP来判定Gillespie模型是否是因果解释上融贯的呢?

3

Gillespie模型是一个统计学解释模型

Gillespie模型同样是用性状适合度分布来解释和预见种群结构中变化。Gillespie将种群中某个性状适合度看作是该种群的繁殖产量的平均值以及繁殖量方差和种群规模的函数,这一点与双因子和单因子模型中对适合度的定义并无区别,只是Gillespie模型并没有承诺适合度是一个因果因子。在种群规模为常数的情况下,适合度可由如下方程来预计:

那么,因果解释是否还有被保留的机会呢?目前来看,似乎有两种策略来拯救因果解释:第一,就是可以指出Gillespie模型不满足STP的不变性条件。这样做出的因果解释即使是不充分的,但不会出现因果解释逻辑上的不一致。然而,在以上模型中,不变性条件是明明白白地被满足的。第二个策略是将自然选择的过程分成两个层次,一是子种群层次,另一是整个种群层次,二者是相互独立的因果过程。因此,这时不必担心违反STP。但是,这是明显反直觉的。因为,如果两个过程都是因果过程而又相互独立的话,这意味着,对子种群的任何干涉将不会影响到整个种群。

最后一种妥协式的策略似乎是自然选择在子种群层次是因果过程而在整个种群中是统计学过程。或者反之,自然选择在子种群层次是一个统计学过程而在整个种群中是一个因果过程。无论如何,尽管这两个选择都不违反STP,但都是对统计学解释的让步。另外,要说清楚这两个过程的关系,也是一个不小的负担。

综上所述,在群体层次上,自然选择的因果解释模型所遇到的困难是难以克服的。特别地,从simpson悖论来看,这种解释因违反STP还会出现严重的不一致。这种不一致似乎预示了自然选择的因果解释纲领是一个逐步在退化的研究纲领。反之,统计学解释则能够避免Simpson因果解释的悖论,从而在目前这场争论中取得了领先的优势。

收稿日期:2012-02-13

标签:;  ;  ;  ;  ;  

从辛普森悖论看群体生物学中的统计解释与因果关系解释之争_因果系统论文
下载Doc文档

猜你喜欢