基于贝叶斯网络方法的说明者信念度相关性模型——科学说明相关性问题的一个解决方案,本文主要内容关键词为:相关性论文,性问题论文,信念论文,模型论文,解决方案论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕N0 〔文献标识码〕A 〔文章编号〕1000-0763(2010)01-0001-07
由亨佩尔(C.G.Hempel)和奥本海姆(P.Oppenheim)提出的科学说明的覆盖律模型的两个最重要特征是:说明项与被说明项之间必须有逻辑推导关系;说明项必须含有科学定律。从这两个特征引伸出的一系列难题一直是科学哲学领域争论的话题,尤其是说明项与被说明项的相关性问题更可谓是当代“经典”的热点问题。本文的主旨在于评析相关性问题已有解决方案的遗留难题,探索一条新的解决思路,提出基于贝叶斯网络方法的说明者信念度相关性模型。
一、科学说明的相关性问题
亨佩尔和奥本海姆从他们最初提出的科学说明的演绎-定律模型(简称D-N模型),即覆盖率模型中抽象出科学说明的恰当性条件([1],pp.247-248)如下:
(R1)被说明项必须是说明项的逻辑推论。
(R2)说明项必须包含一般定律,这些定律必须能够推论出被说明项。
(R3)说明项必须具有经验内容,即必须至少在原则上能被实验或观察检验。
(R4)构成说明项的陈述必须是真的。
前三条是恰当性的逻辑条件,最后一条是恰当性的经验条件。按照亨佩尔和奥本海姆的观点,条件(R4)是一个可称为正确的或真的科学说明的条件,因此,在分析科学说明论证的逻辑结构中可不予考虑([1],p.249,注3)。亨佩尔此后的一系列研究的重点主要是科学说明的逻辑结构,并把以上恰当性条件推广到他后来所关注的归纳-统计模型(简称为I-S模型)和演绎-统计模型(简称为D-S模型)上,而且他的注意力投向覆盖律模型的两个最重要的特征——说明项和被说明项之间必须有逻辑推导关系;说明项必须含有一般的科学定律。从这两个特征引伸出的几个重要论点遭遇一系列挑战,其中说明项与被说明项的相关性问题是涉及科学说明特征的最为关键的问题。
按照覆盖率模型的论旨,说明项中的科学定律不仅是保证科学说明有效性的必要条件,而且是科学说明的起点,因而说明项与被说明项之间是必然或高概率相关的。但是,萨尔蒙(W.Salmon)首先提出I-S模型中存在如下例类似的不相关性问题([4],p.76):
约翰感染了链球菌(S(j)),服用了青霉素(P(j))后,很快康复了(R(j))。所以约翰感染链球菌服用青霉素后康复的概率很高。这个论证的形式可表示为:
其中把前提与结论分开的双线表示说明项与被说明项是统计相关的。
假设,约翰感染的是对青霉素有抗药性的另一种链球菌(S*(j)),所以服用了青霉素后仍未康复,即
现在我在萨尔蒙的基础上继续假设,约翰在服用青霉素的同时还服用了其他抗生素(P*(j)),病很快康复了。即
或者还可以假设,感染了链球菌的约翰是一位患有心脏病的80岁老人(S**(j)),而这类人群服用青霉素未康复的概率很大,即
这四种情况显示,无论约翰是否康复,因为什么原因康复,作为说明项的定律都给被说明项赋予了高概率。亨佩尔意识到这个问题,并称之为“I-S说明的认知歧义性问题”(the epistemic ambiguity of I-S explanation),即“被接受的科学知识背景中包含了不同的陈述子集,这些陈述子集能用于仅被考虑为概率形式论证的前提,并给逻辑上相矛盾的‘结论’都赋予高概率。”([1],pp.382-383,pp.394-393)亨佩尔把引起认知歧义性的原因归为统计相关的或然性。可是后来萨尔蒙([2],pp.149-166)和阿肯斯坦(P.Acinstein)([3],pp.168-171)指出,D-N模型同样存在说明项与被说明项的相关性问题。请看下面两个故事:
倒霉的琼斯至少服了一磅砒霜,根据所有服了砒霜的人都会在24小时内死亡的规律,能推断琼斯在24小时内死亡。对于“琼斯为什么死亡?”来说,这是一个满足D-N模型条件的说明。但是事实上,琼斯服毒后不到24小时就遭遇车祸而亡。这样,以上说明不能被看作是一个好的说明,因为琼斯死亡的真实原因与说明项包含的定律不相关。
约翰经常服避孕药,所有服避孕药的男人都不怀孕。所以,约翰没有怀孕。这也是一个满足D-N模型条件的说明,但却不是一个好的说明,因为说明项中包含了与被说明项不相关的信息:男人不会怀孕。
二、几种解决方案及其遗留的疑难
为了消解I-S说明的认识歧义问题,亨佩尔借助于卡尔纳普(R.Karnap)的“完全证据要求”(the requirement of total evidence)①,提出了“最大明确性要求”(the requirement of maximal specificity),其核心观点是;假设K是与被说明项所含事件具有潜在说明相关的知识集。在明确表述或评价一个I-S说明中,我们应该考虑K所提供的全部信息,即所有相关的统计定律,通过这些统计定律使特定事实与被说明项所含事件相联系([1],pp.382-383,pp.397-401)。但是,面对一系列批评意见,亨佩尔不得不承认这个解决方案的失败。此后解决相关性问题主要有两类方案,一类是因果机制模型,另一类是语用学模型。本节以这两种类型中最具代表性的、与本文提出的方案有关联的萨尔蒙的“统计相关模型”(the statistical-relevance model,简称S-R模型)和范·弗拉森(B.C.van Fraasen)的“why-问题”说明模型为例,探究相关性问题研究的成果和遗留疑难。
萨尔蒙的“统计相关模型”([4],pp.62-83)仍然是一种覆盖律模型。其中“统计相关”概念并不等同于“归纳论证”概念,只是借助统计概率来识别说明项与被说明项之间的相关性或不相关性,而不是对个别说明作定量的评估,实际上也用于解决演绎论证说明的相关性问题。萨尔蒙的旨意在于,强调覆盖律说明要基于说明项和被说明项的统计相关性分析,而不是基于推理的必然性或高概率性。
S-R模型表明,一个恰当的科学说明由三个要素构成:(1)被说明项陈述的性质A;(2)说明项表征的参照类R;(3)说明项具有的性质同时也出现在被说明项中的性质。
萨尔蒙解决相关性问题的关键策略在于两条因果相关性原则:
(1)正负相关原则:把参照类中的属性分为正反两个子类,通过比较,选择与被说明项真正相关的因素。统计相关可界定为:
(2)筛选原则(screening off principle):根据正负相关原则分析后,把不相关因素筛除。
这两个原则强调,在确定说明项与被说明项相关性时不仅要考虑正相关因素,而且要考虑负相关因素,后者对说明仍然是重要的。解决I-S模型认知歧义问题的关键不在于高概率,而在于说明项参照类的相关性。而I-S模型和S-R模型参照类的根本区别就在于,预设了不同性质的参照类齐一性。
I-S模型预设了参照类认知齐一性(epistemically homogeneous),其特点是:(1)对于被说明项来说,我们知道在知识总集中相关类与不相关类的区分,相关类对被说明项起作用,不相关类对被说明项不起作用;(2)参照类中的每一个成员对于该类中的每一种相关的因素都具有同等概率。
萨尔蒙指出,亨佩尔没能解决认识歧义性的关键就在于,他试图用认知的齐一性来保证参照类的每一成员具有同等概率,但从本体论上看,每一相关因素对参照类中的每一成员并不具有等概率。所以S-R模型用参照类的客观齐一性(objectively homogeneous)取而代之,其特点是:(1)对于被说明项来说,原则上,我们不可能在我们的知识中区分出相关类和不相关类。齐一性的相关性区分被定义为:由参照类中因素的不同组合形成的单元的概率是有区别的。(2)一旦客观参照类给定了,那么所有相关因素都被看作对被说明项产生影响。(3)而且对于每一个被说明项来说,参照类中的属性对于参照类中的每一成员都仅仅是相关因素,因为属性F并非对于参照类的每一个成员都具有相同的概率。这就是参照类的客观齐一性。
笔者认为,统计相关性观点基于经验论立场,把所有说明项与被说明项之间的相关性看作本质上是统计相关的观点是合理的,是对亨佩尔逻辑相关性观点的深化。但是,S-R模型仍然遗留下三个新的相关性疑难:
(1)萨尔蒙对参照类的选择并未给出约束条件,这样一来,参照类的选择一方面要求考虑全部相关因素,而这实际上是不可能的;而另一方面相关因素的选择又可以是任意的,因为对于不同的说明者或不同的语境,相关因素的考虑是不同的。所以,萨尔蒙的S-R模型同样没能有效排除不相关因素。比如,张三和李四都是甲型H1N1流感患者,都服用了同样的药物,对这些药物都没有抗药性。但张三康复得快,李四却死亡了。对于这两个甲型H1N1流感患者(R)来说,他们的生肖()不同。根据正负相关原则,考虑生肖()因素是符合统计相关定义的,我们应该接受生肖()与康复(A)是统计相关的。但从说明者的知识域考虑,此例中的和A的相关性也许是可疑的,而且根据统计相关定义的形式,生肖、相貌、星座这些因素也很难作为个体之间的不相关因素被筛除。
(2)根据萨尔蒙的正负相关性原则所得出的结论,某一属性只能是要么相关,要么不相关。但是在不同的语境中,某一属性及其否定对于被说明项的性质实际上往往只有相关程度的不同,而不是相关与不相关的两级区别。也就是说,萨尔蒙用频率主义概率概念刻画的相关性并不具有普适性。
(3)萨尔蒙的客观的齐一性与亨佩尔的认知的齐一性的共同之处在于,它们都使用了频率主义的概率概念来刻画说明项与被说明项的相关程度。但是如果客观参照类对于不同的说明者和语境各个有别,那么就根本不可能用一种作为终点的适当的极限频率来刻画属性对于参照类的每一个成员在任何客观情况下的概率。
总之,离开语境和说明者信念谈论说明项与被说明项的相关性,无论在语义形式上作何种改进,都无法最终规避认知歧义问题。
范·弗拉森在分析了因果说明模型的缺陷后,提出了“why-问题”说明模型。在他看来,“说明不与命题、论证或命题归类相同,它是一种回答(比如,儿子不与男人相同,尽管所有儿子都是男人,每一男人都是儿子)。说明是对why-问题的回答,因而说明一定是why-问题理论”([5],p.134)。范·弗拉森认识到,相关事件或性质的选择取决于语境,“语境以某种超越于我们的科学理论所提供信息的方式决定着相关性”([5],p.129),在给定语境中,why-问题根据以下三个要素确定:
why-问题的预设:
(a)其主题为真;
(b)在对比类X中,只有主题为真;
(c)至少有一个真命题与其主题和对比类具有相关关系。
在提问的语境中,存在着接受的背景理论和实际信息的集合K。这意味着问题在语境K中产生,K或许不能告诉我们哪些可能的答案是真的,但K蕴涵了问题的中心预设的前提是真的。
对问题Q的答案“因为A”有三种评价途径:
第一,A是否可接受或可能为真。
第二,A作为原因支持主题的程度。
第三,比较“因为A”与其他可能的答案:A是否可能;是否在更大程度上支持这一观点;是否因为其他可能给出的答案而变得完全或部分的不相关。
范·弗拉森引入萨尔蒙的筛除原则和深层语境因素对这三种主要的评价方法作了进一步的精确化表述,他认为这是解决各种答案之间相关性的有希望的方法([5],pp.141-147)。
笔者认为,范·弗拉森why-问题说明模型的突出特点是,强调问题与回答的相关性,引入语境因素,强调问题与回答对语境的依赖关系,为解决相关性问题提供了有价值的视角。但是,范·弗拉森并未进一步清楚地分析和阐释这些问题,甚至“比较类”、“相关关系”等概念都没有以明确的方式加以界定。而且,依他的观点,在以下问题中,
(2.1)为什么汤姆周一乘飞机去纽约?
(2.2)为什么是汤姆周一乘飞机去纽约?(不是迪克或哈瑞)
(2.3)为什么汤姆周一是乘飞机去纽约?(而不是乘火车)
(2.4)为什么汤姆周一乘飞机是去纽约?(而不是去华盛顿或芝加哥)
(2.5)为什么汤姆是周一乘飞机去纽约?(而不是周二或周三)
(2.2)-(2.5)的被说明项是相同的,它们之间的不同在于各种语用词项涵义的不同。例如,(2.2)-(2.5)中被假定的某种“比较类”的语用的涵义不同。(2.2)是强调行动的人,(2.3)是关注乘坐工具,(2.4)是质疑所去的地点,(2.5)则是关心行动的时间。而这些涵义取决于询问者在具体语境中的语用意图。也就是说,范·弗拉森把why-问题的处理最终归为语用学。而由于他没有用适当的逻辑的和概念的工具加以研究,他的why-问题语用学只能取决于问题的语境的启发、询问者的心理因素和社会因素。听任这些非形式思考任意摆布,连他自己也不得不声明,他不能对why-问题的评价提供人们所期望的那种完善和精确的解释。
三、说明者信念度相关性模型
基于以上分析,笔者认为,解决说明相关性问题的关键是:需要把说明者(或询问者)在一定语境中对相关因素的信念度引入科学说明要素。科学说明由四个要素构成:说明者S在一定语境中对相关因素的信念度;被说明项陈述的性质A;说明项的参照类R;出现在说明项的定律陈述中与性质A相关的性质。科学说明的相关性可以界定为,说明项和被说明项在一定语境中相对于说明者信念度的相关性(简称“说明者信念度相关性”)。
在一定的语境中,说明者所具有的关于被说明项的背景理论和实际信息的集合K是有限的;而且随着其他因素的变化,说明者对相关性因素的信念度将会发生变化,因而说明者信念度相关性具有不完全性和不确定性的特点。而贝叶斯网络是一种基于概率推理的图论模型方法,能很好地处理不完全性和不确定性的变量之间的相关性([6],pp.9-22),因此,笔者认为用贝叶斯网络方法来刻画说明者信念度相关性是可行的。我把这一说明模型称作“说明者信念度相关性模型”(the exponent's belief degree-relevance model,简称B-R模型)。
1.B-R模型结构的确定与变量值域的取值方法
贝叶斯网络是一个具有概率分布的有向弧段。节点表示事件或变量,弧段表示节点之间的因果关系或用概率表达的因果相关程度,而弧段是有向的,不构成循环。一段弧的起始节点称作其末节点的母节点,后者称作前者的子节点。
构造贝叶斯网络需要确定其变量的节点、网络结构和各种参数(即各变量对应的值域和各变量之间的联合概率分布等)。笔者根据说明者信念度相关性问题的特征,采用较常用的一种构造贝叶斯网络的方式:假设说明者是领域的专家,由专家根据其知识域确定贝叶斯网络的节点,并制定网络结构,再通过贝叶斯学习算法得出网络中所需参数。我将改进萨尔蒙提到的青霉素对治疗链球菌感染效果的例子,并用以描述基于贝叶斯网络方法的B-R模型。
在这个例子中,“注射青霉素能有效治疗链球菌感染”是说明项中的定律或似律陈述,“注射了青霉素的链球菌感染患者”是说明项的参照类(R),这些可以看作说明者的知识域。“治疗链球菌感染的效果”是被说明项陈述的性质(A)。假设说明者(一位医学专家)S根据其知识域,把患者以往经常使用青霉素(F1)、患者合并其他感染(F2)、患者有自家免疫反应(F3)3个因素作为对青霉素治疗链球菌感染的影响因素。其相应的变量集为:
X={R,F1,F2,F3,A}
假设该说明者给出各变量对应的值域分别为:
R:{注射剂量400万单位,640万单位,800万单位}
F1:{有抗药性,无抗药性}
F2:{其他病毒感染,其他细菌感染}
F3:{急性肾小球肾炎,其他}
A:{有效治愈,好转,治疗无效}
该模型的网络结构描述如图1:
图1
图1中每个节点表示一个变量,节点之间的有向弧线表示各变量之间的因果关系,没有弧线连接的则表示条件独立。我们进一步把这个网络结构用条件概率表示为各变量之间的联合概率分布。以图1为例来说明条件概率的表示方法。
用这种表示方法,我们可以通过说明者用统计分析获取的值,将图1中的所有节点之间的条件概率一一表示出来。
2.变量联合分布下的条件概率计算方法
然后,我们需要得到治疗链球菌感染在上述4个因素影响联合分布下的条件概率,即求P(a/r,f1,f2,f3)。求这个概率的过程就是一个贝叶斯学习过程,这个学习方法的基础就是如下的贝叶斯条件概率法则:
其中h表示假定论域中的候选假设,e表示获得的经验证据。P(h)称作h的先验概率,表示在没有获得经验证据前,假设h的初始概率,在说明过程中它体现了说明者关于h是一正确假设的机会的背景知识。在没有这一先验知识的情况下,说明者则可以给每一候选(或竞争)假设简单地赋予相同的先验概率,先验概率是独立于经验证据e的。P(e)表示e的先验概率,即在没有确定某一假设成立时获得的经验事实e的概率。P(e/h)表示假设h成立时获得的经验e的概率,称作似然律。P(h/e)表示h的后验概率,即给定e时h成立的概率,后验概率体现了获得的经验证据对假设的影响。
在通常情况下,说明者都是寻找在给定经验证据e下可能性最大的假设,即极大后验(maximum a posterior,简称MAP)假设。在此假设下,P(e)是一个不依赖于h的常量,那么论证的极大值,与论证P(e/h)P(h)是相等的。所以(3.1)可改写为:
当然,在某些特定情况下,如果我们无法获得候选(或竞争)假设初始概率时,可以假定每个候选假设有相同的先验概率,那么此时,(3.2)就只需要寻求P(e/h)的极大可能假设了。
根据(3.1)和(3.2),上例的条件概率可表示为:
如果考虑对A有影响的4个因素之间的概率关系,那么就会增加先验概率的数目。为了减少先验概率的数目,简化计算和推理过程,运用条件独立性法则②,(3.3)可得:
(3.4)是该例子的一个通式,对于任意一组观察值的状态,我们都可以得到对应的先验概率及其条件概率,分别代入(3.4),便可得到所需的后验概率。
结论
可以看出,B-R模型不仅兼有S-R模型和why-问题说明模型的优点,即考虑了说明者和语境因素,强调说明项和被说明项的相关性分析,而且与以往说明模型相比,在解决相关性疑难方面具有以下优势:
(1)B-R模型在可能的相关因素不完备的情况下能很好地处理说明的相关性问题。以往的说明模型或者不处理变量因素之间的相关性,或者必须假设知道所有相关因素的条件下才能筛除不相关性。基于贝叶斯网络方法的B-R模型反映的是相关因素之间的概率关联关系,所以即使缺少某个相关因素仍然可以建构较为精确的说明模型。
(2)B-R模型避免了变量的相关与不相关的简单的两级区分。萨尔蒙的S-R模型虽然避免了亨佩尔覆盖律模型忽略分析相关性问题的缺陷,注重分析变量之间的相关性,但其正负相关性原则所得出的某一属性要么相关要么不相关的结论并不具有普适性。B-R模型用概率关系描述变量之间的因果相关程度,弥补了S-R模型的这一缺陷。
(3)B-R模型把贝叶斯网络与贝叶斯统计相结合,不仅能用概率分布很好地描述变量之间的相关性的程度,而且能用概率关联关系充分描述说明者的先验知识与给定说明要素的依赖关系。这不仅是萨尔蒙不考虑语境仅用客观齐一性解决相关性所不能企及的,而且也克服了范·弗拉森在语境问题上听任非形式思考的任意摆布的缺陷。
〔收稿日期〕2009年3月20日
注释:
①完全证据要求:“在归纳逻辑的应用中,对于给定知识状态而言,已得到的完全证据必须被看作是确定确证度的基础。”R.Karnap.Logical Foundations of Prebability[M].Chicago:University of Chicago,1950,p.211.
②贝叶斯网络推理计算理论给出了条件独立性法则,即假设网络的各个节点是不同的子集。条件独立性假设的判据是分割定律(d-separation):设A、B、C为网络节点中三个不同的子集,当且仅当,当A与C间不存在(1)所有含有聚合弧段的节点或其子节点是B的元素;或(2)其他节点不是B的元素时,我们称B隔离了A和C,记作(A/B/C)。如果B隔离了A和C时,那么可以认为A与C是关于B条件独立的,即:P(A/C,B)=P(A/B)。