真理与朴素_曲线拟合论文

真理与简单性,本文主要内容关键词为:真理论文,简单论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:N031 文献标识码:A

大多数人都同意,科学家事实上偏好简单的假设。这一点科学史的研究已经给出了许多证据。比如说,在开普勒行星运动定律提出之初,就其与当时的天文数据相吻合的程度而言,并不比哥白尼的原初的系统更为优越。但是什么原因促使开普勒定律被科学家接受呢?一般的解释是,因为开普勒定律相对于哥白尼系统更加简单。但是,开普勒定律在何种意义上更加简单(简单性的定义),为什么科学家选择一个更加简单的假说在认识上是合理的(简单性原则的辩护),这就是假说(或理论)选择中的简单性问题。在上个世纪50-60年代,主要由认识论哲学家和科学哲学家对这个问题进行了大量的讨论。近年来,由于在统计学、人工智能、认知科学领域出现了一些新的成果,给这个老问题的讨论注入了新的活力。上个世纪70年代,日本统计学家阿凯克(Akaike)在统计模型选择问题上建立了一个新的理论框架,并证明模型的简单性和其预见的精确度有实质性的联系,即所谓的Akaike信息标准(Akaike Information Criterion,简称AIC)。90年代后,福斯特(Malcolm R.Forster)和索贝尔(Elliott Sober)等科学哲学家看出了其中包含的对简单性的哲学问题及其他科学哲学问题的意义,并从多方面给予了阐发。本文首先介绍简单性问题和在解决这个问题中遇到的困难,然后再简要地介绍福斯特和索贝尔针对一类特殊的科学问题即曲线拟合问题,在Akaike的成果的基础上,对简单性问题的一种局部解答。

1 假说选择与简单性原则

在已知的背景理论和一组经验证据下,我们必须选择一个假说来解释这些经验证据并预见未来。这样的选择有什么样的根据或依据什么样的原则?这就是假说选择(或理论选择)问题。一个首要的、明显的要求就是,所选择的假说必须与已知的经验证据相吻合。但是,这样的要求不能帮助我们挑选出惟一的假说出来,因为针对同样一组已有的经验证据,我们原则上可以构造出无穷多个假设与这些证据相吻合。例如,牛顿的万有引力定律的关系式为:,甚至还可以与以下公式吻合[14]:

,其中K是一个很小的恒量

古德曼的“新归纳之谜”更是以一种鲜明的风格揭示了在假说选择中存在的这样的处境。到现在为止(即2005年1月1日),我们观察到的所有绿宝石,与“所有的绿宝石都是绿的”()这个假说相吻合。但同时也与“所有的绿宝石都是绿-蓝的”()这个假说相吻合(其中“绿-蓝”这个谓词是这样定义的:即一个事物是绿-蓝的,当且仅当这个事物在2010前是绿的,在2010年之后是蓝的。)事实上仿照古德曼的方式,我们还可以构造出无穷多个假说,它们与一样,都能够与我们到目前为止所观察到的绿宝石的情况完全吻合。

显然,已经观察到的证据,不能帮助我们在牛顿形式的万有引力定律和其修改版之间,也不能够帮助我们在之间作出任何区别,它们与这些证据之间吻合的程度同样好。这表明,如果不轻易倒向相对主义,那么除了证据的支持以外,还必须依靠其他的理性原则来指导我们的理论选择。

在证据之外的指导假说选择的原则是什么呢?一个流传甚久的想法是:简单性应该在假说选择中起到重要的作用,也就是说,在其他条件相同的情况下,我们应该选择最简单的假设,我们将此称为简单性原则。这种想法首先是来源于人们的直觉,这种直觉得到了科学史上的案例支持,包括开普勒、牛顿、爱因斯坦、海森堡在内的许多一流科学家都曾对简单性的作用发表过非常精彩的言论。

但简单性是一种什么意义上的原则呢?有一些哲学家,例如牛顿-史密斯,把科学家选择简单的假说的理由看作仅仅是出于实用的考虑。假说、理论的简单,能够给推导、计算、验证、记忆、交流等认知活动带来方便。简单性原则只是一个实用主义的原则。另外一些人则认为,把简单性作为一个实用原则,没有对科学家的简单性偏好给出充分的理由,因为看上去简单的假说在计算上未必容易。更重要的,它根本没有触及到假说选择和归纳推理的规范标准问题,而我们正是出于解决这个规范问题的需要,而引出简单性问题的。但如果把简单性作为一个规范的认识原则,就不能只是援引科学家的直觉和列举科学史上的案例,它需要独立的论证。上个世纪30年代杰弗里斯(Harold Jeffreys)、波普,40年代的古德曼、50年代的凯梅尼都曾各自提出了一些阐明简单性原则的不同思路。

2 简单性的复杂性

阐明简单性原则,需要解决两个问题:一是如何定义简单性,或者说给出在假说或理论之间就简单性进行比较的标准。二是如何辩护简单性原则,即要证明,简单性与认识的目标之间存在内在的联系。但是,简单性原则的这两个方面都有很多困难。

在如何定义简单性上,首先我们所遇到的问题是,即使从直觉上看,当我们在不同场合下说“一个假说或理论比较简单”时,其中“简单”的涵义也并不完全相同,一般来说至少涉及到以下几个方面的涵义:

(1)本体论上的简单 即是说,假说所假定的实体或实体的种类较少,这样的简单性主要涉及因果推理,是奥卡姆剃刀和牛顿原则所提及的内容。

(2)概念框架上的简单 即是说,假说中所包含的,需要独立理解的谓词(即对性质的描述)较少,也就是说,如果我们的假说或理论所需要的一切谓词,越能够通过较少的基本谓词定义而来,那么概念框架越简单。“绿-蓝”问题似乎和这方面的简单性有关。

(3)定律上的简单 即是说,或者组成假说或理论的定律较少,或者定律的表达式所涉及到的变量较少,或者定律的数学表达式较为简单。显然,在开普勒定律和哥白尼系统的比较中,涉及到的是这方面的简单性。

这些不同方面的简单性似乎很难化归到同一个简单性标准,一个方面的简单可能会导致另外一个方面的复杂。比如,为了达到本体论上的简单,有可能增加概念框架上的复杂程度。或者为了减少独立的可理解的谓词数量,会导致定律的数目或定律表达上的复杂性。

其次,即使区分了这些不同方面的简单性,对于每一个方面我们都难以给出准确的定义。比如对于本体论的简单性,如何确定一个假说或一个理论所假定的实体或实体种类的数目呢?蒯因曾经给出了一个本体论承诺的标准,即量词的辖域。但是,很快人们就指出这个标准存在着许多困难。对于概念框架的简单性来说同样如此,因为其中的“基本谓词”是一个难以确定的概念。如果只是基于定义关系的话,那么只需要简单的逻辑变换,就能够把原来独立的几个谓词归结为一个单独的关系式,然后再用它来定义其他的谓词。在这样变换后,基本谓词的数目就会改变。古德曼出于解决“绿-蓝”问题的需要,曾经化了很大的力气,试图系统地给出概念框架的简单性标准[7],但是也有许多争论。

第三,对不同方面的简单性,即使我们放弃追求准确的定义,而只借助于直觉来判断,也仍然存在很大的问题:就是直觉上的简单性判断依赖于表达假说的语言。比如对于定律的数学表达式的简单性,我们可以采取蒯因的建议,用数学等式的度或微分方差的阶来衡量,但普里斯特(Priest)指出,[3]如果对变量进行变换,会改变数学式的简单性。例如,对(x,y)的一组数据:(1,1)、(2,2)、(3,3),我们可以得到表达式

在简单性原则的辩护问题上,我们遇到的困难也很大。常常有人援引“世界本身是简单的”这样的本体论命题,来为认识的简单性原则辩护。但是,这种方案留下了一个重要任务,那就是,给出“世界本身是简单的”独立的、本体论的理由。这个任务可能更加困难,只是直接地引用“上帝设计”或部分科学家在其自述中所提到的本体论信仰,并不是好的论证。况且,我们在经验中发现,世界的构成,比如行星的轨道,可能非常复杂。

辩护简单性原则的一种途径是,把简单性同我们公认的一些认识上的优点联系起来。除了与已有的证据吻合之外,科学理论之间还存在其他方面的优劣。例如,预言的精确性、理论的可检验性、理论的系统性、理论的统一性等等。一个简单的理论之所以应该被选择,是在于简单性是这些认识优点的反映。其中最引人注目的优点是理论所包含的信息或内容。一个好的科学理论应该是包含更多的内容的理论。波普、古德、罗森克里兹、蒯因等人都试图通过不同的方式,例如可证伪性、内容、似然、逻辑表达力等,找出简单性与信息量之间的联系,并以此为简单性原则找到辩护的依据。

辩护简单性原则的另外一条途径,也是更强的途径,是把简单性与认识的最重要的目标,也就是真理,联系起来,试图表明,越简单的假设或理论越有可能更加接近真理。这条途径也有两个不同的方向,一种是直接将此作为认识的基本的先验原则,例如斯文波[13]。另一种是试图对此给出一些论证,凯梅尼在上个世纪50年代曾做过一些开创性工作[9]。目前有两个重要的成果。一个是李明和维坦依(Li.M,Vitanyi),把简单性看作是认知编码的一种特征,从科尔莫哥洛夫的数学复杂性理论出发,进行论证的。一个是福斯特和索贝尔,把简单性看作是可调整参数的一种特征,从Akaike在统计学中模型选择问题的研究成果出发,进行论证的。

3 曲线拟合问题

统计学上的曲线拟合问题是一类相对简单、结构明确的假说选择问题。曲线拟合问题是这样:假定有两个变量,x,y,已收集到这两个变量相对应的一组数据,这个数据组可以表示为以x为横轴,以y为纵轴的平面上的一些点。现在我们要找出其中的函数关系,y=F(x),即x-y平面上的一条曲线,采拟合这些数据点,然后,再从新发现的x值,预见新的y值。

如何确定这条曲线呢?传统的统计学实践,把解决这个问题分为两个步骤。首先,选择一条曲线,它可以表示为一个带有参数的函数。其次,计算这个曲线与已知数据点的吻合程度。这两个步骤采取了不同的指导原则。在选择曲线的时候,事实上是按照简单性原则的指导来进行的,虽然在统计实践中并没有作出明文规定。与数据点的吻合程度,统计学中称为拟合优度。对拟合优度的测定,就是计拟合曲线与数据点之间的距离的平均值。然后,我们可以按照对最优拟合的定义,来估计参数的值。

但是,福斯特和索贝尔对曲线拟合问题的这种传统的处理方式提出了挑战。[3]他们的理由是,首先,如果直接在不同的曲线间进行选择,那么会遇到一个问题,即曲线的形式是相对于数学变换的。前面所提到的普里斯特的结果已经证明了这一点。只要我们找到恰当的变换形式,所有的曲线都同样简单。简单性的考虑无从指导对曲线的选择。

其次,曲线拟合优度的标准选取的是与已知数据点的拟合程度,福斯特和索贝尔将这种观点称之为天真的经验主义。按照这种观点,与现有的已知数据点拟合得最好的曲线也是与未来将产生的数据点拟合得最好的曲线,也就是说,与现有的已知数据点拟合得最好的曲线将产生对新的数据点的最精确的预见。天真的经验主义肯定是错误的。假设有一条真实的曲线存在,已知的数据点和未来的数据点都是由这条曲线产生的。由于数据点本身存在着测量误差,很明显,如果有一条曲线与已知数据点完全吻合,那么这条曲线肯定不是真实的曲线。假设真实曲线是一条直线,但由于观测误差,数据点不可能完全落在这条直线上,而是散布在周围。从拟合目前的数据点来看,可能复杂的曲线表现更好。但显然,由于真实曲线是直线,就对未来的预见的精确度而言,复杂的曲线可能会表现得较差。从这个初浅的分析,可以看出,曲线与已知数据点的最优拟合,有可能是过度拟合(overfitting)所致。过度拟合的曲线有可能偏离真实曲线更远,因而导致并不精确的预见。在科学实践中,有时候科学家的确为了曲线的简单性,甚至会一定程度地牺牲与已知数据点的拟合。

4 模型选择与Akaike定理

福斯特和索贝尔认为,[3,4,5]第一,需要改变对曲线拟合问题的传统提法,我们不是直接在不同的曲线之间挑选最优拟合曲线,而是要把问题向前推进一步,即先在不同的曲线族(模型)中选择。所谓曲线族就是带有一组可调整参数的函数,在选择了一个恰当的模型后,再进行参数估计,确定出我们需要的曲线。

把问题推到模型选择的层次后,我们可以在模型之间就简单性进行比较。从直观上讲,F是比G简单的模型。但在这里简单性的涵义很清楚,即F可被纳入到G中,也就是说F中的曲线也是G中的曲线。这种简单性的明确标志是模型中可调整参数的数目。G更复杂,表现为G的可调整参数(3个)比F的可调整参数(2个)要多。很容易表明,模型之间的简单性比较不会受到普里斯特变换的影响,也就是说模型的简单性不依赖于我们表达模型的方式(或者说独立于语言)。

第二,在模型选择问题上,日本统计学家Akaike提供了一个合适的分析框架。这个框架不是把与现有的已知数据点的拟合程度作为拟合优度的标准,而是将模型预见新数据点的精确度,作为模型选择的标准。

在Akaike框架中,首要的任务是找出一个测量模型的预见精确度的标准。最直观的想法是,以模型与真实曲线之间的距离来作为模型的预见精度的测度。Akaike给出了这个距离的定义,其基本的想法是,假定在曲线族F中,与已知数据点拟合得最好的曲线为,按照前面的分析,可能与已知数据点存在过度拟合问题。所谓过度,实际上就是指,它超出了真实曲线与已知数据的拟合程度。如果我们知道过度拟合的程度,我们就可以对作一个修正,以去掉其中过度拟合的问题。对修正的结果,就可以作为它所在的曲线族与真实曲线之间的距离,也就是曲线族的预见精确度。

但是,真实曲线是未知的,因而模型的预见精确度也不可能直接测量。Akaike表明,我们能够得到模型的预见精确度的估计值。Akaike的推导过程比较复杂,其思路大致如下[5]。假设在曲线族F中,与真实曲线拟合得最好,也就是与所有可能的数据,包括已知数据和未知的数据拟合最好的曲线为F*。F*与真实曲线的距离就是模型的偏。F*与之间的距离就是估计误差。决定模型的预见精确度,也就是与真实曲线之间的距离,实际上就是估计误差和模型的偏的和。虽然我们不知道真实曲线,也就不知道F*。但是F*在推导的过程中将会起到一个重要的作用。

从定义出发就可以知道,F*与真实曲线的拟合程度要大于。Akaike证明,在一般的条件下,大于的量为k/2,其中,k为曲线族可调整参数的数目。同样从定义可知,F*与已知数据点的拟合程度要小于。Akaike证明:平均来看,小于的量为k/2。这样,我们可以用对目前数据的拟合程度加上k/2来估计F*对目前数据的拟合程度。但根据定义,这也代表了F*对由真实曲线产生的、未来的数据的拟合程度。因此,过度拟合的程度,也就是与真实曲线之间的距离的估计值为k。模型预见精确度的估计,就是与已知数据的拟合程度减去过度拟合程度k。Akaike的一般定理可表示为:

曲线族F预见精确度的估计=(1/N)[的似然的对数-k]

该式并不是Akaike的原初表述。为了符合一些极限定理,福斯特和索贝尔加上了1/N这个量,其中N表示样本的大小,即已有数据点的个数。从Akaike定理可以看出,曲线族预见精确度的估计,实际上是与已知数据的拟合程度和曲线族的简单性综合考虑的结果。相对于预见精确度的估计,与已知数据的拟合程度与简单性是相互补偿的关系。例如,对于一组数据点,当F和G的拟合程度相似,这时k值越小,也就是模型越简单性,预见的精确度越高。但也不是任何时候都应该选择简单的模型,因为复杂程度较大的模型,如果在与已知数据点的拟合程度较大,抵消了模型的复杂性因素,那么也就应该选择较为复杂的模型。从福斯特和索贝尔修正的Akaike定理中,我们还可以看出:如果数据点越多,简单性的相对权重就会越小,预见的精确度主要由与已知数据点的拟合优度来决定。

5 简单性的胜利?

Akaike定理对简单性问题给出了一个解答。当然这样的解答只是一个局部的答案。首先,它所涉及的只是曲线拟合问题中定量假设的简单性。其次,并不是所有的曲线拟合问题,都能在这个框架中得到解决。例如,在福斯特和索贝尔的文章发表之后不久,德维托(De Vito)就指出[2],古德曼的绿-蓝假设实际上也是一种曲线拟合问题,但是Akaike定理却无法解决这种类型的假设选择。福斯特也承认确实如此,并指出这是由于绿-蓝假设中并没有可调节参数,如果以可调节参数作为简单性的衡量指标,“所有绿宝石都是绿-蓝”的,与“所有绿宝石都是绿的”,同样简单,这种意义上的简单性对于绿-蓝问题没有帮助[5]。第三,Akaike定理的证明依赖于三个假定,基塞帕(I.A.Kieseppa)指出[10]:在一些曲线拟合问题中,这三个假定中有一些并不成立,因而Akaike定理不能应用。

Akaike解答的局部性还表现在另外一个方面。在模型选择研究中,有不同的框架,除了传统的假设检验方法外,还有基于贝耶斯主义的信息标准(BIC),基于科尔莫哥洛夫数学复杂性理论的最小描述标准(MDL)、交叉证认方法(CV)。这些模型选择框架,提出了不同的模型选择标准,简单性也在其中起到重要作用。但是,在不同的框架中,简单性的定义并不完全相同,而且辩护简单性的理由也有区别。这些不同的框架辨析出了简单性的更多的含义和简单性在认识中的作用的更多的方面。[6]

既便如此,Akaike定理对于我们理解简单性问题仍然提供了相当深刻的洞见。首先,简单性被归为模型而不是单个假设的特征,这一点为比较科学假说的简单性,比如说,在何种意义上哥白尼学说比托勒密体系简单,开普勒定律比哥白尼学说简单,提供了一个比较明确的基准。其次,Akaike定理表明,简单性对科学目标,即预见的精确度,作出了实质性的贡献,因而,肯定了简单性作为认识原则的地位。第三,简单性在认识中起作用的方式是,与经验证据一起共同增加了预见精确度,它不是一种先验的原则,而是起到类似于证据的作用,帮助经验主义解决了一个难题。第四,曲线拟合这种概括推理中的简单性原则,同样可以应用到因果推理之中,并印证了在本体论上的简单性原则,即奥卡姆剃刀和牛顿原则。第五,在Akaike框架下,简单性与我们公认的科学认识中的其他优点也存在联系,特别是统一性。牛顿力学的优点之一在于它的统一性,它把对于天上物体的运动(开普勒定律)和地面上物体的运动规律(伽利略定律)统一起来。从Akaike定理出发,可以表明,统一性之所以被作为选择理论的一个标准,不但在于它的内容(如波普所说的那样),更重要的是,统一的理论比杂多的理论能够提高预见的精确度[3]。

Akaike框架的独特之处在于,将预见的精确度作为假说选择的标准。这一点,对传统的确证理论,如假设演绎法、贝耶斯主义提出了挑战,对于如何理解科学推理和科学哲学中的其他问题,提供了一个新的角度[4]。

收稿日期:2005-02-04

标签:;  ;  ;  

真理与朴素_曲线拟合论文
下载Doc文档

猜你喜欢