统计学与数学:对抗与合作(续),本文主要内容关键词为:统计学论文,数学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数学在统计中的力量 统计学象物理学和经济学而不象代数拓扑或概率论,把数学上的理解评价为达到目的的手段而不是目的本身。象物理学和经济学而不象数学的分支,统计学有自己远不同于数学的自己的主题。尽管统计学不是数学的分支的确是事实,但我们认为对这一事实连续不断的强调是打了场胜仗却冒着在一场更重要的战斗中失败的危险。尽管统计学抵抗着分裂和消散在它的应用学科中,它依然有被信息技术吸收的危险。令人啼笑皆非的是,上述威胁的一个主要因素是当代统计学与数学间日益增长的智力上的距离。技术的发展大大拓广了统计学可应用的范围,但是它也使数学或统计学知识很少的人也能使用现代统计方法。
二十年前,在不平衡数据的多重回归和几种方式分组的方差分析中的变量选择是专家的课题。试图进行这些分析的人大概应学过几门统计课程。现在统计学家仍坚持他们有超出提示合适方法的洞察力,具备某种程度的这种洞察力是熟练掌握统计软件所必须的。然而现在的软件使用起来要容易得多,并且许多入门课程为学生提供了大量练习。以前一个使用多重回归软件的人很可能懂得相当多的统计学和本科数学知识,现在情形不一样了。
我们不否认,总的说来,容易获取和广泛使用统计方法这种情形对科学和社会是好的。但是这个优点是有代价的。没有具备足够的数学或统计学思考的背景而使用复杂的统计学进行详尽的研究很容易产生深藏在极度的细节中的错误。当复杂的数学模型是自动建立的,而其后是由对数学及其所描述的意义不具备必要的基础的人来使用时,以上的情形是当然会发生的。在关于思考和自动方法的相对作用的争论中,统计学家和数学家似乎显然是自然的同盟军。
统计学由于广泛地使用数学模型而同“纯粹是计算的”区别开来。经典统计推断大部分基于把结构为n维欧氏几何与模型随机性为高斯分布结合起来的“广义线性模型”。统计学的近期历史遍布各种例子,表明现存的数学结构提供有力和完美的理解,或通过寻求自然的一般性结果的过程把以前看不清联系的各种例子结合起来。第一种类型的例子有使用微分几何来理解指数分布族(例如[16]);第二种类型的例子是EM算法的产生[8]。
我们曾在文章[2]中举例说明数学知识对统计上的理解是不充分的。我们现在举出一个更深刻的例子表明数学知识常常是必要的。
一个例子 下面的例子解释了:第一,要求简化性假设从而使问题在解析上可处理的“旧式”统计方法的缺点;第二,另一种不要求简化性假设然而需要用大量数学知识的使用计算机进行大量计算的方法;第三,(基础)抽象代数的出人意料的作用;最后,对于忽略基本数学的粗心大意的使用者存在的陷阱。本例取自Diaconis和Sturmfels最近的文章[14]。数学是他们提供的,寓意解释是我们给的。
考虑二联表行列变量的独立性检验问题。例如检验生日和死亡日(所在月份)的相关性。设O[,ij]为某一我们感兴趣的总体中的人数,他们生于第i月而故于第j月(i,j=1,2,…,12)。Diaconis和Sturmfels分析了由维克多女王的82个后代人组成的这种表。计算行和和列和O[,i+]和O[,+j]以及总和O[,++],然后用这些数据计算独立性假设下的期望数e[,ij]=O[,i+]O[,+j]/O[,++]。现通过Pearson统计量X[2]=∑(O[,ij]-e[,ij])[2]/e[,ij])来比较观察值和期望值。X[2]度量观察值与生死月份独立时我们可期望得到的变量值之间相差有多远。考虑所有具有相同行和和列和的表,则其中X[2]的值大于或等于用数据计算的X[2]值的表所占的比例即为p值。因此p值度量了,如果我们相信独立性假设,我们会发现数据有多么出人意外。如果p值小,我们就有有力的证据说假设不成立。
我们如何计算比例p?统计方法入门课程中所教的传统方法是x[2]检验。为了简化,假设落入小单元的观察计数(cell counts)大得足以用高斯分布近似代替多项分布。于是p值近似等于121=(12-1)×(12-1)个自由度的x[2]变量大于或等于统计量X[2]的概率。
这是“旧式”的统计学,因为它必须采用可能拟合也可能不拟合手头数据的简化性假设以使问题能有解析解。这时简化带来很多损失。实践中常使用的一种简化假设是大多数落入区间的观察值个数的期望e[,ij]至少为5;见[20,§3.2.5]的讨论。对于我们的数据,平均个数是82/144,以上假设不适用。旧式的方法,“进行简化假设,直到你把问题化简得能有解析解为止”,有时显得是把“使用数学”放在“正确完成任务”之前。对确认这种优先权的否定性反应是促使统计学家发表独立宣言的一部分。
对于小数据集,由于可以进行精确的枚举,你不需要x[2]近似。“Fisher的精确检验”用超几何分布作为捷径,但这方法等价于枚举法。枚举法避免了落入小单元的观察计数具有大期望的不现实假设,但不幸的是即使由计算机辅助的枚举法也只能在小问题中实施。不同的可能性简直太多了。Diaconis和Sturmfels给出了一个4×4数据集,它有592个观察值,具有相同的行和和列和的表有1.2×10[18]个。此外或者同时可能有一些特别指定的限制条件使枚举法有困难。例如对于三维或更高维的表,感兴趣的假设可能不是简单地说各维间独立,而且限制条件可能牵涉几个要匹配的有重叠的二维总和表。或者数据有“结构零”,例如在以性别和癌变的部位为坐标的表中。在这类问题中不常使用计算机辅助枚举的事实突出表明,在统计学中“使用大规模计算机”的含义比单调乏味的高速苦干更难以捉摸。
当今用大规模计算机来计算这个问题的p-值的计算方法称为马尔可夫链蒙特卡洛方法,即前述的计算贝叶斯后验分布的方法。为在此处使用这一方法,定义一个与之联系的、状态为所有满足限制条件、大小为12×12表(例如具有给定行和和列和的非负整数项)的不可约、非周期、可逆马尔可夫链。为此一个标准的方法是如下指定转移概率。随机选取第i和第j两行以及第r和第s两列。从当前数据表出发,在(i,r)和(j,s)项上加1,从(i,s)和(j,r)项中减1,如果这样选中的转移产生负项则维持原状。这链具有已知的平衡分布;(通过投掷具有合适偏差的硬币来接受或拒绝转移)可以修正这分布从而给出表集合所应达到的抽样分布。运行(修正后的)链到足够长以达到平衡,然后从中,例如每隔50步取样。用X[2]值等于或超过从数据中计算的X[2]值的样本表的比例来近似p-值。
显然,不用数学是不能提出这一完美的大规模计算机计算方法的。更贴切地说,虽然由于有数学知识这方法的使用已变得较易,在某些场合变得可行,但这一点并不显然。Diaconis和Sturmfels文章的一个主要贡献是证明了定义马尔可夫链(找出一个马尔可夫基)等价于在一个多项式环中求出一个理想的生成元。于是计算代数的方法和一个象Maple那样的计算机系统就可以用来建立相应的马尔可夫链。
我们重述Diaconis和Sturmfels的意见作为最后一点:链的不可约性至关重要,而且不能认为是当然具有的。他们举出了文献中一个忽略这点而导致不正确p-值的例子。
作为研究动力的应用问题 至少在理论上数学和统计学对开发新工具来解决应用问题有共同的约定。在统计学中,在大多数情况下,对其它领域需求的关切一直是使专业得到发展的动力。在数学的悠久历史中,应用问题也是多数最新数学成果传统上的源泉。这在理论上,在统计学中,在历史上都是肯定的。对数学,实际上目前的研究看起来是不会比例地被数学本身的内部发展所推动。我们希望数学家能发现他们自己学科的历史有说服力,科学研究的哲学幽灵有刺激性,因而统计学的范例是有用的。
四、合作能否实施
我们已看到在理论上有合作的坚实基础:
●当数学课程的需求是必须时,统计研究生课程需要数学本科生课程。
●尽管有智力上的区别,数学和统计学都依赖于从具体到抽象的工作过程,并且能在把这一过程讲授给学生时从对方的成功与失败中互相学习。而且由于统计学家更早地在课程设置和教学法上面对使用计算机的挑战,数学家可以从他们的经历中获益。
●统计学可以在它与计算机科学接壤的特别受到威胁的研究和实践中公开地接受数学思维的重要性而获益。
●同时数学可以从过去三十年中,计算机科学把统计学的活力重新指向统计在应用科学中的根基的经历中获益。数学类似的方向改变将与它在十九世纪时与其它科学联系的历史相协调。
在实践中合作能行得通吗?数学在Rochester大学近来的经历([13];[14],[15])给人一些鼓舞。数学组织上的实力,通过美国数学会(AMS)的Rochester特别工作组(Task force),在把数学系面临取消博士生课程和削减50%教员的威胁中挽救出来的过程中扮演了一个有影响的角色。妥协的数学系“复兴计划”的关键产生于大学校长所描述的[13]“数学系教员和管理机构之间以及数学系教员和其它系同事之间一系列前所未有的对话。这又导致物理和天文系保证通过联合任命职位和增加数学教员人数来加强本科生教学以及与其它系的联系来促进两系的联系……”。
在本节的余下部分我们举出两组有关数学与统计学间合作的评论,第一组详述某些好的开端,然后建议一些有希望的发展方向。
好开端 专业学会间的合作能够有助于填补文化差异,并使数学和统计学从它们互补的实力中获益。美国统计协会(ASA)和美国数学协会(MAA)之间的牢固合作关系已经是显而易见的。
●联合委员会 1992年MAA和ASA组织了一个本科生统计学联合委员会。这个组织做了有益的事情,并且MAA的统计学家做得更多;从事统计教学的数学家的专题讲座,MAA出版的、游说各系按MAA的大纲进行适当统计教学的统计学书籍。MAA对其统计学家成员所关心的事一般都是接受的。
●SIGMAA等 ASA有一个活跃的“离群的统计学家组”,他们支持统计学家在缺少统计学同事的数学系中做教学工作。活动包括在联合统计会议和其它地方的会议以及一个活跃的网上服务人名表(isostat@oberlin.edu)。现在MAA组织了一些与ASA分部门类似的有特殊兴趣的组SIGMAAs (special interest groups),SIGMAA的统计教育部是首先建立的组之一。
●纲领 MAA的本科数学科学课程设置和系科安排的大纲可以极大地影响数学系中如何对待统计学家和统计学的课程设置。例如它敦促人们把咨询看成学术工作,并且强调统计及其它更广一些领域上的教学应由这一领域中受过良好教育的教员进行和指导。接受MAA的这些建议将是改变文化素质中的重要一步。
●年会 ASA/MAA联合委员会对在联合数学大会上更多地发表统计演讲是有贡献的。MAA一直欢迎召开统计分会议和短训班课程,并且在过去的几年中既有满座的与统计教学有关的小课程又有满座的填满六小时散布在三天里的分会论文报告会。
对未来的建议 对MAA,联合代表数学行业的AMS和MAA,或共同工作的数学和统计学会,我们提出以下建议来发展我们大有希望的开端。
●教好统计学 考虑以下这些从类似的系得到关于接受两个“好的实习”的初等统计课注册人数的百分比数据[19,p.71]:
初等统计课(1995)
可授予博士学位的数学系 可授予博士学位的统计系
具有终身职位的教师
29% 46%
计算机作业 42%
61%
统计系的成绩没有什么可值得骄傲的,但是数学系和统计系之间的差距是明显的。统计课几乎是数学系课程中唯一正在增加的。自身利益提示它应得到更多的关注。
ASA/MAA联合委员会在此起了带头作用;见它的报告[1]。ASA的理事会一致批准了指导如何开始讲授统计学的短文。我们希望MAA也仔细考察这个问题。由于数学系比统计系作更多的统计教学工作,在数学系如何教统计学对统计学家有很大的利害关系。数学系应当为满足它们现在迅速增加的客户的需要而提供以数据为中心的现代初等统计课程。
●本科生课程 如果说统计课在引起更多学生的兴趣以及AP统计课的迅速发展有望引起更多的兴趣,那么下一步就是建立一套本科统计课程。在除了可设立完整本科生统计主修课程的大学校里,重点可放在从几个学科抽取定量成份所形成的集中于统计学的交叉学科。数学系可以在其本校校园里领头,而ASA和MAA可以合作提供有思路的指导。
●咨询和联合任命 统计学家已经知道如何组织和资助有成效的咨询服务业务,而且在统计系里联合任命是很普遍的。咨询服务是统计系与它的大学结合得如何的一个好指标,这是因为咨询服务不仅为许多学科服务而且几乎不可避免地导致合作研究,没有独立统计系的大学常常把开始咨询服务的机会留给数学系。数学系的统计教员可能是首先招揽生意的,但是数学的许多领域是与其它学科领域学者的工作有关的。当然系里必须愿意把校园内外的咨询看成学术工作,这对许多数学家是态度的转变。
●研究和研究生教学大纲 现在统计研究生教学大纲和六十年代的教学大纲已大不相同了,更加强调计算、方法和应用的研究。大多数统计学家把“应用研究”理解为应用到某种具体的对象上;这不是数学界的传统理解。许多数学家反对“更多的交叉学科研究和相应的更广泛的研究生教学大纲”(借用AMS专业委员会的用语)因而为成为另一个哲学系铺平道路。由于学科有不同性质,较少数的研究顶尖的数学和统计系的文化可能有很大区别。其中先进的统计系已经有很强的有关方法和交叉学科研究的教学大纲。而相应的数学系,大多在有独立统计系的大学里,倾向于把重点放在基础数学。其他的数学系,特别是那些没有独立统计系的大学里的数学系,可能觉得把研究生教学大纲集中在统计学、运筹学以及应用数学上更诱人,他们的研究生教学大纲自然将不会沿着先进系的道路演化。AMS继续作讨论以使那些企图不仿效少数先进研究大学的研究生教学大纲合法化,这将是值得欢迎的。
●出版物 分散的数学和统计学会可能不具备成功建立在线出版物的新环境的规模,而这种环境对能向图书馆提供大量杂志和其它出版物的可搜索档案的组织是有利的。探索学会间合作的可能性势在必行。
●年会 如前述,一个好的开端已产生了,但还有更多的事要做。一月份的联合数学年会是寻找工作面试的自然场合,因而它们对寻找学术就业机会的统计学家和寻求雇用统计学家的数学系都是重要的。八月联合统计年会不能起这种作用。这两种主要会议的时间安排表明数学基本上是一个研究学科,但统计学不是。在此ASA可以不组织活动而作贡献:它应鼓励大家参加数学会议而不是象以往人们建议的那样组织一个冬季统计会议。AMS和MAA可以做更多的事填补由于一月份没有ASA会议对统计学家造成的真空而给ASA的不组织活动以弥补。
●最后的要求 在向数学家提出几个要求之后,我们以对学术界统计学家的一个简单要求结束:参加MAA为了在外来文化中成功和改变外来文化,移民必须至少部分地愿意同化。
五、结论
数学作为一个基础学科显得内向,而且面临日益被认为无关紧要的危险。统计学作为一个方法论学科显得外向但面临被信息技术吞食的危险。这两个行业都与统计学能否依靠数学提供的知识和结构而生存下去利害攸关。对于数学,统计学不仅提供了一种外向的文化而且让数学研究进入到成熟的新问题中。对于统计学,数学不仅提供了组织实力的安全港,而且提供了智力的锚地:数学理解是把统计思维与大部分的其它信息技术区别开来的本质部分。数学和统计学专业组织间日益增加的合作可以引导团体及其成员以及他们的学科朝正确方向前进。