“新课标”理念下高中概率和统计内容的定位和教学,本文主要内容关键词为:概率论文,新课标论文,理念论文,高中论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
概率和统计已经成为高中课程中的重要组成部分.在新的课程标准中又有所增强,特别是以案例的形式增加了统计的内容,开设了“风险与决策”的选修专题.但是,这一部分内容教师掌握的往往不够到位.本文结合新课程标准的必修部分,谈谈高中课程中概率和统计内容的定位.
一、统计
目前中学已经开设了统计课,从内容上看好象并不困难,但教师讲起来却不得法.问题在于教师只关心个别的知识点,而缺乏对统计这一学科的整体把握.不清楚统计这学科是做什么的.
统计学最关心的是:我们的数据能提供哪些信息.也就是说,这些数据能告诉我们一些什么.具体地说,面对一个实际问题,我们关心的是(1)如何抽取数据.(2)如何从数据中提取.(3)所得结论的可靠性.
只有把握了总的目标才能讲好每一个概念和方法.
教材中关于‘统计’的部分给出了总体,样本的概念,介绍了随机抽样,分层抽样,系统抽样的方法.结合初中的内容讲解了统计图表的制作和样本的数字特征:平均数,中位数,众数,极差,方差,标准差等(其中只有茎叶图和标准差是新增的内容).还讲了分布的估计和回归分析.下面谈几个问题.
1.抽样
抽样讲的是如何搜集数据.由于我们希望得到的数据能客观地反映实际的状况,所以采用随机的抽样.这是关键所在.应该让学生很好地理解这一点.比如要了解某地区18岁男孩的身高.若这些男孩中一米九以上的有千分之一,随机抽样使每个男孩被等可能抽到,因此,抽到一米九以上的可能性也是千分之一.若这些男孩中一米六到一米八的占百分之七十,那么抽到男孩身高在一米六到一米八之间的可能性也有百分之七十.随机抽样能使得样本中不同身高的百分比和总体中的百分比近似相同.换句话说,随机抽样的样本能很好地反映总体的状况.如果不把这一点说清楚,只单纯地介绍三种抽样的具体操作方法就讲偏了.
另外,我们关注三种抽样方法的差别和不同的适用范围.例如,系统抽样通常比简单随机抽样简单,在田野上考察害虫的个数,通常就是从任一地点出发,每隔相同的距离测量害虫的个数.但如果考察马路上的车流量,每隔几天记录一次,若选择不当,例如,每七天测一次,恰选在了星期日.就会造成错误的结果.同样在分层抽样中,如果分的不当,同一组内个体相差太大,结果也会有偏差.在给中学生讲授时,应讲清这些,而不是单纯地讲方法.从统计上说,理解这些比方法本身更重要.
作为教师应该清楚不同的抽样方法得到的是不同的数学模型(样本的分布不同).在数学上处理起来有难易的差别.最常用的假定是:样本是独立同分布的(粗略地说,独立是指每次抽样和前面的抽取无关,不能因为这次抽到一个男孩身高较高,下次就故意去找一个身材较矮的.同分布是指,若第一次抽到一米九以上的可能性是千分之一,那么第二次抽到一米九以上的可能性也是千分之一,等等).即假定抽样是有放回的,这是实际问题的一个近似.还应该让学生关注的是:实际问题中的样本是否是随机的.例如,一些心理学实验是由志愿人员完成的,可能缺乏代表性.一些数据只来自某个学校或某个医院,并非随机抽样等等.作为基础教育让学生认识到,由于缺乏随机性,报刊杂志等提供的数据以及由此产生的结论可能产生误导.这是十分重要的.
2.整理数据和画统计图表
我们抽取到的数据是杂乱无章的.从这些数据中能得到什么信息?对数据进行整理和画统计图表,其目的是为了能从数据中得到信息.教师在讲授时不应只让学生掌握方法(方法都不困难,但有的教师把这部分讲成了如何画图表.)而应侧重于说明如此整理数据后(或某一统计图表),能告诉我们何种信息.还要让学生理解不同的整理方法,不同的图表的特点.例如,把学生的学习成绩从小到大排列,并把相同分数的归为一类.这样可列成一个表或画出一个散点图.从该表(图)我们很容易得到如下信息:学生的最高分,最低分是多少,不及格的有几个人,得到任一分数,例如85分的学生人数,等等.但是,当我们处理的数据是连续变量,例如某种产品的重量,这种方法就不方便了.当数据很多时该方法也不方便.这时人们常用直方图或只给出某一范围内的数据个数.例如,得分在80分到89分之间的学生人数,等等.这是更常用的方法.但它是以丢失一部分信息为代价的,即由直方图人们无法恢复原来的数据.当然丢失的数据可能对我们要处理的问题没用.在这部分教学中应从得到信息的角度出发,分析各种方法和图表的优劣,并鼓励学生自己给出新的方法.事实上,人们仍在不断地创造新的方法,如新的高中课程标准中介绍的茎叶图.
3.数据的数字特征
除了对数据进行整理外,人们还用这些数据生成一些新的数,用它们来反映这组数据的特性,给出我们需要的信息.比如平均数,中位数,极差,标准差等,有人把这部分内容讲成了数据的加减乘除和它们的简便算法,这是不对的.应该清楚的是,这些数字特征的作用和意义.比如平均数,它反映了‘中心’位置这一重要信息.在许多情形下,人们关心平均数胜于关心所有的数据.对农作物常常只关心平均亩产量,而不太关心具体的某一亩的产量.不关心某一具体男孩的身高,而关心18岁男孩的平均身高,等等.应该注意的是,平均数尽管比具体的某一数据重要,但它显然不能和数据整体来相比.平均数是由全体数据确定的;反过来,仅仅知道平均数是无法决定这组数据的.教师应该让学生认识到这些数字特征反映信息时的优劣,即它们的不同适用范围.例如,在一些比赛中常常会出现‘去掉一个最高分,去掉一个最低分’再求平均的做法.这个方法的好处是,可以防止个别偏差大的数据造成的影响.但其代价是,损失了两个数据.而我们知道数据越多,平均数反映的信息越准确.因此,到底采取哪一种方法应根据具体情况而定.也许应该‘去掉两个最高分,去掉两个最低分’或者去掉三个四个最高分最低分,这样一直下去最终就变成了选取中位数.学生应能比较平均数和中位数的优劣,极差和方差的优劣等等.
4.结果的随机性
统计中‘总体’,‘样本’的概念,直观上不难理解.但要深究起来并不简单.比如在检查某厂的产品时,我们说的‘总体’通常并不仅仅是厂中堆放的产品.因此,‘总体’在统计中被定义为一个分布.‘样本’也一样不好理解.在中学教学中教师不应该,也不必要引导学生去探究这些概念的确切定义.只需给出直观的说明.重要的是要让学生认识到,样本是总体的一部分.因此,由样本得到的平均数、方差等等,都不是总体的平均数、方差等等.这个区别十分重要,要让学生认识到样本的随机性.也就是说,两个人用同样的方法处理同一个问题时,他们抽样的结果一般是不同的(同一个人做两次,抽样的结果也不会完全一样).因此,由不同样本得到的结果也不会相同.换句话说,结果有随机性.下结论可能会犯错误.要让学生认识到,尽管结果可能犯错误,但统计的推断还是有意义的.作为教师应该清楚,样本随机性产生的误差是可以估计的.也可以估计由此犯错误的概率.这和样本抽取不当以及故意制造误导产生的错误是完全不同的.
5.线性相关性
在统计中,回归分析和相关分析是应用最广的.在教学中,重要的是,要让学生理解这里讨论的相关关系和过去学的函数关系的区别.另外,应要求学生自己探索回归直线的求法.在统计中,重要的是寻找好的方法,而不是套用公式计算.从历史上看,欧拉等许多大数学家都曾为寻找这一直线而努力,最后,由勒让德提出了最小二乘法.套用公式计算回归系数,对学生来说都不困难.但更应该让学生关注方程的意义和合理性.例如,在新课程标准的选修中才讲相关系数(回归分析在选修1、2中,还要讨论),但可以适当提示回归系数计算的‘不合理性’:如果在圆上取一组点,仍可套用公式得到回归直线方程,这样的直线显然是没意义的.
6.统计案例和选修中的统计
新课程标准要求通过大量的实际案例来讲授统计.希望学生通过实际问题的解决来理解统计的思想.而不是死背公式和概念.要求学生掌握解决统计问题的全过程.教材应提供丰富的案例.这是整个中学统计的一个指导思想.
总之,在‘统计’教学中不应该单纯地讲授图表的制作,数字特征的计算,机械地套用公式.而应该从提取信息的角度比较各种方法的优劣,了解它们的适用范围.让学生体会用统计方法处理问题的全过程(抽样、整理数据、提取数字特征、给出统计结论、对结论的讨论).
二、概率
过去中学的概率课,把重点放在用排列组合计算古典概率上,而忽略了对概率本身的理解.学生学完后,并不能很好地认识周围发生的随机现象,如天气预报,彩票中奖等.在现在的标准中,更强调对随机现象的认识.下面谈几个问题.
1.概率的定义
首先应该明确在数学上概率是用公理化的形式定义的.各种教科书中出现的‘概率统计定义’,‘古典概率定义’,‘几何概率定义’都是一些描述性的说法,教师不应该过分地去揣摩,探究那里的用语,而应理解其实质.概率的概念笼统说并不难,但若深入到理论或哲学中去讨论,问题就有一大堆,不是中学(甚至也不是大学)数学课程需要讨论的.
在这里扯得远一些,谈谈对数学上‘定义’的一些看法.我不想谈数学中给出定义的必要性,它的作用和意义.每一个数学老师对此都清楚.我想谈的是相反的一面,也是我认为有些问题的地方,即过分地追求定义,过分地探究书中的词语,而忽略了对整体精神的把握.
对任何一个概念的定义,都需要用到一些词语.而严格说,这些词语仍需要定义.定义这些词语又需要用到另外一些词语.因此,这是一个无限上推、无法完成的任务,除非在某一处停下来.换句话说,必须有一些不加定义的词语,以此为出发点来讨论问题.提出这一点是为了认识定义.有人以为凡是没定义的都是不严格的,只有给出了定义才严格.这种看法是不全面的.其次,有些定义即使有,对许多人来说也是不必要的.大多数科学家并不需要了解实数的理论(实数的严格定义),大多数数学家也不需要掌握用皮亚诺公理给出的自然数定义.严格表述尽管重要,但数学中最重要的活力来自于它的问题,思想,来自人们的探索,猜想,分析.
概率的统计定义通常可以这样叙述:在相同的条件下做大量的重复试验,一个事件出现的次数k和总的试验次数n之比,称为这个事件在这n次试验中出现的频率.当试验次数n很大时,频率将‘稳定’在一个常数附近.n越大,频率偏离这个常数的可能性越小.这个常数称为该事件的概率.
我们要清楚上述定义只是描述性的.事实上它有循环定义之嫌.因为定义中出现了‘可能性’.这指的就是概率.(类似地在古典概率定义中通常出现‘等可能性’).你可以设法避免这类词出现,但其本质的意义无法避免.有些人去探讨‘试验’等词的定义.事实上,‘做一次试验’并不难理解.如扔一个硬币,摸三个红球,取十个产品等等.个别复杂的试验也不难向学生解释.把‘做一次试验’定义为‘条件实现一次’,反而更难让人理解.什么叫‘条件’?什么叫‘实现’?这显然是不恰当的.何况‘试验’根本不是数学中的名词.
对这个定义应该从整体上把握,重要的是掌握以下几点:
(1)我们所讨论的现象是可以做‘重复试验’的.并非所有不确定现象都是概率论研究的对象.例如,本拉登是否还活着,某某人今天脸色不好是否不高兴,等等.这类问题没有重复试验的意义,属于人们的主观猜测与愿望.尽管人们有时也说:‘十有八九他不高兴’,‘我认为拉登活着的可能性只有百分之十’.这被称为主观概率.对主观概率的研究并非没有意义,但并非我们概率论研究的对象.概率论描述的是可以重复试验的模型.另外,结果的随机性不同于结果未知.比如,至今人们还不知道哥德巴赫猜想是否成立,但这没有任何随机性.‘重复试验’是批发条件相同下的试验,严格说在现实中两次试验条件完全相同是不可能的,这里给出的是数学模型,至于现实中哪些问题能用这个数学模型来近似描述,这是另一个问题.
(2)频率和概率的关系.频率是随机的,是这n次试验中的频率.换另外n次试验一般说频率将不同,而概率是一个客观存在的常数.
(3)概率反映的是‘多次试验’中频率的稳定性,学生往往错误地把‘概率等于二分之一’理解为‘两次试验中出现一次’.应给予纠正.
(4)出现频率偏离概率较大的情形是可能的,这是随机现象的特性.在概率的教学中.对一些学生容易产生误解的地方,有人建议用试验的办法帮助学生理解,这当然是很好的.例如,在讨论抽签与抽取顺序无关时,就可以用试验模拟.但必须注意到频率偏离概率大的情形.例如,扔一百个均匀硬币,一面出现41个,另一面出现59个,是不奇怪的.对此教师应有充分的认识.
2.事件的互斥和独立
在中学概率的教学中,事件的互斥(互不相容),互逆(对立),独立,常常被重点讨论.就实质来说,互斥,互逆不是概率论的概念.它们的定义和概率无关.这里最重要的概念是事件的独立性.独立的概念在选修课中才出现.并不需要在这里系统讲授.但是,独立的概念其直观意义并不难理解.教师结合学生日常生活中特别容易产生误解的问题,可以给予说明.例如,在买彩票时,有人说过去中奖的号码里某一数码,比如‘5’出现最多,‘5’是幸运码,应该买‘5’这个号码.也有人说某一数码,比如‘7’,在过去出现最少,由于每个数出现的机会是一样的,因此,下次‘7’出现的机会就大了,应该买‘7’这个号码.这些说法很迷惑人.但是,如果能认识到每次抽奖都是独立的(严格说,每次抽奖都应该用一套新的球,和以前用过的球无关,除非能保证用过的那套球没有任何磨损,使得每个球抽到的机会仍相同,例如,可以设想有一系列口袋,每个口袋中都放有36个均匀的球.每次开奖选择一个口袋从中摸球,这个口袋用过后就不再用了.那么学生应该不难理解,每次摸奖时数‘5’,‘7’出现的可能性和以前口袋中摸出的球的状况无关.),那么不难看出上述的说法都是错误的.类似地,把一个均匀硬币连续扔十次,‘第一,三,五,七,九次是国徽面向上,第二,四,六,八,十次是国徽面向下’这一事件,和‘十次都是国徽面向下’相比,有些人总认为前一个事件国徽面向上、向下各出现五次,其发生的概率大.但如果认识到,每次扔硬币都是独立的,就知道它们的概率都相同.教师应通过这样一些具体问题的讨论让学生加深对随机思想的理解.
对公民的随机思想和统计思想的教育,在我国过去是比较缺乏的.一般人中常会有许多错误的认识,有些在心理上是根深蒂固的.即使学了一些概率统计知识,也不会一下就解决问题.例如,在前面讲到的摸奖问题中,当一个人买彩票时,尽管他知道了每个数出现的机会相同,但既然总要选一些数,他在心理上还会愿意选取数‘5’,‘7’.又比如他学过概率课后,知道抽签与顺序无关.但在实际生活中,碰到抽签的事,他还是拼命地抢,争取先抽到.因此,培养学生的随机意识是一个长期过程.在我们的教学中要特别强调这一点,而不要把概率统计讲成单纯的计算.
3.古典概率模型
需要明确的是古典概率是一类数学模型,并非是现实生活的确切描述.扔一个硬币,可以看成只有两个结果:‘国徽面向上’和‘国徽面向下’.每个结果出现的可能性相同,从而符合古典概率的模型.但现实情况是,硬币可能卡在一个缝中,每一面既不向上也不向下.另外,硬币是否均匀,也只能是近似的.又比如,把两个球放入两个盒中,每盒放球数不限.当球、盒都可以分辩时,有四种结果;当球不可分辩而盒可以分辩时,有三种结果;当球、盒都不可分辩时,只有两种结果.如果认为出现的结果是等可能的,就得到三种不同的古典概率模型.它们没有对错的问题.这和现实状况无关.正如欧氏几何与非欧几何没有对错的问题一样.至于现实中的一个具体问题适合用哪一个模型来描述,这是另外一个问题.(在人们的日常生活中,通常采用球盒都可分辩有四个等可能结果的模型.但对电子和光子在空间的分布,这个模型却不合适,应采另一种模型.)
同一个现实对象可以用不同的模型来描述.例如物理上,地球有时被看成是一个质点(在研究天体运动时),有时被看成椭球(飞机的航程),有时被看成平面(人在地面行走时).在这里同样如此.同一个问题可以用不同的古典概率模型来解决.比如,扔一个均匀的骰子,求‘出现偶数点’的概率.可以认为试验有六个结果,其中有三个结果的发生出现偶数点.因此,该事件的概率是六分之三.但也可以认为试验只有两个结果(比如可以想象把三个偶数点的面涂成黑色,把三个奇数点的面涂成红色).因此,该事件的概率是二分之一.两个不同的模型解决了同一个问题.后一个模型更简单.但用它无法求出‘扔出三点’的概率.两个模型各有优劣.有些人对此不太清楚.比如,从五个黑球四个白球中任取三个,求‘取到两个黑球,一个白球’的概率.对此题我们既可以有顺序地抽取,也可以在抽取时不考虑顺序.两个不同的模型都能解决这一问题.有人认为后一种作法是错误的,这是不对的.完全可以用不同的模型.但如果要求的结果和顺序有关,比如,求‘第二次取到黑球’的概率,则后一个模型就不能用了.
在古典概率的问题中,关键是要给出正确的模型.一题多解体现的恰是多个模型.而不应该在排列组合上玩花样,作难题.习题应给出数值解,让学生能看到概率的大小,根据实际问题体会其意义.
4.随机模拟
在高中教材中,应对模拟的思想给予特别的关注.这个思想十分重要.典型的例子是计算平面图形的面积.事实上,许多不能用数学公式描述的问题,都可以通过模拟来实现.例如,可以让学生在超市收银台前,记录每分钟到达的人数.从而得到到达0个人的频率、以达1个人的频率、…….再记录每个人被服务的时间.得到服务不足1分钟的频率、服务不足2分钟的频率、…….然后,可以通过模拟再现收银台前顾客来到的状况.这对超市管理十分有用.
5.概率的应用
知道了事件发生的概率,有什么用?这问题有时会令人困惑,例如,如果我知道了某厂产品的次品率是千分之一,却完全可能买到次品.知道彩票中奖率是百分之一,买一千张仍可能一张也不中奖.既然如此,知道了事件发生的概率有什么用?
问题的出现在于,人们仍然想在事前能预料出结果.以为不如此则一切均无意义.其实不然.设想有两个工厂生产同一产品,甲厂的次品率为千分之一,乙厂的次品率为十分之一.若两厂的产品在价格等其它方面条件都相同,这时人们愿意买甲厂产品而不是乙厂产品.尽管你可能买到甲厂的次品,而买乙厂产品的人可能买的是正品.具体的结果事前无法预料,但人们还是会认为买甲厂产品好.类似地,如果天气预报说,‘明日大雨的概率是百分之八十’,‘带雨具出门’和‘不带雨具出门’相比,前者是更明智的选择.尽管明天可能根本不下雨.
在买甲、乙两厂产品的问题中,我们只能保证当有许多人去甲、乙两厂买产品时,平均来说,买甲厂产品的人买到的正品多次品少.对具体的某一个人来说,无法保证他买甲厂产品时买到正品.如果你是一个卖晚报的,不论你批发进多少份报纸,都无法保证今天你的利润最大.只能要求每天的平均利润达到最大.在确定性现象的优化问题中,人们要求取得最大值或最小值.例如,利润最大,成本最小等等.在随机决策中,我们只能要求平均利润最大,平均成本最小等等.就某一次具体的交易来说,采用使平均利润最大的策略,并不能保证比不采用该策略的利润大,完全可能利润还小.但它保证多次采用该策略能使平均利润最大.因此,它确实对人们的活动有着指导意义.
在新课程标准选修4中有一个专题“风险与决策”.专门讨论这类问题.
6.分布的重要性
在概率论中,最重要的概念是分布.作为中学教材的整体,教师应对分布、均值、方差的意义有一定的了解.分布的具体讲授,教师应没有困难.这里不再多说.下面谈谈为什么分布那么重要.
概率论是研究随机现象的.随机现象有两个最基本的特点,粗略地说是:(1)结果的随机性;(2)频率的稳定性.‘随机性’是指,重复同样的试验时,所得结果并不相同,以至于在试验之前无法预料试验的结果.‘稳定性’是指,在大量重复试验中,每个试验结果发生的频率‘稳定’在一个常数附近.
什么叫做把一个随机现象研究清楚了?这是一个令某些人感到困惑的问题.任何一种研究总是把未知的、不认识的事物,逐渐变为已知的、可以认识的事物.于是,有人错误地以为对随机现象的研究,将使事前无法预料的结果最终变为可以预料的结果.甚至期望摸彩票能中奖,赌博能赢钱.殊不知随机现象特点就在于事前无法预料其结果.无论你如何研究、分析都不会改变这一特点.(除非你发现它不再是随机现象,从而不再是概率论研究的对象.)换句话说,掌握了随机现象的规律并不意味着改变了‘结果的随机性’.
因此,‘了解’一个随机现象是指,知道
(1)这随机现象中所有可能出现的结果;
(2)每个结果出现的概率.
知道了这两点,就说对这随机现象研究清楚了.我们不可能了解得比这更多.
对于给定的随机现象,首先要描述所有可能出现的结果.在数学上处理时,一个常用的、很自然的做法是:用数来表示结果.即把每个结果对应一个数.例如,在观察天气时,可以用‘0’来表示晴天,‘1’表示阴天,等等.当然这种表示完全是任意的.你完全可以用‘0’来表示阴天.在大多数情形,其结果本身就是用数量来刻画的.例如,产品的重量,旅客的人数等等.这样做的结果,从数学上讲就是,建立了一个从试验结果的集合到实数集合的映射.这个映射称为随机变量.因此,所谓随机变量就是‘把每一个结果用一个数表示’的数学说法.
一旦给出了随机变量,即把每个结果都用一个数表示后,了解随机现象,就变成了解这随机变量所有可能的取值和取每个值的概率.
如果这随机变量的取值是离散的,不难看出,了解了它的分布列就了解了这随机变量的所有取值和取值的概率,从而了解了这随机现象.换句话说,分布列完全描述了随机现象的规律.(对连续性随机变量讨论是类似的,这里略去.)
从这里我们可以看到分布的重要性.了解随机现象就是要了解分布.
人们面对着形形色色的随机现象,有着千差万别的分布.如何去研究它们呢?我们采用的方法类似于几何中对三角形的研究方法,即不是对一个个具体的三角形进行研究,而是采用分类的办法,对一些重要的类型,如直角三角形、等腰三角形等加以研究.这十分有助于讨论一般的三角形.同样,在研究分布时,人们也是讨论一些最常见、最重要的分布类,如二项分布(类)、超几何分布(类)、正态分布(类)等等.尽管这些分布无法覆盖住各种各样的随机现象,但它们描述了随机现象中最有用最常见的情形,十分有助于我们对一般随机现象的理解和讨论.
7.随机变量的数字特征(均值,方差等)
首先应该让学生清楚数学期望,方差等都是数.它们没有随机性.(分布也是如此).它们是用来刻画随机现象的.(这和样本的数字特征:样本均值、样本方差等完全不同,样本数字特征是随机的,它们是用来估计随机变量的数字特征的.)
我们知道分布完全描述了随机变量的规律.从而它也完全确定了随机变量的数字特征(这由这些数字特征的定义即可知道).反过来,仅仅知道数字特征是无法确定分布的.从这个意义上说,分布远比数字特征重要.
数字特征的重要性在于,它们有非常明确的含义,反映了随机变量的重要信息.在许多情形,人们往往不需要知道随机变量的分布,只需要知道它的数字特征.例如,考察某一县的小麦产量,通常并不关心小麦亩产量六百二十斤到六百三十斤有多少,六百三十斤到六百四十斤有多少,等等.只关心该县的平均亩产量.另一方面,人们有时求不出随机变量的分布,退而求其次,只能设法求其数字特征.在求分布时,往往是先求出分布所在的类,然后再确定参数,而参数通常都是由数字特征决定的.
数字特征的计算和性质,教师处理起来都不困难,就不多说了.
标签:数学论文; 随机变量论文; 概率分布论文; 统计模型论文; 概率计算论文; 描述统计论文; 产品概念论文; 新课标论文;