R软件在工科概率论与数理统计教学中的应用
吴剑 钱进
摘 要 :智能制造是工业发展方向,为了适应“大数据”时代人才培养的需求,在学习《概率论与数理统计》的理论知识之外,让工科本科生具有基本数据分析的能力,使用R软件对概率论与数理统计部分的理论进行模拟,对数理统计的数据进行可视化,对学生理解理论、培养学生读懂数据有重要的意义。因此本文初步探讨使用R软件进行概率论数理统计的辅助教学,为进一步课程的深化改革提供参考,目的是把《概率论与数理统计》打造成有难度的“金课”。
关键词 :R语言;回归;数理统计
一、 引言
概率论的理论基础可以按照其他大学数学课程的学习方法进行学习,而数理统计是应用科学的基础,当数据较大时,需要借助统计软件去模拟,及实现数据的可视化,因此使用统计软件辅助概率论与数理统计教学,让工科的学生更好地掌握概率论的理论,懂得统计学的方法及简单的应用是重要的。
至于形成这个特权阶层的原因,笔者认为,阿尔巴托夫提出的分析是很有道理的。他说:特权阶层的形成,“这是斯大林故意采用的政策,目的在于收买党和苏维埃机关上层,使其落入某种连环套之中。这是一种路线,旨在借助于直接收买,借助于灌输丢掉职位就丢掉特权,失掉自由甚至生命的恐惧思想,从而保证官员们绝对听话,并积极地为个人迷信服务”[33]312。
R语言是专业的统计软件,是统计计算、数据可视化的优秀工具,同时R也是免费开源的软件,其官网和镜像网站中可以下载安装程序、源代码和程序包等,它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活地利用这些函数进行数据分析,甚至可以通过不同方法的组合,创造出符合需要的新统计计算方法。
股东大会召开:长航凤凰、哈工智能、长安汽车、天夏智慧、视觉中国、恒逸石化、漳泽电力、北京文化、大庆华科、苏泊尔、利欧股份、中核钛白、鸿博股份、皇氏集团、赛象科技、维信诺、杭氧股份、嘉事堂、雅化集团、首航节能、奥瑞金、木林森、凯龙股份、通宇通讯、吉宏股份、恩捷股份、高争民爆、裕同科技、赛隆药业、青松股份、三盛教育、掌趣科技、德威新材、合纵科技、名家汇、凌钢股份、重庆港九、红豆股份、通威股份、蓝光发展、中化国际、天富能源、康恩贝、益佰制药、宁波富达、京能置业、常熟银行、长城汽车、亚邦股份、华扬联众、百利科技、恒润股份
使用计算机语言辅助大学数学的教学相关研究较多,韩海燕介绍了使用Matlab软件对《概率论与数理统计》课程进行辅助教学,它主要利用进行图形可视化和数学运算。江海峰研究了蒙特卡洛模拟在概率论与统计教学中的应用,作者分析了该算法的应用,并没有介绍如何实现,也没有介绍使用的软件。刘宣研究了R语言在大学数学教学中的应用。因此对于工科概率论与数理统计课程的教学者,亟须把统计软件应用到教学中,并发展案例教学的方法,让学习者更好的理解统计学的基本概念,懂得如何进行数据处理。
二、 R软件的模拟应用
工科的《概率论与数理统计》课程中,中心极限定理是概率论中重要的定理之一,其定理叙述如下:x 1,x 2,…,x n 是独立同分布的随机变量,期望μ 与方差σ 2都存在,设部分和序列为则对于任意的实数x ,标准化部分和序列的分布函数F n (x )收敛到标准正态分布的分布函数,
在线性回归中,最小二乘法及回归的计算相对复杂,解释困难,因此利用实际数据,配合图形讲解回归的方法是让学生快速掌握方法的较好途径,采用如下的模拟方式,假设真实的模型为
假设x 1,x 2,…,x n 服从参数为2的泊松分布,n =10000,计算其前n 项部分和,并中心标准化,计算并模拟100000次,利用这些数据生成概率密度函数的估计,模拟的结果可视化的形式呈现给学生。
货物丢失也是投诉中比例较大的。经常可以在一些报纸或新闻中看到快递公司丢失货物的消息,有的甚至连公司也不知道是在哪一个环节丢失的,这方面的投诉也越来越多。当前很多快递企业在对待用户的物品损坏或者丢失的投诉时,总喜欢以“能推就推,能拖就拖”的方式处理。前段时间身边的一个例子,快递公司说快递已经丢失,结果第二天又找到,还不肯送,造成这样的问题,还是自身素质存在缺陷。
使用核概率密度函数估计,可以看出虽然给定的变量是泊松分布,但是标准化部分和序列的概率密度与标准正态的密度的形状相似。
三、 R软件线性回归的演示
该定理文字解释很直观,即某个随机现象由大量随机因素组成,各个因素起到的作用均匀且可忽略,则这个随机现象可以用正态分布去描述,但是学生很难理解为什么随机变量序列只要求独立同分布,而不要求服从具体的分布,即无论服从什么分布,标准化部分和序列都服从正态分布,因此我们使用蒙特卡洛模拟,给学生直观的认识。
Y i =a +bx i +ε i ,i =1,2,…,100,ε i ~N (0,σ 2),取σ 2=1,2,3三个不同噪声等级下,a =2,b =3观察回归的效果。再取误差服从t (4),观察在有异常数据点下最小二乘的效果,利用一条直线拟合这些数据,使得这些数据距离直线的平方和最小,即是最小二乘的思想,随着信噪比不断地增加,数据的离散程度越来越大,模拟中还引入了厚尾的t 分布,探索最小二乘估计的稳健性,从表1中可以看到,随着数据的离散程度越来越大,估计10000次的中位数与真值的距离越来越大,同时也关注R 2的取值越来越小,意味着拟合效果越来越差。从误差为t 分布的模拟结果和回归直线可以看到,最小二乘回归对异常数据点的影响是敏感的,因此可以适当探索其他的回归估计方法。
表1 回归的结果
四、 总结
由于工科学生动手能力较强,抽象思维能力相对理科学生较弱,因此适当的利用统计软件进行模拟研究,把结果直观演示给学生,对学生掌握该方法提供了直观的解释。对于统计软件的辅助作用就是更直观地把数据及统计方法呈现给学生,更好地理解理论的推导和应用,理论和应用相结合,培养工科学生实践能力和创新能力。
参考文献 :
[1]韩海燕.MATLAB软件和概率论与数理统计教学的整合研究[J].科技信息,2011(14):202.
[2]江海峰.MCS在概率论与数理统计教学中的应用研究[J].数理统计与管理,2008,27(4):740-747.
[3]刘宣.基于R语言的大学数学教学初探[N].福建师大福清分校学报,2015(5):45-48.
作者简介 :
吴剑,钱进,辽宁省沈阳市,东北大学。