R软件在统计学教学中的应用
——以因子分析模型为例
刘君娥
(淮北师范大学管理学院,安徽淮北 235000)
摘 要: 在本科专业“统计学”课程教学过程中,对大学生的大数据处理能力的培养是一个薄弱环节。本文以因子分析模型为例,探讨R软件在统计学教学中的应用。通过R软件的案例教学,激发本科生的学习兴趣,提高他们的数据处理与分析能力,进一步彰显培养应用型本科专业人才的目标。
关键词: 统计学;R软件;因子分析
随着互联网行业的发展,大数据越来越膨胀,所涉及的领域也越来越多。它不仅在生物、医学、物理、化学等领域作用巨大,而且在电子商务、物流配送、旅游管理等经济、管理类领域的应用也更加广泛。例如,电商企业通过对平台用户的浏览痕迹进行记录分析,针对不同层次类型的用户提供特定的商品推荐信息,实现精准营销等。无论是分析生物医学等领域数据的内在相关性,还是探讨经济管理等领域数据所涉及的相关决策信息,都离不开统计建模与分析。因此,掌握统计学的相关理论知识与实践操作技能具有十分重要的现实意义。
为了让学生尽快适应当今社会对大数据人才的需求,很多本科院校对“统计学”课程的理论课时和实验教学课时进行了调整,适当增加实验教学课时的主要目的是提升学生的软件操作能力和实践能力。目前应用于统计学实验的软件主要有SAS、SPSS、STATA和R软件等。SAS软件是一个模块化、集成化的大型应用软件系统,是一款专业的统计计算软件,功能非常强大,并且全面。SPSS软件是一个集数据录入、整理、分析功能等于一身的软件。用户能够根据实际需要和计算机的功能选择模块,从而降低对硬盘容量的要求。另一方面,它的分析结果清晰、直观、易学易用,还可以直接读取DBF及EXCEL数据文件,目前已被推广到多种操作系统的计算机上。STATA软件是一套用户进行数据分析、数据管理以及绘制专业图表等的统计软件。它提供许多统计模型计算功能,包含线性混合模型等,特别是在统计图形的制作方面比较优秀。每种统计软件应用于统计数据分析均存在优劣点。相比较以上几种软件,R软件占用内存非常小,可以免费获取安装,并且十分灵活。因此,许多统计工作者采用R软件进行《统计学》课程的编程操作。
一、R软件介绍
R软件[1]是由奥克兰大学的Robert Gentleman和Ross Ihaka以及其他人员开发的一个系统。R软件提供了一个开放的统计编程环境,并且它有一套完整的数据处理、计算和制图软件系统。另外,它最大的一个优点能够将全球最优秀的统计应用软件打包提供给用户,并且为用户提供灵活的处理数据环境。基于R软件开放的软件包,一方面在实践教学环节可以让学生直接调用函数命令实现统计计算功能,对数据进行直接分析。另一方面,获取开放的源代码,能够让学有余力的学生学习程序语言的编写,提高自己编写程序的能力,以便将来分析更复杂的统计模型。同时,在编写程序的过程中,学生也可以加深对理论知识的学习,巩固所学知识。
目前很多教师已经将R软件应用到统计学教学实验中。例如,有些利用R软件的数值和图形功能展示数理统计的基本概念和结论,并对案例进行回归分析和logistics回归分析[2-5];有些则是探讨R软件简化统计计算,将其应用在显著性检验和置信区间的求解上[6-8];蒋思瑶[9]将R软件应用到Bayes统计分析中,主要有二项分布模型、泊松分布模型和广义线性模型等方面的应用实例;胡良平[10]介绍了如何利用SAS软件和R软件进行主成分分析等。然而,利用R软件进行因子分析的教学案例并不常见。因此,本文将利用R软件探讨因子分析模型的教学案例。
二、基于R软件的统计学课程教学案例
因子分析的原理是对多个指标进行降维,利用少数几个公共因子去描述许多指标或因素之间的联系。在进行因子分析后,通过计算因子得分实现综合评价和排名。运用这种研究技术,可以很方便地找出影响上市商业银行盈利能力、运营能力、成长能力、流动性和安全性等方面的主要因素以及它们的影响力。
从目前来看,当前幼儿园一日活动开展过程中仍然存在较为严重的保教分离的问题,保育工作和教育工作往往是分离开的,有些教师认为保育工作应由保育员负责,而保育工作又被看成是辅助性工作。幼儿园存在着“重教轻保”的情况,将工作重点放在了课程教学上,对幼儿身心健康和社会保健方面的研究并不是特别深入。这种保育分离的情况也使幼儿园一日活动的设计存在诸多不合理之处,不利于幼儿的全面发展和成长。
我国目前上市的商业银行有工商银行、建设银行、农业银行、中国银行、交通银行、招商银行、民生银行、平安银行、兴业银行、中信银行、光大银行、浦发银行、华夏银行、北京银行、南京银行、宁波银行,一共有16家。下面将对上市商业银行经营绩效进行因子分析分析,这有助于了解我国上市商业银行的经营绩效。
通过巨潮资讯网查询各个上市银行2017年年报,获得上述16家银行的财务数据。该数据包含各上市银行的资本收益率X1、净资产收益率X2、成本收入比X3、营业收入利润率X4、人均利润率X5、资本充足率X6、不良贷款率X7、拨款覆盖率X8、流动比率X9、资产负债率X10、资产增长率X11、净利润增长率X12、营业收入增长率X13、营业利润增长率X14,共14个财务指标,原始数据见表1。
表1 上市商业银行财务数据
其中factors表示选取的主因子个数,rotation表示因子旋转方法,scores表示计算因子得分的方法,Z.score是用来计算每家商业银行的综合得分。
从表2可以看出,选取5个公共因子的累积方差贡献率达到83%,说明这5个公共因子包括了14个原始指标体系信息量的绝大多数,用这5个主因子来评价商业银行的竞争力是完全可行的。
Fa<-factanal(~.,factors=5,data=Mydata,rotation=“varimax”,scores=“regression”)
scores.matrix<-data.frame(Fa$scores)
可以计算各银行的综合得分,具体结果见表4。
F=Factor 1*0.217+Factor 2*0.214+Factor 3*0.172+Factor 4*0.157+Factor 5*0.070
利用回归分析计算出得分矩阵,根据得分矩阵计算出所有银行在各主因子上的得分以及综合得分。表4给出16家商业银行在每个公共因子上的得分和综合得分以及排名。从综合得分排名来看,我国四大国有商业银行的排名靠后,城市商业银行中兴业银行、民生银行、广大银行排名比较靠前,这说明国有商业银行的竞争力还有待进一步提升。
针对表1的原始数据,下面将利用R软件说明因子分析的过程。首先,通过函数read.tabel从外部录入数据,接下来调用函数factanal对原始数据进行因子分析。具体程序如下:
表2 方差解释表
利用命令Fa$loadings能够得到方差解释表(见表2)和旋转后的因子载荷矩阵(见表3),最后利用命令Fa$scores能得到每家银行的各主因子的得分,通过公式
从调查结果中,选取高校教师数据科学素养内容中男性、女性选择较为不同的方面,如图1 所示的数据知识、数据工具、数据评价、数据挖掘与大数据的五项内容。由图1 可知,在所调查的样本中,男女比例分别为43.3%、56.7%,所调查样本量中男女比例较为均衡。
Z.score<-scores.matrix$Factor1*0.217+scores.matrix$Factor2*0.214+scores.matrix$Factor3*0.172+scores.matrix$Factor4*0.157+scores.matrix$Factor5*0.070
在发电量过剩或不足的情况下,PPF算法同时考虑了传统发电的正常分配,发电机组的安排也应适应电力系统的不确定性。在实际应用中,现实的调度规则很复杂,可能会导致庞大的计算量。为了找到一个有意义的方法来表示调度法则,采用发电调度运行的线性模型表示:
表3 因子载荷矩阵
表4 上市银行各主因子得分及综合得分
Mydata<-read.table(“syyh.txt”,header=TRUE)
为了便于解释公因子的含义,通过方差最大化正交旋转,得到旋转后的因子载荷矩阵,见表3。从表3可以看出,第1主因子在X11(资产增长率)、X12(净利润增长率)、X13(营业收入增长率)和X14(营业利润增长)上载荷较大,说明第1主因子反映了这些指标的信息,可以把第1主因子命名为成长能力指标综合指标。第2主因子在X3(成本收入比)、X5(人均利润率)、X7(不良贷款率)和X8(拨款覆盖率)上载荷较大,可以把该因子命名为安全性综合指标。依次可以给第3、第4和第5主因子分别命名为运营能力综合指标、盈利能力综合指标和流动性综合指标。
SCORES<-data.frame(scores.matrix,Z.score)
文中程序是直接调用函数factanal计算因子分析。然而,在计算因子分析之前,事先并不清楚提取几个公共因子。因此,可以利用函数fa.parallel绘制碎石图,进行探索性分析提取公因子的个数,具体见图1。接着调用fa函数提取公共因子,利用fa.diagram函数绘制因子解释图,具体见图2.具体程序如下:
library(psych)
阑尾炎在临床中一种比较常见且多发的急腹症,临床表现变化快,极易引起诸多严重的并发症,危害患者的身体健康,故而临床需尽早诊治,以控制病情进展所致的阑尾穿孔。近两年来,腹腔镜技术因为微创、术后康复快等优势而在临床治疗阑尾炎患者中备受青睐,但手术治疗期间的护理配合也是提高临床疗效的关键[1]。对此,本文以笔者所在医院收治的阑尾炎腹腔镜手术患者70例为研究对象,特此分析了优质护理服务的方式与效果。现做如下报道:
聚类是一个将整体的数据对象划分为以类或簇存在的包含局部数据对象的过程〔4〕。聚类的目标是使得同一个簇中的对象之间具有较高的相似度,而不同簇中的对象相似度尽可能低。聚类分析是数据挖掘领域重要的研究内容之一〔5-6〕,到目前为止,专家学者基于不同的思想提出了多种聚类算法,大致可以归纳为以下几类〔7〕:基于划分的算法、基于网格的方法、基于密度的方法、基于模型的方法和高维数据的方法,并广泛应用于机器学习、人工智能、图像处理和模式识别等热点研究领域。
Mydata<-read.table(“syyh.txt”,header=TRUE)
yinhang.cor=cor(Mydata)
fa.parallel(yinhang.cor,n.obs=NULL,fa=“both”,n.
图1 碎石图
图1 是显示因子重要程度的碎石图,其中横轴表示因子序号,纵轴表示特征值的大小。根据点间连线坡度的陡峭程度可以直观地看出选取4~5个因子是比较合适的。图2直接表明了哪些指标聚为一个因子,最后再对主因子分别命名即可。
图2 主因子解释图
四、结语
R软件获取方便,利于学生随时下载安装。本文在统计学课程中引入该软件进行辅助教学,并以因子分析为例,可以让学生们加深对因子分析法的理解。另外,通过获取程序包及其源代码,还可以提升学生们的编程操作能力。
谢晖的所作所为最终造成自治区劳教、监狱系统党内政治生活不正常、不健康,系统内“圈子”盛行,“山头”林立,拉帮结派。许多正义干部身心压抑,无心干事。随着谢晖案件的查处,其曾经工作过的单位引发强烈“地震”,劳教、监狱系统多人涉嫌违纪违法。谢晖案卷宗多达三百多卷,涉案金额高达1亿多元人民币;涉案人员共49人,其中7人被移送司法机关处理、42人受到党纪政纪处分,成了新疆腐败的重灾区。
四旋翼飞行器的滚转运动与俯仰运动原理相似,保持电机1和电机3的转速不变,增大电机4的转速,减小电机2的转速,便会产生不平衡力矩,使机身绕X轴顺时针旋转;同理,减小电机4的转速,增大电机2的转速则会使四旋翼飞行器绕X轴逆时针旋转。
[参考文献]
[1]薛毅.统计建模与R软件[M].北京:清华大学出版社,2007.
[2]安丽霞,卢丑丽,燕扬.初探R软件在独立院校概率论与数理统计教学中的应用[J].大学教育,2018(9):102-104.iter=100,main=“Scree plots with parallel analysis”)
Fa1<-fa (yinhang.cor,nfactors=5, rotate=“varimax”,fm=“pa”,score=TRUE)
factor.plot(Fa1,labels=rownames(Fa1$loadings))
fa.diagram(Fa1)
[3]黄新,王梦贤,周密.R软件在统计学实验教学中的应用[J].现代职业教育,2018(13):68-69.
[4]徐付霞,李亚威.基于统计软件R的《数理统计》实验教学案例[J].高等数学研究,2018(1):61-64.
[5]周晓东,王云娟.基于统计软件的统计学教学研究与实践[J].大学教育,2018:45-48.
[6]赵为华.R软件在概率论与数理统计案例教学中的应用[J].福建电脑,2018(5):171-172.
[7]金秀玲.初探R软件在概率统计教学中的辅助作用[J].牡丹江教育学院学报,2018(8):63-66.
[8]邓丽.R统计软件在区间估计教学中的应用[J].考试周刊,2016(98):112-112.
[9]蒋思瑶.R软件在Bayes统计中的应用[J].商业经济,2014(13):93-94.
[10]胡良平.基于SAS与R软件的主成分分析[J].四川精神卫生,2018(2):31-36.
Application of R Software in Statistics Teaching:A Case Study of Factor Analysis Model
LIU Jun-e
(School of Management,Huaibei Normal University,Huaibei,Anhui 235000,China)
Abstract: In the teaching process of undergraduate specialty,the cultivation of big data processing ability is a weakness.Taking factor analysis model as example,this paper discusses the application of R software in statistics teaching.It aims to stimulate,through case teaching of R software,the students’interest in learning,and to improve their ability in data processing and analyzing,thus further highlighting the goal of cultivating application-oriented undergraduates.
Key words: statistics;R software;factor analysis
中图分类号: O21
文献标识码: A
文章编号: 2096-2126(2019)03-0149-04
[收稿日期] 2019-03-25
[基金项目] 淮北师范大学校级质量工程项目“培养应用型人才为核心的统计学课程教学改革研究”(JY18030);安徽省质量工程项目“经济学专业综合改革试点”(2016ZY111)。
[作者简介] 刘君娥(1980—),女,湖北天门人,博士,讲师,研究方向:数理统计及其应用。
①巨潮资讯网http://www.cninfo.com.cn/new/index。
(责任编辑:雷凯)
标签:统计学论文; R软件论文; 因子分析论文; 淮北师范大学管理学院论文;