文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
陈 军
(新疆师范大学商学院,新疆 乌鲁木齐 830017)
摘要: 文氏图属于集合论数学分支,用于展示不同集合(群组)之间的数学或逻辑关系,常被用于集合(类)运算。文氏图简单形象,便于理解,在计量统计类课程中多有应用。多重共线性的内容在《统计学》《计量经济学》课程中都有涉及,也是教学中的一个重点和难点。在教学实践中,一般采用定义数学方程、矩阵等讲授,通过借助文氏图可有效提高教师的教学效果和学生对此内容的理解掌握。
关键词: 文氏图; 多重共线性;教学应用
在多元线性回归中,通常采用OLS(最小二乘法)作为估计回归模型参数的方法,但需满足若干基本假定,包括关于变量和模型的假定和关于随机扰动项统计分布的假定。其中假设之一就是解释变量间不存在多重共线性,但在实际研究中,模型中的解释变量间往往存在不同程度的共线性问题,对此情形需要进行相应的消除解决,再行应用OLS。多重共线性的内容在“统计学”“计量经济学”课程中都有涉及,也是教学中的一个重点和难点。在教学实践中,一般采用定义数学方程、矩阵等讲授,但涉及数学知识点多,理论讲解相对费时,如果学生数学基础不扎实,那么对这部分的内容理解起来就相对吃力。通过引入文氏图,可有助于这部分内容讲解和学生的理解。
文氏图属于集合论数学分支,用于展示不同集合(群组)之间的数学或逻辑关系,常被用于集合(类)运算。一般用矩形框表示论域,矩形框的内部区域即论域范围,可视为全集,即所有可能事物的空间。单个集合用圆或椭圆表示,若两个圆或椭圆相交,相交部分则是两个集合所包含的公共元素;若两个圆或椭圆不相交,则表明两集合无公共元素。需要说明的是,文氏图与其它的图示法一样,它不能准确表示一个集合(或类)中到底有哪些元素。下图为集合A, B的文氏图。
As we are interested to the CRLB of the 2-D central DOAs for the ID sources,we can use the inversion of block matrices to obtain the following expression of CRLB(l):
[46]《明英宗实录》(台北1962年影印本)卷二二四,《明史》,北京:中华书局,1974年,卷一六二,倪敬传。
图1 集合A, B的文氏图
一、文氏图在“多重共线性”定义及分类讲解时的应用
变量λ 1x 1+λ 2x 2+…+λkxk= 0之间共线性的情形有三种,分别是完全共线性、不完全多重共线性和无多重共线性。
(一)基于数学理论的多重共线性定义及分类
3.无多重共线性
的方差、置信区间伴随x 1,x 2共线性程度增加而增加,同时t 检验失效、预测精度降低、回归模型缺乏稳定性等影响。因此,在进行模型回归前,一般要进行多重共线性的检验,主要检验方法包括相关系数检验、F-G检验、特征值检验、方差膨胀因子(VIF)检验等。
则称解释变量x 1,x 2,…,xk 之间存在完全共线性。
RFID无线射频识别技术主要利用无线的方式对标签进行识别,其识别主要由阅读器和标签完成。阅读器可以对一个或多个标签进行识别。阅读器对标签的识别过程被称为清点过程。
凝胶色谱是根据多肽分子的大小、形状差异进行分离的一种方法。根据分子筛原理,分子量大的部分出峰时间早,保留时间短;分子量小的部分出峰时间晚,保留时间长。本试验中经凝胶液相色谱分析后,标准肽样品与出峰时间拟合直线方程为y=-0.3383x+7.3451,R2=0.9917,表明各标准肽样品的相对分子量对数与洗脱时间呈现良好的相关性,可以准确地测定样品中多肽的分子量分布。
2.不完全共线性
变量间存在不完全共线性,即对于变量x 1,x 2,…,xk ,如果存在不全为零的常数λ 1,λ 2,…,λk ,使得下式成立:
则称解释变量x 1,x 2,…,xk 之间存在不完全共线性,其中μ 为随机误差项。与完全共线性不同的是,不完全共线性反映出变量间是近似线性关系,而非函数关系。因而,不完全共线性也称近似的多重共线性,实际经济问题的大多数情况呈现这种情形。
3.无多重共线性
分析本例题模型中的变量,公路里程(X4)和铁路里程(X5)两个变量反映的信息应有重叠,而国内旅游人数(X1)、城镇居民人均旅游支出(X2)、农村居民人均旅游支出(X3)等三个变量反映的信息应有重叠(通过相关系数矩阵也可得出),考虑模型中解释变量间可能存在共线性问题。模型中解释变量及随机误差项反映信息用图4文氏图表示。
(二)基于文氏图的多重共线性定义及分类——以二元线性回归模型为例
基于文氏图的多重共线性可分三种情形:无多重共线性、不完全共线性及完全共线性,如图2所示。
随着高速公路路网规模不断扩大,高速公路稽查管理工作日益复杂化,其中假绿通车辆稽查治理工作逐渐成为整个高速公路稽查管理工作的重点。按照国家有关规定,运输鲜活农产品的车辆在高速公路上行驶可免缴通行费。由此,各种冒充绿通车辆的手段层出不穷,屡禁不止,给高速公路稽查管理工作和收费站日常收费管理工作带来巨大压力。
1.完全共线性
假设线性回归模型有两个解释变量x 1,x 2,各自代表相应变量信息。若存在常数λ 1,λ 2,满足λ 1x 1+λ 2x 2=0,即解释变量x 1,x 2之间存在完全共线性。用文氏图可表示为如图2(c),说明变量x 1反映的信息和x 2反映的信息,虽然形式不同,但两者信息是完全重复的。
2.不完全共线性
假设线性回归模型有两个解释变量x 1,x 2,各自代表相应变量信息。若存在常数λ 1,λ 2,满足λ 1x 1+λ 2x 2+μ =0,即解释变量x 1,x 2之间存在不完全共线性。用文氏图可表示为如图2(b)情形,说明变量x 1反映的信息和x 2反映的信息,虽然形式不同,但两者信息部分是重复的。变量间相关程度越大,图形中x 1,x 2重复的部分越多。
1.完全共线性
本例以SPSS作为数据处理软件,采用逐步回归法解决多重共线性问题,实操步骤描述如下。
图2 共线性分类的文氏图表示
二、文氏图在讲解多重共线性检验时的应用
多元线性回归模型中,如果解释变量间存在多重共线性,但仍采用OLS方法估计模型参数,一般将产生较为严重的后果。以二元线性回归模型为例,在完全共线性情形下,参数估计量将不存在,表现在参数估计量 和 为不定式,且方差为无穷大;而在不完全共线性的情形下,则呈现出参数估计量 和
变量间存在完全共线性,即对于变量x 1,x 2,…,xk ,如果存在不全为零的常数λ 1,λ 2,…,λk ,使得下式成立:
例:根据理论和经验分析,影响国内旅游市场收入Y的主要因素,除了国内旅游人数和旅游支出之外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人均旅游支出X2,农村居民人均旅游支出X3,并以公路里程X4和铁路里程X5作为相关基础设施的代表。统计数据如下表1所示。要求建立国内旅游市场收入的多元线性回归预测模型,并检测共线性情况。
综上所述,明代小说对《绿野仙踪》的创作产生了重要影响。小说自寓性的创作目的是对明代小说传统的继承;小说的结构整体采用金线串珠和列传式相结合的模式,明显受到《西游记》《水浒传》《金瓶梅》等影响;小说的语言风格明显受到明代小说特别是《水浒传》《金瓶梅》的影响;小说是在大量阅读前人著作的基础上创作的,故事素材大多也能从前人的小说中找出端倪。《绿野仙踪》对前人小说有明显的借鉴,这是小说创作的必然;同时也应该看到,它在继承的基础上又有许多创新。
图3 多重共线性检验的文氏图表示
上图中,X 1、X 2、X 3分别表示多元线性回归模型中三个解释变量对因变量的解释贡献度,F检验值可理解为X 1、X 2、X 3三个集合形成的面积。由于共线性的存在,导致无法区分X 1、X 2、X 3对因变量的具体解释贡献度,尽管单独对每个解释变量回归,系数呈现显著性。某些解释变量的贡献度和另一些解释变量的贡献度相互重叠了。借助文氏图,对于讲授这个知识点,学生更容易理解。
三、文氏图在线性回归模型多重共线性分析的例题应用
为完整体现文氏图在线性回归模型多重共线性分析方面的应用,下面结合一个具体的案例来说明。
在实际应用中,往往考虑如下方法研判:R 2或其修正值很高(F值也相应高),但某些解释变量系数的t 值却不显著或偏低。这时,我们就可初步判断解释变量x 1,x 2,…,xk 之间可能存在多重共线性。这种结果看似矛盾,其实不然。F检验表明因变量与解释变量之间的线性关系是显著的,即因变量和解释变量中的一个变量间的线性关系显著,并不代表和每个解释变量之间的线性关系都显著。为了便于理解,可借助文氏图3表示。
无多重共线性是指解释变量x 1,x 2,…,xk 之间,既不满足式(1),也不满足式(2)的情形。矩阵x 为满秩矩阵,即rank(X)=k+1。应该注意到,解释变量x 1,x 2,…,xk 之间不存在线性相关,并不说明不存在非线性相关。由于各解释变量x 1,x 2,…,xk 之间往往在时间上存在同向变动趋势,且存在不同程度关联度,无多重共线性情形一般很少。
假设线性回归模型有两个解释变量x 1,x 2,各自代表相应变量信息。若既不存在常数λ 1,λ 2,满足λ 1x 1+λ 2x 2=0,也不满足λ 1x 1+λ 2x 2+μ =0,这时解释变量x 1,x 2之间不存在共线性。用文氏图可表示为如图2(a)情形,说明变量x 1反映的信息和x 2反映的信息,无交集,即解释变量x 1,x 2之间线性相关系数为零,各自提供的信息无重合部分。
表1 1994-2003年中国旅游收入及相关数据
图4 解释变量及随机误差项反映信息的图示
Step1:输入数据;依次选择“分析(A)”→“回归(R)”→“线性(L)”进入线性回归对话框。在“线性回归”对话框中,将左侧框内的“Y”“X1”“X2”“X3”“X4”“X5”分别移入右侧“因变量(D)”和“自变量(I)”框内,对话框界面同前例。并在“方法”下选择“逐步”。
不局限于训练学生听说读写,综合调动他们的包括观察、想象、理解、表达等在内各种能力,引导学生用多种艺术方式(戏剧、绘画、音乐、语言)创造性回应阅读的文本。
姚琳琳却绝对称的上是个大美人,尽管如今已经年过不惑,但却依旧风韵犹存,千娇百媚。我的许多性幻想就是围着她展开联想的。哎哟,您瞧我这张嘴,咋还没了把门儿的了呢?一不小心,竟然把这事儿也扯了出来呢,这要让我老婆知道了,她还不跟我急。
Step2:点击“选项”,并在“步进方法标准”下选择“使用F的概率”,并输入增加变量所要求的的显著性水平(默认值为0.05);在“删除”框中输入剔除变量所要求的显著性水平(默认值为0.10)。点击“继续”回到主对话框。
Step3:点击“确定”。得到部分结果如表2、3。
表2 输入/移去的变量
表3 系数
上表给出了参数的估计值和用于检验的t 统计量和p 值。由此得到回归模型:
从结果可以看出,首先被选入的变量是城镇居民人均旅游支出(X2),后依次选入的变量是公路里程(X4)和农村居民人均旅游支出(X3),即在消除共线性的情形下,剔除了变量X1和X5。从经济意义解释,就是公路里程(X4)信息更多涵盖铁路里程(X5),城镇居民人均旅游支出(X2)和农村居民人均旅游支出(X3)反映的信息更多涵盖国内旅游人数(X1),用文氏图可表示为图5。
1.3.1 临床疗效判定标准。研究采用睡眠效率计算公式(国际统一)对患者睡眠质量进行评估。患者睡眠率改善<40%,且各种失眠症状未出现改善,可判定为无效;若患者睡眠率改善>75%,且各种症状完全消失,可判定为治愈;患者睡眠率改善>65%,各种症状出现显著改善,可判定为显效;患者睡眠率改善>55%,睡眠功能出现一定的恢复,可判定为有效。患者睡眠质量(率)=(入睡总时间/上床至下床总时间)×100%[4] 。
图5 回归模型变量间文氏图
四、结束语
通过上文分析,可以看到文氏图在多重共线性内容讲授时的优点,主要体现在多重共线性定义及分类、共线性检验及回归结果分析上。通过借助文氏图,可有效提高教师的教学效果和学生对此内容的理解掌握。
参考文献:
[1] 孙敬水.计量经济学[M] .北京:清华大学出版社,2018:56-61.
[2] 贾俊平等.统计学[M] .北京:中国人民大学出版社,2015:285-288.
[3] 张晓峒. Eviews使用指南与案例[M] .北京:机械工业出版社, 2012:102-107.
[4] 孙敬水.计量经济学学习指导与Eviews 应用指南[M] .北京:清华大学出版社,2018:78-82.
[5] 马慧慧等.Stata统计分析与应用[M] .北京:电子工业出版社,2016:212-219.
[6] 胡卫中. 应用统计实验[M] .杭州:浙江大学出版社,2014:66-72.
[7] 冯叔民, 屈超.全程互动统计学及其实验[M] .大连:东北财经大学出版社, 2015:88-93.
[8] 吴培乐. 经济管理数据分析实验教程[M] .北京:科学出版社, 2014:216-222.
Application of Venn Diagram in the Teaching of Metrology and Statistics Courses——A Case Study of Multi-collinearity
CHEN Jun
(School of Business, Xinjiang Normal University, Urumqi Xinjiang 830017)
Abstract: Venn diagram belongs to the branch of set theory mathematics, which is used to show the mathematical or logical relations between different sets (groups), and is often used for set (class) operations.Venn diagram is simple and easy to understand, and it is widely used in the courses of metrology and statistics.The content of multi-collinearity is involved in the courses of Statistics and Econometrics, and it is also a key and difficult point in teaching. In teaching practice, the definition of mathematical equations and matrices are generally used to teach, and the teaching effect of teachers and students' understanding and mastery of this content can be effectively improved by means of Venn diagram.
Key words: Venn diagram; multi-collinearity; teaching application
中图分类号: O211.4
文献标识码: A
文章编号: 1671-9654(2019)02-0028-04
DOI: 10.13829/j.cnki.issn.1671-9654.2019.02.009
收稿日期: 2019-04-08
作者简介: 陈军(1973- ),男,新疆乌鲁木齐人,副教授,管理学博士,研究方向为统计学及计量经济学。
基金项目: 本文为2017年新疆师范大学教学研究与改革项目“经管类专业统计学实验课程标准化建设研究”(编号:SDJG2017-26)阶段性研究成果。
[编校:张芙蓉]
标签:文氏图论文; 多重共线性论文; 教学应用论文; 新疆师范大学商学院论文;