师范生职前课程数据关联性分析
施成湘, 周 婷
(重庆第二师范学院 数学与信息工程学院, 重庆 400067)
摘要: 近年来,随着数据挖掘技术的不断成熟及其在应用领域的进一步拓展,许多学者开始研究数据挖掘技术在高校教学管理中的应用。先利用关联规则Apriori算法对师范专业学生课程成绩进行分析,得出课程之间存在的相关性及重要性;再利用聚类分析K-Means对学生的课程成绩进行分类,找出学生成绩的分布特点。结论对学生学习和选课有很强的指导性,对该专业培养计划的修订、课程的设置等具有实际意义。
关键词: 关联规则; Apriori算法; K-Means算法; 师范生职前课程
随着信息技术的快速发展和普及,大量的数据和信息得以积累,如何从大量数据中提取出有用的信息已成为信息技术研究的重要课题之一,数据挖掘技术应运而生。研究人员从不同角度、不同侧重对数据挖掘技术的应用进行了深入的研究与探讨。尤其是近年来,随着全世界对教育热点问题关注度的持续升温,新思想、新方法层出不穷。吴文玲[1]以大量学生课程数据为切入点,探讨了如何利用数据得到统计意义上的课程相关性,为课程设置提供决策依据;张濠天等[2]对数学专业学生的成绩数据进行研究,确定了不同类型课程之间的相关性,努力探索提高学生课程成绩和教学质量的方法;陈喜华等[3]对学生成绩进行分析,挖掘出学生各门课程成绩的分布情况及课程之间的关联性,并对挖掘结果进行了详细的分析和说明[4];李芳[5]将数据挖掘技术应用在学生成绩数据分析中,为设计课程的顺序提供了可行性建议。
推动高校教师改进教学, 激发学生学习积极性,需要对学科课程的设置、课程之间的相互关系、学生学科成绩的综合评定等问题进行深入的思考。本文先利用数据挖掘中的关联规则技术对师范专业学生课程成绩数据进行分析,得出课程之间存在的相关性及重要性;再利用数据挖掘中的聚类分析技术预测课程重要性并得出学生在校的学习情况,为人才培养方案的制定、课程的设置提供决策支持。同时,教师也可以根据挖掘结果因材施教,从而更加灵活地组织教学,提高教学效率。
一、相关理论
(一)关联规则
关联规则(Association Rules)是指大型数据库系统,它可以快速找到各种事物之间的潜在和有价值的关联,并以规则表达。关联规则的研究和应用是数据挖掘中最活跃、最深刻的分支。为了使挖掘出来的关联规则有效,需要给出两个最常用的指标:最小支持度和最小置信度。
(1)对于规则X →Y ,其规则的支持度定义为
(1)
其中,N (X ∩Y )表示同时包含前项X 和后项Y 的事务数量,N 表示总的事务数量。规则支持度反映了该规则的普遍程度。
(2)对于规则X →Y ,其规则的置信度定义为
(2)
其中,N (X ∩Y )表示同时包含前项X 和后项Y 的事务数量,N (X )表示包含前项X 的事务数量。规则的置信度实际上是在给定前项X 的前提下,后项Y 的条件概率。
2.教学书法和小学教学课程、班队管理和教学书法之间是互为促进的关系,可以同时开设。
(二) Apriori算法
根据图6(部分图)所示,每个类别是分数组,每个类别中的分数是分数组的平均值。这些平均值是对学生成绩进行分类和评价的标准和依据。将图6中的平均值汇总在表中,学生成绩的聚类平均值如表3所示。
以我院2015年7月到2017年7月收治的乙肝病毒性肝炎患者120例作为研究对象,所有患者根据我国乙肝病毒性肝炎临床诊断标准,确诊乙肝病毒性肝炎患者,其中男性67例,女性53例,年龄21-76岁,平均年龄(45.26±5.71)岁,病程0.5-11年,平均病程(5.12±1.71)年,临床上主要表现为肝功能异常、食欲减退、肝部不适、恶心、乏力、面部泛黄等。先对所有患者进行血常规检验,在对患者的血常规样本进行两对半检验。
(1)设定最小支持度S min及最小置信度C min。
综上,在阅读绘本的过程中,学生无形中可以习得看图猜词、根据语境猜词、根据近义词、同义词来猜词的阅读技巧,进一步习得阅读和听力词汇(冉永平,2009;王改燕,2010)。同时,学生还了解了生活常识,丰富了视野。另外,学生还认知了拟人等手法,积累了带有各种感情色彩的丰富词汇,提高了文学修养和审美能力,陶冶了情操。最重要的是,还强化巩固了日常高频核心基本词汇的地道表达用法(邵艳春,2006),增强了英语表达应用的能力和信心。
由表2可知,第二次,当k=3时,是聚类质量的转折点。选择这一转折点对学生的课程成绩进行分析比较合理,聚类数为3,最后运行模型得到以下结果(见图6)。
随着有线电视网络运营单位管理水平的提升,人员分工方面更加明确,工作流设计逐渐应用到网络资源管理系统中。系统应用前应进行统一的规划,在建设过程中应遵循“先制度、后系统”的基本原则,确保系统建设符合基本使用功能,逐步形成标准化和制度化的建设体系。
Apriori算法生成一个频繁的项集,这是一个自下而上的过程,即生成一个频繁的1-项集,并生成一个频繁的2-项集,直到不能生成为止,候选集结束。生成所有频繁项集后,根据最小置信度判断生成最终关联规则。对于每个频繁项集F ,计算其所有子集组合的置信度。例如:有子集F 1,当时,即可生成对应的关联规则F 1→(F →F 1)。
二、基于 Apriori算法的课程成绩分析
数据来源于重庆第二师范学院本科小学教育专业(全科)347名学生四年来25门专业必修课的成绩,通过关联规则Apriori算法,从学生成绩的数据中发现内部频繁项集之间的关联,找到数据与数据间的潜在关系、课程与课程之间隐含关系、某些课程对其他课程的影响程度,为课程的设置和教学计划的制定提供一定的参考依据。整个实施过程分为数据预处理、模型建立、挖掘结果分析与评估应用四部分。
(一)数据预处理
数据信息包括学年、学期、任选课程、公共必修课、实践课、专业必修课、课程学分、学分绩点、平时成绩、期末成绩,对缓考、免考、旷考等情况不予考虑。由于学生成绩总体水平较高,各科的差距不明显,为了让课程成绩之间有点差距,方便数据分析,对课程按性质划分大类,相似课程进行合并(见表1),以均值的形式呈现,经过处理后为12大类。
同时,为了方便数据的处理,本文采用表格格式(一般来说,进行关联分析的数据形式可以有表格格式和事务格式),即将学生成绩高于该类课程均值(347名学生该类课程的总成绩除以总人数)的记为1,低于该类课程均值的记为0(如图1所示)。
5.4 加强栽培管理:栽植前,及时深耕细耙,以利于病残组织的分解,加速病菌死亡;高垄深沟栽植,定植后注意松土,提高土温,降低土壤湿度,促进根系生长,防止大水漫灌,雨季加强排水,雨后及时划锄中耕,加速土壤水分蒸发;适时平衡施肥、配方施肥,增加磷钾肥,控制氮肥用量,提高植株抗病力。坐果后及时整枝打杈,以利通风透光,降低湿度;灌溉、整枝、打杈、中耕、培土、采收、施肥、喷药等农事操作,要避免碰伤植株,防止病菌从伤口侵入;及时防治传菌昆虫。
从图4冬、夏季的负荷曲线可知,热电一天24小时的变化趋势基本吻合,峰值出现的时间基本一致,热电负荷大致相当,最高负荷冬季出现在10时至15时之间,热、电负荷均在2000 kW左右,夏季出现在10时至17时之间,热电负荷分别为2200和3650 kW;在21时至第二天7时之间为明显的谷段,且起伏较小,比较平稳。冬季的最低负热荷约1000 kW,电负荷为600 kW;夏季的最低电热负荷均在600 kW左右;因此在空调和采暖季节,只要选择合适的发电容量,系统将有很好的节能效果。
表 1相似课程合并
图 1 2014级小学全科专业必修课
(二)建立 Apriori模型
将专业必修课课程成绩全部导入SPSS Modeler中,建立如图2所示的Apriori算法模型。
(2)根据最小支持度,生成频繁项集。
在建模时,系统默认的最低条件支持度为10%,最小规则置信度为80%,最大前项数为10,运行得到5505条关联规则。规则太多,分析较复杂,所以要提高最低条件支持度和最小规则置信度,减少规则条数,得到有效、有价值的信息,但当最低条件支持度为31%、最小规则置信度为92%时,得到5条关联规则。规则太少,可能会丢失有价值的规则信息,最终选择最低条件支持度为31%、最小规则置信度为91%,得出10条关联规则。考虑最大链接数太大,得到的网络图太复杂,不方便分析,将网络图中的可显示的最大链接数设置为25。
(三) Apriori算法挖掘的结果分析
运行Apriori算法挖掘模型得到的结果如图3和图4所示。
图 2 Apriori算法挖掘模型
图 3 Apriori挖掘模型
从图4可以看出不同课程之间的关联程度:连线越多,说明与其他课程之间的联系越紧密;连线越粗,对其他课程的影响程度越大。彼此联系紧密的课程应该作为基础课程使用,而且应该优先设置,比如教学书法、小学教学课程、班队管理。对于彼此影响程度高的课程,重要的是要考虑哪个课程是先导课程,哪个是后续课程,如小学教学课程和教学书法、班队管理和教学书法、心理学和班队管理等。
图 4网络图
根据图3的挖掘结果,并结合对图4的分析,可以得出:
1.键盘、心理学、教育测量与评价能够促进教学书法的学习,说明教学书法应该开设在这三门基础课程之后,教育经典、课程与教学、媒体与课件制作虽能促进教学书法的学习,但影响并不大。
4.模型中没有挖掘教学书法与微课之间的关联规则,但网络图表现为密切相关。可能是数据集成和清理、数据转换错误或它们没有达到最小条件支持度和最小规则置信度。
一般来说,一个“好”的关联规则应当同时具有较高的支持度和置信度。因此,在实际使用过程中,通常设置最小支持度和最小置信度。
3.键盘能促进小学教学课程的学习,可以优先考虑。
……replied Mr.Bingley, “but I am sure it will be too much for Kitty.Won’t it,Kitty?”[5]288
5.在模型中没有发现媒体与课件制作和键盘之间的关联规则,这表明这两门课程相关性不强。
通过以上分析,可以明确课程与课程之间的关联关系以及课程之间的重要性。模型的挖掘结果可为学校的课程设置、教学计划的制定和人才培养方案的修订提供决策支持。
(四)课程成绩评估应用
为了更准确地知道课程之间的重要性以及该年级学生的学习成绩分布,继续对学生的成绩进行聚类分析。通过K-Means算法对学生的课程成绩进行聚类,得出学生课程成绩分布情况,并预测课程的重要性,从而指导和建议学生选课和学习,达到提高教学效果的目的。建立K-Means算法模型,如图5所示。
图 5 K-Means算法挖掘模型
在运行模型之前,为了找到聚类质量的转折点,选择合适的聚类数,需要分别将聚类数设置为2~6,共5个数值。每运行一次,观察其模型,并记录模型的聚类质量(见表2)。
表 2不同 K值的聚类质量
(3)根据最小置信度,基于频繁项集生成最终关联规则。
Box-Behnken设计-响应面法优化盐酸苯环壬酯透皮贴剂的处方 …………………………………………… 廖诗琴等(7):897
图 6各聚类均值
Apriori算法是一种挖掘关联规则的频繁项集算法。一个有效的关联规则应当满足S X→Y ≥S min且C X→Y ≥C min,故Apriori 算法可以分为三步:
根据图7的MYMKM-K-Means的分布和对表3的学生成绩聚类均值的分析可得:
2016年底,在全市如火如荼、积极争创全国“双拥模范城”的进程中,在娄烦县对口扶贫的杏花岭区委统战部副部长王业发,被组织调任区双拥办主任。他工作履历比较丰富,公安干警出身,当过宗教局长,一身正气、两袖清风。生活中为人热情,说话做事雷厉风行,粗中有细。新的起点,新的征程。从此,王业发从零开始,以抓铁留痕的决心,踏石留印的力度,系统学习了解志愿兵的历史背景,查询退役军人的各种政策文件,吃准吃透文件精神,边学习边与老兵们接触,以人性化、情感化的工作方式化解老兵们的不安情绪,与老兵们无障碍沟通,深入持久地抓好“双拥”工作。
第一类学生比例最大,占总数的48.7%,他们成绩中等,少数科目成绩稍差。教师应该指导这类学生全面发展,这类学生应在偏差的学科上多下功夫,遇到问题主动、积极地向同学或者老师请教,从而防止偏科严重化。
第二类学生比例最小,占总数的17.29%,他们成绩较差,其中心理学和教学书法相对更差,而普通话和微课相对较好。教师要提醒这类学生更多地了解心理学和书法知识,弥补这方面知识的缺陷,同时督促学生自律,提高他们学习的积极性。
表 3学生成绩聚类均值
图 7 MYMKM-K-Means的分布
第三类学生占总数的34.01%,他们成绩最好,而且所有科目的成绩都比较平衡,没有严重的偏差。教师在教学过程中应注意提高他们的实践能力和专业技能。
从图8可以得到12门课程的重要性,如表4所示。从表4可以清楚地看出小学教学课程是最重要的,重要性为1,微课是最不重要的,重要性为0.02。
结合图8和表4分析,教学管理者可以依据不同课程的重要性来适当增加重要课程的学时。当预测变量的重要性大于0.5时,可以视为相对比较重要的课程,则从表4可以看出小学教学课程、心理学、键盘、教育学、教育测量与评价等课程是相对比较重要的课程,那么就可以适当增加这几门课程的课时,从而促进后面课程的学习,也有利于教学人员的教学,有利于提高学生的课程成绩。应安排具有丰富教学经验的教师承担这些课程的教学任务,从而提高教学效果。
这里,设定平行线距离为1,针长为0.8,重复200次,用上述命令可以求得π的近似值为3.141 816,学生也可以采用其他参数设置。
图 8预测变量的重要性
表 4课程重要性
三、结语
本文运用Apriori算法对学生课程成绩数据进行关联规则分析,得出了课程之间的相关性及重要性,提出了合理设置课程顺序的建议;运用K-Means算法对课程成绩数据进行深层次的聚类分析,不仅预测了课程的重要性,为课程的设置提供决策支持,还可让学生了解自己整体成绩的相对位置和薄弱科目,从而确定自己的学习方法;教师可以根据挖掘的结果,分析各类学生的表现特点、学习状况以及教学中存在的问题,从而调整教学方法,以便更好地实施教学改革,提高教学质量和教学效果。
1)高频交变压力下,系统压力低于先导式溢流阀开启压力时,先导式溢流阀主阀口会异常开启,系统油液经溢流阀泄漏出去,增大了系统能量损失。
参考文献:
[1]吴文玲.基于数据挖掘技术的课程相关性分析及其应用研究[D].成都:四川师范大学,2018.
[2]张濠天,张文卿,王元元,等.关联规则挖掘在成绩分析中的应用[J].中国高新区,2018(10):47.
[3]陈喜华,黄海宁,黄沛杰.基于聚类分析的学生成绩分析[J].清远职业技术学院学报,2018(2):64-70.
[4]陈喜华,黄海宁,黄沛杰.基于Apriori算法的学生成绩分析在课程关联性的应用研究[J].北京城市学院学报,2018(4):60-65.
[5]李芳.数据挖掘在学生成绩分析中的应用研究[D].兰州:兰州大学,2017.
[6]王冬秀.关联规则在高校课程相关性中的应用研究[J].桂林航天工业学院学报,2017(1):14-16.
[7]黄长江.关联规则挖掘技术在高职院校教学评估中的应用研究[D].广州:华南理工大学,2012.
[8]张甜,尹长川,潘林,等.基于改进的聚类和关联规则挖掘的学生成绩分析[J].北京邮电大学学报(社会科学版),2018(2):91-96.
[9]柳玉巧.聚类分析和关联规则技术在成绩分析中的研究及应用[D].武汉:华中师范大学,2014.
中图分类号: TP391;G647
文献标识码: A
文章编号: 1008-6390(2019)05-0105-06
收稿日期: 2019-05-10
基金项目: 重庆市教委科学技术研究项目(KJQN201801610);重庆市人文社科重点研究基地重庆市统筹城乡教师教育研究中心委托项目(18JDZDWT03);重庆第二师范学院校级科研项目( KY201701A);重庆第二师范学院校级教学改革研究项目(JG201922)
作者简介: 施成湘,副教授,研究方向:应用数学教育;周婷,重庆第二师范学院本科在读。
[责任编辑 乡 下]
标签:关联规则论文; Apriori算法论文; k-means算法论文; 师范生职前课程论文; 重庆第二师范学院数学与信息工程学院论文;