我国教育数据挖掘研究热点与趋势分析论文

我国教育数据挖掘研究热点与趋势分析*

聂文苗 彭绍东

(湖南师范大学 教育科学学院,湖南 长沙410081)

摘 要 :随着教育大数据应用价值日益凸显,教育数据挖掘领域的发展受到广泛关注。研究以中国知网中的教育数据挖掘类文献为样本数据,主要采用BICOMB2.0、Ucinet6.0、SPSS 20.0 等研究工具,分别进行时间分布分析、词频分析、共词聚类分析以及战略坐标分析。研究结果显示,数据挖掘与算法在教育数据挖掘中的应用研究、大数据视域下学习分析的应用与思考、基于教育数据挖掘的远程教育发展探究等是主要研究热点。最后进一步探讨了教育数据挖掘的发展趋势。旨在探索教育数据挖掘领域研究轨迹,为同类研究提供借鉴和参考。

关键词 :教育数据挖掘;研究热点;发展趋势

一、引言

中共“十九大”报告指出在发展的重要战略机遇期必须深化教育改革,加快教育现代化,把建设教育强国作为中华民族伟大复兴的基础工程。为把握发展机遇,面对大数据对教育领域产生的重要影响,充分利用前沿引领技术来提取或挖掘教育数据的价值显得尤为重要。2018年4月教育部印发了《教育信息化2.0 行动计划》,该计划聚焦以能力为先的人才培养需求,提出实施数字资源服务普及、网络学习空间覆盖、教育治理能力优化等重点开展的八大行动[1]。这些行动实施过程的特征是以“数据”为*基础,这表明我们在推进信息技术与教育教学深度融合的条件下,需要利用数据挖掘技术发现教育产生的海量数据所隐藏的规律和深层联系,从而使教育数据为各级各类教育的发展提供支持服务,真正实现教育数据挖掘的意义。

教育数据挖掘是顺应智能环境下教育发展的必然选择,已成为众多学者研究的重点,但是整体上分析该领域研究现状与热点的文献少而分散。本研究主要通过BICOMB2.0、Ucinet6.0、SPSS20.0 对检索的相关文献分别进行时间分布分析、词频分析、共词聚类分析以及战略坐标分析,并结合文献研读展开探讨,从而把握我国教育数据挖掘领域的研究热点及其发展趋势,旨在为同类研究提供参考。

二、研究的对象、方法与过程

1.研究对象

本研究数据来源于中国学术期刊网络出版总库CNKI,以“主题”为检索项,“教育数据挖掘”“教育+数据挖掘”为检索词进行高级检索,检索时间限定为2017年12月31日之前,并对初次检索结果中会议通知、论文集、开栏语以及无关的文献进行排除,最终选取624 篇有效样本作为研究对象。本研究将这624 篇文献的题录信息以NoteFirst 格式导出并保存,以便利用相关研究工具进行系统梳理和分析。

2.研究方法与研究工具

本研究主要使用文献年代分布分析、词频分析、共词聚类分析和战略坐标分析法。文献的时间分布情况能够反映教育数据挖掘领域关注度的变化。词频分析法是对表现文献主体的关键词的频次进行统计,利于快速掌握研究重点。共词聚类分析是利用聚类算法统计共词出现的频率,把众多分析对象之间复杂的共词网状关系简化为数目相对较少的若干类群之间的关系,以进一步探究主题词之间的关联[2]。战略坐标分析法是通过计算向心度和密度来探究聚类后所形成各亚领域内部以及彼此之间关系紧密程度的方法。

本研究使用的工具包括BICOMB2.0、Excel、SPSS20.0以及Ucinet6.0,使用目的是探寻科学文献中的可视化模式和发展趋势,分析该研究领域演进的关键路径和潜在动力机制。其中,书目共现分析系统(BICOMB)是在文本数据集中正规地抽取关键字段,发现潜在、有效、新颖的信息,并用可理解的视觉方式呈现的工具。其在本研究中主要步骤为:(1)新建项目来管理NoteFirst 格式类型的主题数据;(2)将一批待处理xml 格式文件解析,提取关键字段并修改(同义词合并),调整显示结果的顺序;(3)根据g 指数原理设置高频词阈值,对提取字段内容进行词频统计;(4)生成共现矩阵,利于后续SPSS20.0 进行聚类分析以得到战略坐标图。

3.研究过程

式中:μm为混合油黏度,mPa·s;μi为组分油i黏度,m Pa·s;X i为组分油i质量分数,ΣX i=1,i=1~n。

图1 研究过程图

三、研究结果

1.文献年代分布

利用BICOMB2.0 进行词频统计后,还可生成高频词共现矩阵以便进一步研究内部关系特征,部分如表2所示。利用Ucinet6.0 对数据进行可视化,可形成图5所示的高频关键词共现网络。从图表中可以看出,出现在同一篇文献次数较多的高频词组有“数据挖掘”—“关联规则”“教育数据挖掘”—“学习分析”“数据挖掘”—“远程教育”等,表明这些个体之间存在较密切的关系。为深入挖掘隐性信息,将共现矩阵转换为相似矩阵,结果如表3所示。其数值大小表明关键词间的相异程度,值越大,相似度越小,距离越远[4]。两个矩阵是我们后续进行聚类和战略坐标分析的重要基础。

图2 时间分布图

图3 雷达图

2.词频统计

1.2.1 抗病酶活性测定。2015年在公主岭南崴子进行。7月9日田间喷施公主岭霉素水浸提液。施药前取样并每隔3 d取样1次,连续取样10次,样品于-80 ℃保存备用。苯丙氨酸解氨酶(PAL)活性采用苯丙氨酸紫外吸收法[4]测定;超氧化物歧化酶(SOD)活性采用氮蓝四唑自氧化法[5]测定;β-1,3-葡聚糖酶(GLU)活性采用还原糖测定法[6]测定。分别以春雷霉素和清水作为阳性和阴性对照,设3次重复。

表1 高频关键词(前20)

图4 高频关键词标签云

3.构建共词矩阵与相异矩阵

对2002-2017年间国内教育数据挖掘相关文献进行时间分布统计,具体如图2、3 所示。从中我们发现,关于教育数据挖掘的研究数量整体呈上升趋势。文献数量变化曲线可以划分为三个阶段,2002-2004年期间,教育数据挖掘研究文献相对较少;在2005-2012年期间,相关研究文献逐步增加且个别年份小幅减少,所占比例达到24%;在2013-2017年期间,发表数量显著增加,所占比例已达到74%,2017年文献数量达到了178 篇的最高值,这受到了网络教育逐渐普及,教学行为与教育要素数据化的影响。由此说明,国内教育数据挖掘研究的关注度越来越高,各领域学者结合专业背景,挖掘教育数据潜在价值来解决实际问题,研究成果逐渐丰富。

具体研究过程如图1所示。

表2 共词矩阵(部分)

表3 相异矩阵(部分)

图5 高频关键词共现网络

4.高频关键词聚类树状图与战略坐标图

战略坐标图是通过计算外(内)部连接平均数以及相应总平均数得到各个类团研究主题向心度(密度)后绘制而成的,用于描述研究亚领域内部联系状态和亚领域间的相互影响[6]。根据表4计算结果,以向心度为横坐标,密度为纵坐标,把每一个研究热点放置到坐标的四象限中,如图7所示。从核心/周边地位、发展成熟/不成熟角度出发,观察并描述各主题的研究发展情况,有利于辅助我们进行教育数据挖掘领域发展趋势的探讨。在A—F 表示的6 个研究热点中,B、D 在第一象限,即学习分析应用与远程教育发展是教育数据挖掘领域研究的重点内容,发展较为成熟;A 在第二象限,且密度最高,说明分类的各主题词联系最紧密,表示数据挖掘算法在教育数据挖掘领域中已初步成熟,而向心度低表示目前的研究处于非核心状态;E、F 在第三象限,二者向心度、密度都最低,说明这两项研究主题内部结构松散且发展不成熟,处于研究的周边地位;C 在第四象限且向心度最高,说明该研究主题与其他主题间联系广泛,如教育数据挖掘、在线学习、机器学习与其他主题中关键词共现次数高,表示其同样是研究重点与核心,但研究有待于成熟。

图6 高频关键词聚类树状图

聚类分析的目的是按照个体特征分类,使同类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性。共词聚类分析是把复杂的共词网状关系简化为若干类群之间的关系,便于有的放矢地进行策略分析。为此,将相异矩阵导入SPSS,并进行参数设置。包括聚类方法是组间联接,测量方法选择平方欧式距离,使用Z 得分标准化转换值,最终生成可以直观表现聚类过程的聚类树状图,如图6所示。结合粘合力的计算(N(A i )=S/(n-1),n 为某类团内主题词数量,S 为与其它词共现频次之和)衡量聚类后形成的类团内各主题词对所属类团的贡献程度,以中心词为主确定类团的名称与性质[5]。经计算比较与分析后,将高频关键词聚合成的6 个类团的研究主题(A-F)分别总结为:数据挖掘与算法在教育数据挖掘中的应用研究、大数据视域下学习分析的应用与思考、面向智慧学习的教育数据挖掘作用研究、基于教育数据挖掘的远程教育发展探究、教育数据挖掘关键技术研究、基于学习活动过程数据的学习预测与学业预警研究。

利用BICOMB2.0 对有效文献中关键词进行词频统计,然后删除无关、同义词合并整理,最后,结合词频g 指数计算公式[3]:M>=g2&N<(g+1),提取了37 个高频关键词,按照频次降序排列的具体情况如表1所示。为了更直观地进行可视化表达,而将重要关键词渲染输出为词云,如图4所示。由结果可见,与教育数据挖掘联系最为密切的词分别是数据挖掘和大数据,它们是该领域重要研究内容。

表4 研究主题的向心度和密度

图7 战略坐标图

四、研究热点分析

1.数据挖掘与算法在教育数据挖掘中的应用研究

教育数据挖掘符合教育信息化建设的价值取向,主要应用数据挖掘技术帮助揭示潜在的意义关系,科学解释教育现象,发现相关教育动态和规律。因此,教育数据挖掘领域伴随数据挖掘技术(如数据挖掘算法)的进化而逐步发展。从管理与评价的服务角度出发,李桥等[7]提出应用关联规则与Apriori 算法在样本分析中发现有价值的数据模式,为科学地评价教学活动及教学改进提供依据。还有运用决策树算法、聚类算法设计信息系统、开发教育决策支持系统[8],为高校发展规划提供帮助,实现管理的智能化。除此之外,李彦奇[9]、王琴[10]等通过比较常见算法后选择合适算法进行优化,建立模型应用于就业系统,实现对高校就业的指导。综上,研究者主要探讨了各种算法在教学管理、教学评价、就业、成绩等方面的应用以及如何互相结合使用提高算法效率,但如何在保证信度效度前提下能够平行移植算法,使模型或系统应用在更大的领域中。如何能够挖掘出更有质量、体现教育教学本质的规则,目前这些研究有待于深入。

2.大数据视域下学习分析的应用与思考

教育数据挖掘和学习分析这两个研究领域联系紧密且多有交叉,是目前促进教与学的热门领域。二者虽然起源、侧重点具有差异性,但是具有很多共同的目标和关注点。舒忠梅、徐晓东等对于跨领域研究有深度探讨,如基于教育数据挖掘视角获取影响大学生满意度的因素,从学习分析视角探讨意义再建构[11],从学生个体和学校两层面构建学习成果评价模型[12]、采用相关分析和数据挖掘方法相结合识别以学生投入模型为基础的相关因素,并对学生学习行为进行分类研究[13]。这些探讨,充分发挥了教育数据挖掘方法建模与发现结构的优势,促进了学习分析中的意义建构。同时也利用学习分析收集学习痕迹促进教育数据挖掘算法的发现演进路径与计算指标。刘清堂等[14]界定了学习分析和教育数据挖掘的概念与区别,提出教育数据挖掘可以帮助解决学习分析中的数据不足等问题,学习分析应用策略等可为教育数据挖掘提供借鉴。因此,协同研究、跨领域合作对于彼此的发展大有裨益,关键是处理好人为与自动的关系,做出合适的搭配与解释论证。

3.面向智慧学习的教育数据挖掘作用研究

在“互联网+教育”的背景下,教育数据挖掘技术是一种手段,能够将资源汇聚并流动传播。它更是一种创造力,体现在适应各种教育场景的变化,动态挖掘隐藏的知识信息,形成新的认识与研究。教育数据挖掘技术其实是在教育领域中采用的数据挖掘技术。冯桂尔[20]对于在线课程学习的大量数据,运用各种数据挖掘技术进行挖掘,如从路径分析访问次数、聚类分析共同特征、关联规则统计兴趣比率、序列模式预测学习行为,使改善后的在线平台访问与交流频次增多、满意度与成绩有了提高。彭亚等[21]将教育数据挖掘技术方法的分布进行了梳理,结果显示常用的技术分别为预测、关系挖掘、聚类、统计分析与可视化,其它应用较少的是协同过滤,研究的重点是随着数据更丰富,技术的复杂度更高,需要注意挖掘任务目标与挖掘技术的适应性,避免走弯路。研究者更多倾向于数据挖掘技术在网络教育、平台架构、学习行为分析等方面的应用,而技术的标准化与易用性的研究还不成熟,当前的数据“孤岛”与技术“鸿沟”问题依然有待解决。

4.基于教育数据挖掘的远程教育发展探究

教育数据挖掘中,提取可用信息、构建学习者模型等是促进远程教育研究关键问题解决的助推器。其中,个性化学习支持服务与教学交互是远程教育的核心内容之一,也是研究者关注的热点。姜强等强调了个性化自适应学习成为大数据时代数字化学习新常态的必要性,并提炼了个性化自适应学习的元认知与开放学习者模型、自主学习方式、信息可视化处理等内容[17],为解决网络个性化学习问题、提高学习者学习效果、改善学习体验提供了应用参考。冯桂尔[18]侧重于从数据挖掘在远程教育中的作用出发,运用关联规则、聚类分析等方法处理在线课程数据,尊重个体差异,反馈结果以优化教学。张婷[19]基于现代远程教育发展与个性化学习理论,运用数据挖掘技术挖掘学习者相关信息,设计出以学习者模型为核心的个性化学习系统,进而为后续的智能应用及动态更新研究提供借鉴意义。因此,教育数据挖掘拓宽了远程教育发展的实现路径,对于支持个性化服务、辅助学习者资源取舍、学习诊断与反馈等方面有较大的促进作用。

5.教育数据挖掘关键技术研究

教育数据挖掘旨在通过对持续积累的数据资源进行智能挖掘,发现教学活动过程中各变量的价值关系,重点解决“为什么”“是什么”的问题,然后作为促进教育结构性变革的重要实践途径,为“如何用”探讨方向。文益民等提出在人才培养方案设计、招生、在校学习与生活、学生就业以及校友跟踪调查五个阶段实施数据挖掘[15],推动应用模式的改革,创新高校人才培养机制。吕海燕等针对教育数据挖掘的作用,以学生在线学习行为分析为例,形成教育数据挖掘模式的构成要素及流程[16],强调了调整优化教学策略与完善课程内容的重要性。此外,研究者需要深入探讨在数据机制中,如何利用机器学习使供给方式适应智慧学习的需要,以满足教与学利益相关者需求。这些研究将参与教育供给侧改革,助力教育服务供给模式升级。

导生仍然是学生,他们有自己的学习任务,所以在实训教学中,不能过分依赖导生,注意把握好导生协助教学的尺度:一是不能过多占用导生的学习时间;二是对导生的利用仅限于协助教学,不能把课堂上出现的其他问题让导生处理;三是教育导生处理好与同学的关系。

6.基于学习活动过程数据的学习预测与学业预警研究

在教与学的动态交互过程中,各种类型数据出现,如学习参与度数据、课程表现数据等,这些可作为教育数据挖掘的输入,然后被事先制定的规则程序自动分析进而得到输出结果,最后将结果结合教育教学的热点问题进行分析与应用。学习成绩预测与学业预警研究作为不断深化教学实践探索的重要抓手,与教育数据挖掘中的学习活动过程数据联系紧密。陈益均等[22]基于数据挖掘中的聚类算法对不同网络行为群体的成绩特征进行分析,从而探讨学生成绩影响模型,制定有效策略。陈子健等[23]采用数据挖掘与机器学习方法,通过相关系数和信息增益率共同确定成绩影响因素,构建分类预测模型并评估性能,推进在线学习学业预警及学习预测实践。大多数研究的一般流程,是运用数据挖掘技术对各种学习记录与行为信息进行提取、分析,构建学习者模型,从而判定学习者行为属性,并预测其学习表现,对具有警告的行为提供指向性内容和针对性干预,以达到教育教学的精准支持,规避风险,促进学生全面发展。

鬼子遭到了第一次打击后,并不死心。鬼子大队长紧急调来了几十门山炮,同时请求再派出飞机对高家岭阵地进行新一轮轰炸。

1)节能指标任务超额完成。通过全面节能管理,大幅超额完成国资委下达给集团公司“十二五”和第四任期节能指标;所属30家“万家企业”均完成发改委及当地政府下达的节能目标。

五、研究趋势讨论

1.决策支持系统、自适应学习系统的设计与应用

教育数据挖掘的算法、方法与技术对决策支持系统、自适应学习系统的设计与实现起着重要的作用,未来将促进各种服务系统的研制与应用。决策支持系统包括数据仓库、知识库、方法库以及人机接口五个重要组成部分,技术改进将有利于发挥各部分协同效应,完善系统功能,为学校管理与决策提供强有力的支撑。自适应学习系统是支持个性化学习、实现差异化教学的有效途径,它能够对多维数据进行转化分析,从社会性、情感性和元认知等方面建立模型,以使学习者掌握自己的学习状态,主动投入深度学习。但是目前记录、跟踪、分析、预测、评估等阶段的自适应调节还不精准,离目标还有距离,还需要研究者开展深入探讨。此外,这些系统的设计与应用需应用更多教育理论,旨在为内容配置、学习行为评估等方面提供指导,共同促进教育数据挖掘意义的实现,避免实践脱离教育需求的尴尬局面。

2018年11月28日,据媒体报道,英美资源集团根据其LosBronces和Collahuasi矿山的扩建计划,将今年智利业务的铜产量指引从先前预期的63万 t增加至66万 t。

2.安全标准、法规的制定与隐私保护算法的创新应用

随着虚拟现实、人工智能技术的发展,教育数据挖掘创新应用面临着机遇与挑战。纵观研究热点中各类应用实践,可知教育数据挖掘发展的着力点越来越丰富,但伴随着多类型大规模的数据共享,其安全与隐私问题越发凸显。如何在保障师生隐私的前提下进行数据的采集与分析,已成为当前及今后所面临的挑战之一。未来研究中,对于该问题解决主要有两大切入点:一是制度保证,即制定相关安全标准和特定的非营利性规则,加强对运营产业的监管,以此来规范教育机构或企业获取教育大数据的行为,严格保密所持有数据资源,保证师生等资源提供方的合法权益;二是教育数据挖掘隐私保护算法,如k 匿名算法、关联规则隐藏算法等,可在一定程度上防止隐私泄露,但是需要平衡数据挖掘的准确性与隐私保护强度。因而,数据挖掘隐私保护算法的组合创新及精细化应用将是未来重要发展方向。

六、总结

基于教育数据挖掘领域的文献进行了年代分布分析、词频分析、共词聚类分析和战略坐标分析,根据以上分析得到的研究结果确定了六大研究热点,并重点阐述了众多研究者的核心思想以及各主题所处研究状态、存在的问题。最后结合文献研读,指出决策支持系统与自适应学习系统的设计及应用、制度保证与隐私保护算法的创新应用等是未来研究的重要发展动向。这些都表明在教育行为和教育要素数据化的时代,教育数据挖掘以其显著特征促进“联接”与“智能”落地,同时为各级各类学校的教学改革带来了新的机遇。

参考文献 :

[1]教育部.教育信息化2.0 行动计划[EB/OL].[2018-06-10].http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_3341 88.html.

[2]杨颖,崔雷.基于共词分析的学科结构可视化表达方法的探讨[J].现代情报,2011(01):91-96.

[3]张松,刘成新,苌雨.基于词频g 指数的共词聚类关键词选取研究——以教育技术学硕士学位论文为例[J].现代教育技术,2013(10):53-57.

[4]张家华,邹琴,祝智庭.国内近五年学习分析研究现状的可视化综述[J].浙江师范大学学报(社会科学版),2017,42(01):117-124.

[5]钟伟金,李佳.共词分析法研究(二)——类团分析[J].情报杂志,2008(06):141-143.

[6]何南洋.图书情报学知识图谱的构建及解读[D].上海:上海交通大学,2011.

[7]李桥,阳春华.关联规则Apriori算法在教学评价中的应用[J].计算机与数字工程,2010,38(06):49-51,81.

[8]黄景碧.数据驱动的教育决策支持系统(DDEDSS)设计与开发研究[D].上海:华东师范大学,2012.

[9]李彦奇.基于决策树的高职院校就业系统的研究与设计[D].石家庄:河北科技大学,2012.

[10]王琴.决策树算法在高校研究生就业信息库中的应用研究[D].武汉:武汉理工大学,2010.

[11]舒忠梅,徐晓东.学习分析视域下的大学生满意度教育数据挖掘及分析[J].电化教育研究,2014,35(05):39-44.

[12]舒忠梅,屈琼斐.基于教育数据挖掘的大学生学习成果分析[J].东北大学学报(社会科学版),2014,16(03):309-314.

[13]舒忠梅,徐晓东,屈琼斐.基于数据挖掘的学生投入模型与学习分析[J].远程教育杂志,2015,33(01):39-47.

[14]刘清堂,王洋,雷诗捷,张思.教育大数据视角下的学习分析应用研究与思考[J].远程教育杂志,2017,35(03):71-77.

[15]文益民,易新河,李忧喜,文博奚.高校人才培养全过程与信息技术深度融合中的数据挖掘[J].高教论坛,2016(04):18-24.

[16]吕海燕,周立军,张杰.大数据背景下教育数据挖掘在学生在线学习行为分析中的应用研究[J].计算技术与自动化,2017,36(01):136-140.

[17]姜强,赵蔚,李松,王朋娇.个性化自适应学习研究——大数据时代数字化学习的新常态[J].中国电化教育,2016(02):25-32

[18][20]冯桂尔.数据挖掘技术在远程教育中的应用[J].现代教育技术,2012,22(12):96-98.

[19]张婷.现代远程教育中个性化学习者模型的研究[D].无锡:江南大学,2017.

[21]彭亚,于翠波,张勖.教育数据挖掘技术应用研究[J].中国教育技术装备,2017(18):1-5,13.

[22]陈益均,殷莉.基于数据挖掘的学生成绩影响模型的研究[J].现代教育技术,2013,23(01):94-96,93.

[23]陈子健,朱晓亮.基于教育数据挖掘的在线学习者学业成绩预测建模研究[J].中国电化教育,2017(12):75-81,89.

中图分类号 :G434

文献标识码: A

文章编号: 1671-7503(2019)07-0065-06

* 基金项目: 湖南省社会科学成果评审委员会重点课题“网络空间共同体协同创新机制研究”(课题编号:XSPCX007)。

[实习编辑:王会丽]

标签:;  ;  ;  ;  

我国教育数据挖掘研究热点与趋势分析论文
下载Doc文档

猜你喜欢