网络学习行为实时监控的研究与实践_数据挖掘技术论文

网络学习行为的实时监控研究与实践,本文主要内容关键词为:实时监控论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【中图分类号】G434 【文献标识码】A 【文章编号】1007-2179(2008)04-0087-06

网络学习行为监控的必要性和作用

(一)网络学习行为监控的必要性

随着网络的普及和学习型社会的到来,网络学习将成为一种重要的学习方式。网络学习依靠网络强大的共享性、交互性、时效性和开放性等特点,使其具有自己特有的优势。但网络学习也不可避免地带来了教师角色淡化、课程教学缺乏针对性、学生和教师缺乏交流等问题。此外,当前我国网络教学在实施过程中往往把注意力集中在知识内容组织、网络课程设计、学习资源提供等方面,却忽视了对注册学生的学习监控,这也是造成网络学习质量不够高的一个重要原因。中央广播电视大学(2007)网上教学检查表明,学生参与网上学习的热情不高,花了很大人力物力建设的数字图书馆和网上教学资源利用率很低。可见,网上学习效果令人堪忧!

网络学习是高度自主的学习,师生时空分离,没有了教师对学习者面对面的实时监控,学习得以进行完全依赖于学习者的学习动机、自主意识和自控能力,这对学习者本身的素质提出了很高的要求。而相对于西方国家的学生,我国学习者表现出诸多不适应网络学习的特征,主要表现在缺乏自主性、独立性和自我控制能力(曹梅,2002)。因此,网络学习中的监控机制对于改善网络学习效果、提高网络学习质量具有重要意义。

(二)网络学习行为监控的作用

网络环境下的自主学习监控就是针对学习者利用网络进行自主学习的一系列活动进行计划、检查、评价、反馈、控制和调节的一系列过程(董奇等,1996)。其作用有以下几个方面:

1)动态地掌握学习者的学习状况。掌握学习者的学习状况是学习行为监控的首要任务,它是对学习者网络学习过程进行的全面检查。只有了解了学习者的学习情况才能有助于教师实施指导,提供个性化的学习支持服务,才能有助于学习者的自我控制和调节。

2)提高学习效果,完成学习任务。根据建构主义学习理论,网络教育的最终目的是学习者借助网络环境各要素发挥学习主动性、积极性和首创精神,最终达到使学习者有效地实现对所学知识的意义建构。学习行为监控正是为实现这个目的而存在的。

3)增添人文关怀,激发学习热情。网络环境下的自主学习,学习者极少感受到教师的关注,也感受不到重视和尊重。引入和强化监控机制就是给学习者添加关注成分和情感因素,这对于改善学习环境,保持健康的学习心理是十分必要的。

4)提高自主学习能力。教师有针对性地教学指导,是学习者获得自主学习能力的途径之一。自主学习作为一种能力,是学习者与外部环境长期相互作用的结果,有的学习者自主学习能力强,有的则相对较弱,因此,网络学习需要通过教师对学习者学习过程的监控,对其学习情况做出反馈,给以恰当的指导,才能逐步提高学习者的自主学习能力。

网络学习行为监控系统的构建

要实现网络学习行为的实时监控,一个基本前提是,能采取有效措施,自动采集学习者网上学习过程中的各种信息,以供行为监控系统实时处理。如何精确、高效、实时地采集网络学习行为信息,关键在于准确恰当地定义网络学习行为的数据模型。

(一)网络学习行为数据模型的建立

1.网络学习行为的概念及特征

活动理论(Activity Theory)和行为科学(Behavioral Science)认为:行为,即一系列有目的、有动机的活动,是人与周围环境之间双向交互的过程(Jonassen,2002)。行为本身就是一个有结构、有层次的系统,它包括行为主体、行为客体、行为工具、行为主体所在的群体(团体)、该群体的组织规则和任务分工等要素(杨开城等,2002)。行为受动机支配,它由一系列活动组成,每个活动都受目标控制。活动通过具体操作来完成,而操作受环境条件的限制。

学习行为通常是指,学习者在某种动机指引下为获得某种学习结果而进行的活动总和。结合活动理论对人类行为的定义,可以认为,学习行为即学习者在某种动机的指引下,为获得某种学习结果而与周围环境进行的双向交互活动的总和。因此,本研究认为,网络学习行为是指学习者在由现代信息技术所创设的、具有全新沟通机制与丰富资源的学习环境中开展的远程自主学习活动的总和。

网络学习行为系统由行为主体、行为客体、行为环境等要素组成。与传统学习行为相比,网络学习行为表现出了不同的特征:即行为环境的开放性与虚拟化、行为控制的自主性与个性化、行为技能的科技性与专门化等(李国敏等,2001)。

2.网络学习行为的数据模型

依据活动理论和行为科学的基本原理,对学生网络学习行为的本质属性进行深入分析,本文将网络学习行为的数据模型定义为:Who Do What。

Who(行为主体)即网络学习者,在本模型中即用户的标识,是由字符串或数字组成的学生的网络学习平台账号,具有唯一性。Do(行为活动)则是由学生访问网络学习平台所做的操作和操作的时间构成,就Web服务器日志而言,操作主要有GET、POST等。作为网络学习行为,其操作也可以根据需要进行定义,一般情况下其语义应代表某种有意义的操作,如浏览、下载、发帖和回帖等。What(行为客体)也就是学生学习行为发生时所操作的对象,学习行为采集系统应该可以完整记录该操作对象,包括对象类型、对象名称或对象标识等。

3.网络学习行为数据的采集

由于网络学习行为的特殊性,采集网络学习行为数据比较困难。目前,常见的采集途径主要有通过Web日志(王巧玲,2007)、网络嗅探捕获等方法。

Web服务器访问日志(Access Log)一般包括:IP地址、请求时间、方法(如GET、POST)、被请求文件的URL和查询关键字、传输协议(一般是HTTP版本号)、返回码(表示响应请求的结果状态,如200表示成功,301表示页面已被永久删除,303表示页面没有改变,404表示找不到所请求的页面,500表示内部服务器错误)、传输字节数、引用页(指向被请求文件的页面)的URL(若用户通过书签或直接键入URL进入访问,则该域为空)和代理(通常记录用户使用的操作系统和浏览器的类型,有时也记录自动搜索站点的Spider或Robot软件的名字)。Web日志记录了很多和学习者紧密相关的信息,是重要的学习行为数据来源。通过Web日志系统采集学生网络学习行为数据可能是最方便、最易实施的一种手段。但由于日志系统本身的局限性,也存在用户很难准确确定、学习行为无法精确定位、在线信息实时获得不方便等不足。

嗅探技术最初是作为检测网络通信的一种工具,通常具备网络协议的分析和统计功能。嗅探器被安装在被监控的服务器之外,对流经被监控服务器的数据进行采集。其优点是不占用网络教学平台的资源,可同时获取多台指定的网络教学平台服务器的所有通讯信息,从而可以对所捕获的信息作统一处理、分析,具有很好的实时性。但嗅探器所获取的数据往往是比较底层的网络通信数据,记录的数据基本上为采样数据,既不利于在统计时精确地识别用户和用户行为以及联合网络教学平台查询统计数据,也无法精确无误地记录用户的行为。

鉴于上述原因,为了实现精确、高效、实时、全面地采集网络学习行为信息,本研究认为,网络学习行为数据采集可以采用服务器日志结合后台数据库的方法。因此,首先就要确定网络学习行为的数据记录内容,即定义网络学习行为的数据模型。合适和恰当的学习行为数据模型定义显得非常重要:首先,若学习行为模型定义过于笼统,会造成学习行为无法细化,从而损失很多与学生网上学习相关的行为数据,无法进一步对学生的网上学习、学生的个性特征、网络资源的使用情况等进行统计、挖掘和分析;若学习行为模型定义过细,则会造成海量的数据存储,大大影响系统的运行效率。其次,在网络学习平台设计时必须全面考虑需要记录的行为数据,为平台各个功能模块定义相应的行为数据记录接口,定义各类行为识别代码,编码时也要考虑预留,便于网络学习平台功能的扩展。通过监控系统结合网络学习平台进行数据采集,并将学习行为信息以数据库记录的方式存储到数据库管理系统中,便于行为监控系统实时统计分析。

(二)网络学习行为监控系统的设计

网络学习行为监控是对学习者网上学习活动的检查、评价、反馈、控制和调节(陈云虹等,2003)。熊邦忠(2007)从对学习时间、学习内容、学习交互和学习效果等四个方面的监控,提出了网络学习监控的初步构想,面向学习成长的行为监控思想:即通过对学习个性空间的信息监测,反映出学习个体在网络学习过程中为达到某个目标,所收集和学习相关的资源以及相关的交互信息,经过对这些信息有组织的加工呈现,折射出个体的学习进展过程或成长经历,进而做出相关行为调控的指示。面向学习成长的行为监控旨在督促学习者形成自主监控能力,帮助学习者开展意义学习,激发其自我改变、不断成长和自我实现。

1.学习行为监控系统的模型

为了能对学生网络学习行为进行动态跟踪、采集、分析、评价和智能反馈,本研究设计了一个基于网络学习平台的学习行为监控系统(见图1)。该系统实现的主要功能有:一是跟踪网络学习平台中学生学习的过程,收集此过程中与学习行为相关的数据,并建立学习行为数据库,为分析学生和资源特征做准备。行为数据收集必须保证数据收集的全面性和准确性。二是对学习行为数据库中的数据进行提取、加工和分析,并提供图形化操作界面,实现对学生网络学习行为的实时统计分析。三是根据所收集的学习行为数据,采用相关的算法进行数据挖掘,找出网络学习环境下的学习行为模式,并利用发现的学习行为模式向学生提供个性化的学习内容、学习安排,实现个性化的学习支持服务。

图1 网络学习行为智能监控系统模型

2.系统实现的关键技术

1)分布式多层NET技术。为使系统开发更方便,本研究采用微软推出的集成化第三代互联网开发平台。该平台提供了一个统一的、紧密集成的可视化编程环境,可以简化网络应用程序的开发过程。在开发过程中,Web Forms将代码和内容分开,设计方便,代码清晰。在系统开发中,因为涉及异构数据库、不同的网络语言、有差异的平台,所以采用分布式多层技术,通过连接着的多台计算机上分别执行不同的功能。这三层基本上由以下部分组成:

●数据服务层(Data Access Tier),主要是一些SQL存储过程,用于存放从数据库中检索信息的代码。此外,还有表定义、表关系和组成数据库的数据项。

●业务逻辑层(Business Logic Tier),这一层为通过调用多个命令或组件来实现。这些组件分别实现监控系统的一些计算、演化功能。

●表示层(Presentation Tier),Web页面集合,该层利用业务层进行工作,但并不直接访问数据库。

通过以上技术,用户只需装有IE浏览器就可以在任何地方存取、执行系统,大大方便了监控系统的使用。

2)数据库技术。数据库的设计通常是由一个已经存在的数据库管理系统为基础。常用的数据库管理系统有Access、SQL Server、Oracle等。根据用户需求和业务流程,本系统采用SQL Server 2005数据库管理系统。SQL Server 2005是一个全面的、集成的、端到端的数据解决方案,它为数据管理提供了一个安全、可靠和高效的平台,同时减少了数据系统的多平台创建、部署、管理及使用企业数据和分析应用程序的复杂程度。在NET平台上,调用SQL Server 2005数据库通过ADO.NET实现,ADO.NET为程序开发使用数据库提供了统一的编程接口。

网络学习行为数据库表的设计无需严格遵从数据库设计范式,应适当冗余。网络学习平台每日生成的学习行为数据量非常大,过多使用数据库表进行联合查询,可能导致查询效率低下。适当的数据冗余可在一定程度上减少联合查询,提高实时查询速度。

根据上述学习行为数据模型的定义,学习行为数据库由时间记录表和操作行为表构成。时间记录表记录了学习者进入课程以及离开该课程的时间,主要用于记录学生每次进入课程学习的时间长度;操作行为表记录了学生每一次与学习平台有意义的交互操作。时间记录表的字段主要有:用户账号、课程代码、进入课程时间戳、离开课程时间戳、时间长度(以分钟为单位);操作行为表主要由用户账号、用户类型(代表用户身份的字段,如学生、教师或管理员等,属于冗余信息)、班级代码、课程代码、操作对象分类、对象名称、对象媒体类型、操作类型(行为识别代码)和操作发生的时间等字段构成。根据网上教学实际需要,我们定义了20多种操作代码,包括浏览、发布、发帖、跟帖、组织讨论等;操作对象分类被分为课程说明、教师介绍、教学大纲、教学实施方案、教学媒体、作业、教学辅导、期末复习、IP课件、参考资料、虚拟实验、在线自测、学生学习笔记、学生学习计划、意见反馈、试卷管理、BBS讨论、答疑室等。

3)Web数据挖掘技术。网络学习行为监控系统通过多种途径采集数据,产生的这些数据将既有系统运行数据,又有学生学习行为数据。这些大量的信息数据通常能从各个层面反映学生行为的真实描绘。但是直接从数据层面上看,无法得出学生的相关规则,这就需要Web数据挖掘。通过对网络学习平台的行为数据建模并存入后台数据库后,学习行为监控系统的数据挖掘就要从Web服务器日志、后台数据库挖掘两个方面入手,其预处理方式有所区别。在网络学习平台中,每个学生或教师拥有自己的学号或工号作为用户名。学生进入系统时必须登陆并打开Cookie功能。在进行网络学习时,网络学习平台会将学习的时间、IP地址、访问资源等存入后台数据库,这极大地方便了数据预处理过程。此外,由于数据来自网络学习平台的多个数据库的多个数据表,数据值错误、属性缺失、记录重复等情况会经常出现。例如,由于种种原因,教师、学生的匿名注册,这样得到的基本信息是不准确的,根本不是真实信息。因此,本研究制定相应的一些规则,用以有效地减少信息的缺失,如按学号的数据清理、采用实名制等。

经过Web日志的收集预处理和后台数据库的预处理,形成了学生网络学习行为信息矩阵。鉴于学生数量大,且访问页面数量相对较少,因此系统数据存储时采用稀疏矩阵的三元组表示法,并根据下列步骤进行数据挖掘:

●根据系统设定的访问频度阈值,可以检索出频繁页面集、频繁访问时间;

●根据频繁页面集检索出频繁客户群体,并进而分出相似客户群体;

●利用设定的页面间距离阈值,可以从频繁页面集得到相关页面集;

●根据相关页面集合,结合遍历矩阵及连接强度阈值,获取用户访问网站的频繁路径;

●对每个用户数据进行聚类分析,得出使用偏好;

●将结果数据存入数据库,并结合网络学习平台进行智能反馈。

在上述数据挖掘实施过程中,系统运用统计学、机器学习和模式识别等领域的方法,对预处理得到的学生学习行为信息矩阵进行数据挖掘,具体采用的算法包括:统计分析、路径分析、关联规则挖掘、时序模式发现、聚类和分类算法等。利用Web数据挖掘技术监控学习行为,可以进一步了解和掌握学生学习的情况、需求、能力、进度、兴趣等,及时调整学习计划,呈现符合学生个性的学习资源,使得每一个学生获得个性化的服务。当有学生进入网络学习平台学习时,系统将自动检索推荐集,确定该学生所属的群体,并根据其访问序列,匹配当前访问以得到实时个性化推荐,以更好地适应学生的学习需要。

4)可视化技术(使用OWC绘制图表)。Office Web Component(OWC)组件是微软公司针对Web应用而开发的一套在线分析处理(OLAP)组件,主要用于在Web上发布电子表格、图表和数据库。OWC是组件对象模型(COM)控件的集合,包含四个主要组件:电子数据表格、图表、数据透视表和数据源,可以充分利用Microsoft Internet Explorer提供的大量交互功能。图表显示具有直观性,可方便地显示数据间的关系、变化趋势。利用OWC图表组件,可在Web服务器上动态创建各种类型的图表,并将图表以GIF图形的形式发送到客户端,进行图表显示。GIF图形文件是由服务器上的脚本执行程序回应客户请求时动态生成的。OWC的图表显示对客户端没有特殊要求,只要能够显示GIF图形就可以了。

OWC的图表建立在“绘图空间”上。一个绘图空间可以包含一个或多个图表,每一个图表可以有一个或多个数据系列。利用OWC生成图表图形时还可以设置各种布局参数,例如颜色、坐标标题、图表标题、图例等。OWC提供了数百个布局参数,可以随意地调整图表。通过使用OWC图表显示组件,可以使网络学习行为监控系统的界面更加直观。

网络学习行为实时监控的应用

对学生网络学习行为的实时监控,本研究主要进行了三个不同层次的应用。首先是基础信息网络运行状况分析,通过分析网络信息系统的运行状况,加强基础网络平台的建设,提高学习者远程访问教学资源的效率和速度。其次是网络学习行为的实时统计分析,了解和掌握学生群体及个体网上学习的基本特征,将有助于网络学习平台的维护、网上教学资源的设计和网上教学活动的有效开展;同时也有助于学习者掌握自己的学习进度,调节自己的学习行为。再次是网络学习行为的数据挖掘分析,通过数据挖掘发现的学习行为模式向学生推荐个性化的学习内容、学习安排等,从而实施个别化教育。

(一)基础信息网络运行状况分析

现代远程教育是建立在计算机信息网络基础上的,不仅要求网络稳定运行,并且要求网络能够支持多媒体数据的可靠传输,对网络运行提出了很高的要求。但网络运行的环境非常复杂,黑客攻击、计算机病毒、设备故障和软件设计缺陷等都有可能造成网络异常,甚至出现网络通信中断。因此,需要在计算机网络核心和网络出口安装网络协议分析设备,全面监控网络的实时流量及网络应用情况,防止或及时处理网络异常,保证网上教学活动的正常开展。

图2描述了2007年9月24日15时22分19秒浙江广播电视大学核心网络的通信协议分布情况。从图中可见,HTTP为网络的主要应用,TCP数据包占所有数据包的90%,UDP数据包占10%,这样的协议分布表明多数学生网上学习的对象是网页等形式的教学资源(注:Others为网络协议分析系统未识别的其他网络协议的总和)。而根据网络运行的历史情况,通常当大量学生在网上点播视音频教学资源时,服务器的主要数据流量为视频数据所占用,UDP数据包所占比例可高达30%多。

图2 网络总体运行情况

(二)网络学习行为的实时统计分析

1.群体网络学习行为分析

了解和掌握学生群体网上学习的基本特征,对于网络学习平台的维护、教学资源的设计、网上教学活动的开展具有重要的指导意义。

1)学生客户端信息。网络学习平台不同于普通网站,在设计开发时需要考虑网站的教育性、交互性,尽量做到画面布局合理简洁,并且能够突出教学重点,方便学生在线学习。然而,不同的客户端(目前较为主流的浏览器有Internet Explorer、Firefox等)在显示同一内容时会有不同的表现效果,而且同一浏览器的不同版本也会造成显示上的差异。因此,了解学生客户端的使用情况,将有助于学习平台和教学资源的开发设计,从而为学习者提供最好的媒体效果感受。

2)课程资源访问情况。远程教育师生处于分离状态,课程资源是教师向学习者传递教学内容的主要媒介。因此,了解和掌握学习者对课程各类资源的访问情况,将有助于教师进行网上教学设计和提供更有针对性的学习支持服务。例如,以《中级财务会计》课程为例,通过了解其资源访问情况(见图3,统计时间为2007年9月1日至2008年1月15日)可以看出,学生较为关注的课程资源主要有作业、教学辅导、期末复习、音视频媒体、教学实施方案和参考资料,因此,教师要重点做好以上资源的设计与维护,以满足学生的学习需要。

3)不同地域学习者的分布。网络教育的各教学点分布在不同地方,了解和监控不同地域学习者访问学习平台的情况(见图4,统计时间为2004年5月20日至2007年9月27日),可以更有针对性地改善学习平台的处理性能,提高学习者的访问速度,为各地学习者提供更快捷的网上学习支持服务。同时也便于了解不同地区学习者对网络学习平台的关注程度和各教学点网上教学的组织实施情况。

图3 课程资源访问情况

图4 不同地域学习者分布

4)同时在线人数分布。学习者登陆学习平台后,学习平台自动记录该学生的登录信息,并每10分钟对人数进行一次采样,由计算机自动绘制同时在线人数分布图(见图5)。教师、教学管理人员和技术人员能实时查阅该图。

图5描述了2007年12月18日全天24小时不同时间段学习者的在线人数分布,可以看出,学习者从早上8点开始网上学习,并在上午9点至10点、下午14点至16点、晚上20点至22点分别达到峰值,甚至深夜尚有个别学生在网上学习。这样,技术人员就可以根据学习者的在线学习规律,在峰值时加强对学习平台运行性能的监控,从而保证网络环境的正常运行。教学管理部门、教师根据学习者的在线学习时间分布,可以捕捉到开展网上实时教学活动的最佳时机,从而提高网上教学效果。

图5 同时在线人数分布

2.学习者个人网络学习行为分析

学习者个人学习行为统计信息包括三部分内容:个人简要信息、学习行为统计和操作日志(见图6)。学习行为统计部分以课程为单位,记录了学习者课程学习时间、各种媒体的学习次数、与教师或学习者之间的交流互动以及自检自测等情况。操作日志部分记录了学习者每天在学习平台上的详细操作。

图6 学习者个人学习行为信息

通过对学习者个人学习行为分析,教师一方面可以了解学习者网上学习的行为、资源以及课程等方面的偏好,从而及时调整教学内容、教学方法,为其提供个性化的学习支持服务,实施个别化教育;另一方面,也可以监督学习者的网上学习,督促其更好地参与网上教学活动。同时,也便于学习者掌握自己的学习进度、调节自己的学习行为。

(三)网络学习行为的数据挖掘分析

对所收集的学习行为历史数据进行数据挖掘,可以获得一些潜在的有价值的信息。如发现学生在一些章节页面的停留时间与教师规划的时间相差很大,而这些页面都是信息量较大的长页面。尤其当页面信息量超过一定数量的知识点后,学生在这些页面的停留时间反而减少了。通过重新分解知识点减小页面长度,结果情况得到了改善。

经过基于聚类的Web数据挖掘,我们发现了很多相似学生群体和相关页面。相似学生群体和相关页面的发现为学生分类提供了依据。教师可以针对不同的学习群体,了解其知识结构和学习风格,进而根据每个小组的特点,为其成员提供个性化的学习内容及学习安排。同时,由于小组成员的知识水平和兴趣爱好基本相似,可以让小组协作完成一定的课题项目,从而使远程教育服务更加个性化、人性化。

此外,在相关页面之间建立超文本链接,从而优化站点结构,把学生想要的信息以更快、更有效的方式展现。同时,通过相关页面,可以预测学生今后的访问情况,预先对相关页面资源进行高速缓冲存储,从而改善网络的信息流通状况,解决下载速度缓慢的问题。

结论

我国网络教育的发展尚处于初级阶段,网络环境下的在线学习者目前尚缺乏自主学习所需的独立性、自主性和自我控制的学习能力,因此,引入和强化监控机制相当必要。我们通过加强对学习者外在学习行为的监控,提高学习者的自我控制,同时在网络学习过程中给予学习者及时的学习反馈,以激发、保持学习者的学习动机,从而保证网络教育教学的有效性,提高教学质量。

【收稿日期】2008-05-26

【修回日期】2008-06-16

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

网络学习行为实时监控的研究与实践_数据挖掘技术论文
下载Doc文档

猜你喜欢