知识挖掘在网络教育资源组织中的应用,本文主要内容关键词为:教育资源论文,组织论文,知识论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
全球范围内数据库中存储的数据量正急剧增加,数据库系统提供了对这些数据的管理和简单处理能力,人们可以利用这些数据进行商业分析和科学研究。面对如此庞大的数据库,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析,以得到关于数据总体特征和对发展趋势的预测,教育资源更是如此。教育资源的组织是贯彻教育方针的深化,如何从网络教育资源中挖掘可用信息是当前网络化学习的方向。本文结合知识挖掘和教育资源组织,对这一问题进行探讨。
1 知识挖掘技术的基本概念
1.1 知识挖掘的定义
知识挖掘的定义几经界说,最新的描述性定义是由Usama M.Fayyyad等给出的:数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。
数据是指有关事实的集合,记录和事物有关的原始信息。模式是一个用语言来表示的表达式,它可用来描述数据集的某个子集,我们讨论的知识,是对数据包涵的信息更抽象的描述,即对大量数据进行分析的过程,包括数据准备、模式搜索、知识评价以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。
有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性是指要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性。
由于数据挖掘是一门新兴学科,况且它又是一门受到来自各种不同领域的研究者关注的边缘学科,因此产生很多不同的术语,除了称为“知识挖掘”外,主要还有如下若干种称法:“数据发现”、“数据开采”、“知识抽取”、“信息发现”、“知识发现”、“智能数据分析”、“探索式数据分析”、“信息收获”和“数据考古”等等。“数据挖掘”被许多研究者看作仅是数据发现的一个步骤。相对来讲,数据开采主要流行于统计界、数据分析、数据库和管理信息系统(MIS)界;而数据发现则主要流行于人工智能和机器学习界。
1.2 知识挖掘的步骤
(1)确定应用领域:包括此领域的基本知识和目标。
(2)建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。
(3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,选择与任务相关数据,在不降低其准确度的状况下减少处理数据量。
(4)数据转换:找到数据的特征进行编码,减少有效变量的数目。
(5)数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法。
(6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止。
知识挖掘成功有两个重要的因素,一是对遇见问题的信息的精确把握;二是用正确的数据,这又包括两层含义,一是数据本身的真实可靠性,二是数据对模型的适合度要高。
1.3 知识挖掘的预测类型和模型
知识挖掘就是要从大量的数据中找出关联和模式,进而指导我们的实践。它的预测功能是很显著的。预测的种类大致有以下三种:
(1)分类,即确定某个事件的门类性或者是阶层性的归属。
(2)回归,即对一个变量的质的测定。
(3)如果该变量是与时间相联系连续变化的,那就要用时间序列预测。
1.4 知识挖掘关键技术和方法
知识挖掘的模式和算法丰富多样,各有所长:
(1)神经网络模式:采用仿生学的方法,通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分析,用于非线性复杂的数据。神经网络由神经元的互连或按层组织的结点构成。通常的组成层次有:输入、中间和输出层。目前的三大神经网络模型有前馈式、反馈式、自组织。前馈式网络多用于预测、模式的识别,反馈式多用于联想记忆和优化计算,自组织多用于聚类。
(2)决策树模式:采用分支方法加上赋值的运算来得到结果。能在决策树中运用的算法有多种,包括CAID(Chi-squared Automatic Interaction Detection)、CART(Classification And Regression Trees)、Quest等。因为分支的关系,所以决策树在决定分支的距离(分支间的差异)时最关键。此种模式多用在分类预测中。
(3)遗传学算法。这是模拟生物进化过程的算法。首先对求解的问题进行编码,再利用基因复制、突变等方法产生新的个体,直至求得最佳个体。
(4)适合多变量的回归模式:对于涉及到多个变量,特别是变量的作用是不连续的数据,该模式分析最为得心应手。
(5)规则归纳模型:决策树是按照一些与结构有关的规则来分支,但规则归纳法可以有与树状结构不相关的规则来对数据进行分类处理。它的规则可以不像决策树那样地严密和全面,也可以不具有层次性。它能找到不同的有时可能更好的分类方式。
(6)逻辑回归模型:此模型是对线形回归的普遍化,主要用于预测双元体(如对或错、0或1),偶尔用在多层的变量上。
除上述之外还有K-nearest Neighbor、Memory-based Reasoning、Generalized Additive Models、Boosting等模式和算法,极大地增加了知识挖掘技术实力,使其挖掘的结果更能指导我们的具体实践。
2 网络教育资源组织
目前网络资源非常丰富,这些资源包括了电子书、电子期刊、虚拟软件库、虚拟图书馆、电子百科、新闻组、数据库、教育网站等。从宏观上来说,能促进学习者学习的所有资源都可以说是网络教育资源。但对于学习者来说,真正有效的学习资源是必须经过精心设计的,能满足学习者自主学习需要的教育资源。
2.1 资源的组织分类
(1)从教育资源的物理存放位置来看,可分为本地、导航和泛在资源三种。本地资源有精心的策划和组织,是学习的核心材料,但它的缺陷是本地的资源存储能力对资源广度的限制性。随着本地的概念从单机扩大到局域网,这个缺陷有所克服。导航的资源是在一定代理的工作下,提供大量的学习辅助材料。泛在资源就是不存在代理的非本地资源。比如说搜索引擎就是对泛在资源作一个带有用户目的的检索。
(2)从网络教育资源的呈现形态来看,分为超文本和超媒体两种。各大教育网站用超文本交换信息,简单直接,节省了网络的带宽。而视频、音频的教学资源则采用了超媒体的状态。
(3)从学习的类型来看,分为概念规则性的学习和问题解决型的学习。概念规则性的学习要求资源的逻辑清晰,说理强,信度高,符合一定的教学程序。而问题解决型的学习,教育信息量要求广泛,对学习者的信息提炼能力要求很高。
(4)从面对的对象来看,有面向学生、老师、家长的。面对学生和家长的包括了针对考试的专门网站,专题咨询的网站、社区交流的网站、兴趣活动的网站。面对教师的,提供一些咨询和教育新闻等,提供经验交流的平台。
2.2 网络教育资源组织中存在的问题
信息技术虽然在图书馆资源组织中有广泛的应用,但在网络资源的组织上还存在一些问题:网络资源组织的效率和检索能力不高;网络资源组织缺乏有效的整合;网络资源提供的服务手段单一。对于网络教育资源来说,学习者在学习时也会出现如下问题:
(1)学习者找不到解决问题的资源。“找不到”有两种内涵:一是资源存在但未被发现;二是资源根本就不存在。学习者的资源挖掘有明确目的,如果挖掘的正好是资源的缺口,那么必然是无功而返。一旦资源存在,就涉及到再选择或者综合分析的过程。这个过程包括了信息代理的智能度、信誉度,资源本身的信度、效度的评价等问题。每个问题解决的优劣都直接影响到资源的获得。
(2)学习者找不到适合自己学习能力的资源。这个问题的出发点是对资源的利用。资源的难度和学习者已有的知识结构的差异直接影响到对资源的利用。两者的差距越小,利用率越高。一旦差异太大,那么含金量再高的资源对学习者也毫无用处。除了知识结构以外,学习者的文化背景的不同也直接影响到资源的利用率。语言的壁垒、思维方式的不同都是资源利用的相关因素。学习者年龄阶段与接受知识能力的关系,学习科目与基于网络资源学习效果的关系问题,也对学习过程有影响。
(3)学习过程不适合个人学习。从网络教育资源目前的状态来看,组织方式缺乏多样性,当然无法真正适应学习者的个人学习风格。动态或者静态的教育资源都很难适应个别学习的需要。性别差异或者民族差异对资源组成提出的要求不同。
3 应用知识挖掘改善网络资源组织
3.1 网络教育信息的归纳与组织
信息的归纳与组织过程通常可以分为两个阶段:序化和优化阶段。通过上述数据挖掘技术,可以从网上检索到大量无序的信息,必须按照一定的标准,对其进行排序和整理,才能供学习者使用。信息的序化是按照学习的属性将无序的信息组织成有序的信息过程,它包括两层含义:一是把虽与学习者没有必然联系,但却为了利用上方便的信息加以组织;二是把本质上与学习内容具有必然联系的信息,按照其自身的客观逻辑规律,加以组织。信息的优化则是在序化的基础上,针对某种要求,按照结构功能化原理,对信息进行序化的过程。它是对下载的学习信息序化的继续和升华。在实际操作中,信息序化和优化往往没有明确的界限,它们是一个辩证的统一整体。
3.2 网络教育信息的判别
学习目标的确立依赖于经过系统化组织的网络教育信息,以及信息相关性的组织与密切相关性的分析。而相关信息与密切相关信息的确定,则与对学习者对相关信息和密切相关信息的理解与掌握程度有关。但就相关信息和密切相关信息的准确定位,还必须结合学习者与之对应的信息类型与学科范围做出分析评价。就相关信息而言,是指是否和学习者的整体概念相吻合,也就是将学习的名称和研究内容作为整体分析,提取其典型的信息特征,然后去匹配与学习课题信息特征相对应的挖掘信息。
3.3 学习者信息库的建立
为了教育资源优化组织,建立一个学习者的信息数据库是必要的,我们将从中挖掘到很多有价值的信息来指导资源的组织工作。能收集到的信息大致有以下类型:(1)持久重复的信息;(2)学习者的行为信息;(3)学习者主观信息。
3.4 选择适当的数据挖掘模型来解决问题
有了问题和信息,接下来的工作是用适当的知识挖掘模型来解决上面所述的问题。模型的选择直接影响所得结果。虽然有Boosting的思想,即用不同的模型来对同样的数据进行处理,再将得到的不同结果综合处理,但各种类型模式所得结果的权重取决于模式对此类问题的适合度(Match Index)。所以要选用适当的模型来解决问题。模型类型确立以后,还要选择技术来建立模型。
4 结束语
知识挖掘虽然只有十年的历史,但它已被越来越多的领域所采用,并取得了较好效果。知识挖掘带来了新的思维和综合的实现技术,本文运用此理论,以建立学习者信息库为桥梁,将知识挖掘的模式运用其中,尝试找到资源定位与学习者要求的各方面的差异。通过对信息库的数据挖掘得到预测结果,用这些结果指导资源提供者调整资源形式和内容,以达到极大丰富学习资源的目的。总之,知识挖掘技术能让网络资源组织者更好地组织资源,使之适应学习者个体主动性学习的需求。