网络教育数字化学习资源中心的元数据应用,本文主要内容关键词为:网络教育论文,数据论文,资源论文,中心论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【中图分类号】G40-057 【文献标识码】B 【文章编号】1009-458x(2010)08-0042-05
一、前言
“网络教育数字化学习资源中心建设”项目(以下简称资源中心)是教育部、财政部2008年3月批准,由中央广播电视大学牵头,北京大学、清华大学、北京交通大学等多家单位共同参与研究和建设的科研项目。该项目要求资源中心整合不少于5000门课程资源,且总容量达50TB的海量资源,并支持500万量级用户使用。资源中心在管理资源过程中会面临很多现实的问题,例如如何存储这些资源才能达到一个比较理想的管理效果?存储后,这些资源又如何能够方便的被查询?存储的这些资源是否可以重用?分布在各地的资源如何进行交换?如何与异构资源库进行资源交换?这些问题集中在资源编目的规范化和资源存储的标准化。通过资源编目的规范化,可以对资源的信息特征进行有效标注,从而实现对资源进行归类管理,查询、定位资源。通过资源存储的标准化,可以为同构资源库和异构资源库间实现资源交换提供可能。资源编目的规范化和资源存储的标准化,归结到一点,就是资源中心系统对资源的元数据信息如何进行描述,才能对资源的存储、管理、查询和重用等有最大的帮助,同时促进资源的共享。
二、元数据标准概述
元数据标准是元数据的集合,指如何描述某些特定类型资料的规则集合,一般会包括语义层次上的著录规则和语法层次上的规定。目前流行的元数据标准很多,比较有名的国际标准化组织有IEEE LTSC(IEEE学习技术标准化委员会),IEE1484小组等,和国际流行的元数据DC,DC-E,SCORM,IMS等标准。
相对普通数据而言,教育资源的元数据是更高层面上的数据,在网络教育方面发挥着巨大的技术支持作用。目前,在教育领域运用得比较普遍的是:DC(Dublin Core)都柏林核心元素集、LTSC LOM和ADL/SCORM。
DC是由美国OCLC公司发起的国际性合作项目(Dublin Core Metadata Initiative),用于网络资源描述,主要包括15个元数据核心元素:Title(标题)、Creator(创建者)、Subject(主题)、Description(描述)、Publisher(出版者)、Contributor(贡献者)、Date(日期)、Type(类型)、Format(格式)、Identifier(标识符)、Source(来源)、Language(语言)、Relation(关系)、Coverage(覆盖范围)、Rights(权利)。Dublin Core意在为元数据使用提供一个最精简的标准集,应用者在遵循Dublin Core的基础上,可以继续添加自己领域的专有元素。这样,一个基本的元数据标准集就能够在尽可能广的范围内推广使用,并在这一过程中得到反馈,不断的修订、发展和完善。
LTSC LOM(Learning Object Metadata)标准是整个LTSC标准体系中的一子标准,是一个分层次的结构。它将用于描述学习对象的特征(元数据)分为九类:General(通用)、Lifecycle(生存期)、Meta-Metadata(元—元数据)、Technical(技术)、Educational(教育)、Rights(权利)、Relation(关系)、Annotation(评注)、Classification(分类)。每类中又包含自己的子元素,这样就组成一个庞大的层次结构,足够用于描述大多数学习对象的属性(元数据)。
ADL/SCORM是由美国国防部资助的标准制定组织,它们制定的标准最初用于军事培训,后来,逐步普及成为教育市场上广泛使用的标准。它直接复用IEEE LOM元数据集, 并将学习对象分为3个层次:Assets(原始资源)、Sharable content object(可共享内容对象)、Content Aggregation(集成资源),LOM元数据中的具体元素在描述不同层次的资源时有3种状态:Mandatory(必备元素)、Optional(可选元素)、Reserve(保留元素),因此可以组合成不同的元数据描述方案。
我国于2001年成立了全国信息技术标准化技术委员会教育技术分技术委员会(CELTSC)开展远程教育标准的制定推广工作。通过分析国际上关于教育信息技术标准的研究线索,特别是参照IEEE1484的框架,CELTSC提出了一个比较完整的现代远程教育标准体系,并颁布了国家标准(GB/T 27365-2008)。该标准以LOM为基础,定义了一个概念上的数据模型,用于定义学习对象元数据实例的结构。在规范中,学习对象元数据实例用于描述学习对象的相关特征。这些特征分为9类,包括通用、生存期、元-元数据、技术、教育、权利、关系、评注和分类。概念数据模型支持多种语言,这种多语言的支持既适用于学习对象所使用的语言,也适用于学习对象元数据实例所使用的语言。概念数据模型定义了组成元数据实例的各个数据元素,并规定了各个数据元素的约束属性。
三、资源中心的元数据标准体系
资源中心元数据标准的制定是实现资源的有效发现、查找、一体化组织和对有用资源的有效管理的基础。制定该标准的目的既是为资源中心的开发者以及资源建设者提供一致的资源元数据规范,以统一开发者的行为,达到资源基本属性结构的一致性,实现资源在远程教育领域内的广泛共享,并为学习者或教育者等对教育资源的查找、评估、获取和使用能获得最大效率而提供支持。同时也为其他的资源库系统实现数据的共享和互操作提供支持。
资源中心项目在设计资源元数据属性时,遵照面向对象的个性化、互操作性、个性化与通用性、简单与描述能力之间均衡的设计原则,在充分调研相关领域现有的国际标准与国家、行业标准的基础上,以国家标准(GB/T 27365-2008)和LOM标准中的元数据为参考,结合资源中心本身应用需要,制定了资源中心的元数据标准体系。一方面在必选数据中仅仅选择了LOM中最通用的元素,加强它的通用性和简单性。另一方面,在扩展属性中,尽量囊括能描述教育资源的所有属性以增强元数据的个性化和描述能力。
该数据标准体系参考《教育资源建设技术规范》中的资源类型,结合考虑实际使用的要求,将媒体资源划分为媒体素材(文本、图形/图像、视频、音频、动画)、试题、试卷、课件、案例、网络课程、图书等14类,其中图书为新增资源类型。
它的基本结构参照了LOM的基本框架,必须数据由通用、生存期、元—元数据、技术、教育、权利、关系、评注和分类等九个类别组成,可选数据包括《教育资源建设技术规范》中的可选数据元素及说明(通用可选项)中全部的数据元素,从而也增加了元数据的可扩展性。
资源中心元数据的基本结构共包括三大部分,分别为严格遵守的必须数据元素(核心集)、作为参考的并对每类资源都适用的通用可选数据元素和针对资源特色属性的分类数据元素(扩展集)。
必须数据元素(核心集)是任何类型的资源都必须具备的属性标注。开发者应严格遵循,必须的数据元素有10项。它的项目和属性值如下表1。
通用可选数据元素是从学习对象元数据规范(LOM)的可选数据元素中抽取出了与教育资源密切相关、并对各类教育资源都适用的属性集合。可根据用户需求和开发者自身的工作过程作为参考属性有选择地使用,可选数据元素为12项。
分类数据元素(扩展集)是根据14类资源(文本、图片、试题、试卷、课件、文献资料、案例、常见问题解答等)各自的特点,从LOM模型的可选集中选取与某类资源密切相关的属性,并补充了一些基本的、必要的特殊资源分类属性。
资源中心标准体系中的通用可选数据元素和分类数据元素(扩展集)如下表2。
四、资源中心元数据标准实现的功能
1.对资源的描述、管理和定位
资源中心元数据对信息的内容和位置进行了准确地描述,比较完整地反映出信息的特征。内容方面,根据特定领域学习资源特点对其进行精确描述,具体从资源类型、适用对象、标题、关键字等基本信息来描述;位置方面,无论资源以何种形式存储,超链接或者物理实体,都有具体的元素指向位置信息,由此便可确定资源的位置所在,促进网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或其它集合体中的位置也就确定。
2.构成统一的资源目录
如前所述,资源中心资源建设的目标之一就是整合5000门课程,容量达到50TB的资源,并支持500万量级用户使用。在目前的网络环境下,集中存储如此海量级的资源,并支持实时的大访问量,所要求的技术环境配置和费用都会相当高。
每一条资源对应的元数据信息,其集合是一个独立的基于元数据存储、应用的数据项,与资源中心的资源实体存储相互独立,但彼此对应。资源中心实现的就是这样的“分布存储、统一管理的”资源管理模式,分布存储的资源实体,集中管理的是资源目录,即资源的元数据集合。
3.提供更多的检索途径
现在的搜索基本上都是基于关键词的搜索,比如百度、google等。这种搜索对web文档有比较好的支持,但对非文档类型的资源如图像、视频文件等的检索效果比较差,而资源中心的大量资源恰恰是上述类型,对检索提出了更高要求。
利用元数据和检索系统相结合,就能大大提高检索的效率和准确度。用户根据元数据的描述信息,就能确定资源是否符合其需要,从而选择适合用户使用的资源。资源中心系统采用的就是元数据检索,对非文档资源及其查准查全率等问题都得到了一定程度的解决,具体体现如下两个方面:
(1)实现多维检索,提高查准率
元数据通过有效描述与识别学习资源的主要特征(如作者、主题、出版单位、出版时间等)来实现多维检索,使得用户可以从多角度来查询他所感兴趣的内容,而且有助于基于元数据字段的搜索引擎把查找定位在重要词上,从而大大改善查准率。
例如,在查询一个资源时,可以根据作者或作者机构字段进行检索,找到与查询关键词(作者)相关的资源;也可以根据发表时间进行检索,查出新近出现的一些资源;将两者结合起来,可以查询到符合关键词(作者)条件的近期(一段时间内)发布的资源,这样就能有效定位到自己需要的资源。
(2)提升资源的安全性
资源中心系统是利用元数据标准来管理限定检索的信息和用户服务,如排序、过滤和评分。这样,元数据在某种程度上为资源的管理提供了监控作用。例如,可以在资源中心系统中设定元数据属性过滤某些非法词汇,从而达到系统能在某种程度上自动判别资源情况,对资源进行初步遴选。
4.对资源的评估
对资源进行基本的评估,是从整体的角度对资源中心系统内所管理、存储的资源进行的一般性的综合
元数据标准提供有关资源的名称、作者、内容、格式、制作者等基本属性,使用户在无需浏览资源本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取与利用的参考。用户也可以在对资源进行具体了解以后再对资源进行评价,元数据可以搜集这些信息对资源进行综合评估。信息评估是信息选择与利用的前提,元数据所揭示的信息是评估的重要依据。
资源中心元数据在扩展属性的设置中有评注、评注日期、评注描述三个属性,用户可以在使用资源后做具体评注。这些评注信息的统计分析为资源使用效果提供了最直接和最有价值的依据。
5.元数据转换和元数据收割
(1)元数据转换
资源中心的资源来源众多,必须解决的问题之一就是元数据的互操作问题。基于此,我们自主开发了元数据转换工具,用于异构数据库之间的元数据转换。目前采取的技术解决方案是一对一的元数据映射,支持EXCEL表格和数据库两种方式,采用人工匹配元数据各元素之间的关系,完成元数据转换。
(2)元数据收割
资源中心元数据收割工具也是基于元数据映射的具体应用。将异构资源库或网络资源的元数据与资源中心的元数据进行手工匹配,符合资源中心采用的元数据标准之后,自动存储至资源中心的元数据信息数据库,形成一条资源目录信息,取代人工搜集、整理的大量重复性劳动,提升资源中心资源建设的整体效率。
五、结语
为完成“网络教育数字化学习资源中心建设”项目的任务,我们对学习资源的元数据标准在系统中进行了一些应用,也取得了一些阶段性成果。事实上,为了促进优质学习资源共享程度的提高,也是为了让学习者更高效率的使用资源中心的学习资源,针对资源的元数据应用应该进一步的加强。资源中心对元数据应用的下一步工作重点在元数据的互操作、元数据描述的粒度、元数据元素的扩展、元数据标准的著录规范等方面。期望通过这些工作,为资源中心汇集社会多方学习资源、有效管理和使用学习资源等提供更有力的帮助。
收稿日期:2010-05-30