美国Amega元数据应用程序的自动生成及其启示_元数据论文

美国Amega元数据应用程序的自动生成及其启示_元数据论文

美国自动生成元数据应用计划AMeGA及其启示,本文主要内容关键词为:美国论文,自动生成论文,启示论文,计划论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G254.3[文献标识码]B[文章编号]1004-325X(2008)01-0043-03

随着因特网信息技术的迅猛发展,网络信息资源以超出人们想象的、前所未有的速度在增长。为了最大限度地满足广大信息用户对网络资源高效检索和便捷获取的需求,各图书情报机构都试图对这些海量资源进行合理高效的整理、加工、描述和标引,以便及时、准确地揭示最有价值的信息并提供给用户使用。但是,面对如此浩瀚的信息海洋,仅靠专业技术人员完成,无论在时间上还是在物力、财力上都是不可实现的。在这样的背景下,以自动编目技术来应对海量信息资源组织的挑战已成为大势所趋,因此对元数据自动生成技术的研究迫在眉睫。目前,国外许多图书馆及相关信息组织已经广泛开展了对网络资源自动生成元数据应用的研究,并取得了一定的进展。美国国会图书馆的“自动生成元数据应用计划”,即AMeGA(Automatic Metadata Generation Applications Project)就是其中的代表,该计划为美国国会图书馆自动生成元数据的相关研究提供了参考依据。本文通过对AMeGA计划的深入分析和研究,在充分了解该计划产生背景、研究目的、研究方法、研究结论的基础上,认真思考,获得启发,并针对我国目前元数据自动生成的研究现状提出建议和意见,以期对我国网络信息资源自动编目工作有所帮助。

1 AMeGA计划概况

AMeGA计划是美国国会图书馆委托北卡罗来纳州大学的信息和图书馆学学院所做的关于自动生成元数据应用方面的研究项目。该项目于2004年6月开始征询意见,2005年形成最终报告,即Final Report for the AMeGA Project。该计划与美国国会图书馆的另一个行动计划——“网络资源的书目控制”(Bibliographic Control of Web Resources)联合进行,目的是共同应对生成数字资源元数据的挑战。

AMeGA计划的研究目标可概括为以下3点:第一,评估当前内容创建软件和自动生成元数据应用软件所支持的自动生成元数据的功能,以及评价图书馆集成系统(ILSs)所支持的自动生成元数据的功能;第二,通过调研元数据的专家,确定对应自动生成的元数据元素;第三,形成最终的报告,为自动生成元数据的应用软件推荐功能需求。

该报告由11个部分组成,内容包括AMeGA的简介、自动生成元数据方法、相关研究、AMeGA计划的研究目标、研究方法、研究结果、相关问题讨论、推荐自动生成元数据应用软件的功能需求(版本1.0)、未来的研究方向、为美国国会图书馆提出下一步工作建议和参考文献。

2 AMeGA计划的主要内容

2.1 自动生成元数据方法及其相关研究

自动生成元数据单纯从形式上看完全是依赖于机器处理,其定义往往与由人创建的元数据相区分。元数据抽取(metadata extraction)和元数据收割(metadata harvesting)被认为是应用于数字资源自动生成元数据的两种常见的方法。元数据抽取包括对资源内容的采集和使用成熟的自动索引技术来生成结构化(标签化)的元数据,用以表示该对象;元数据收割则依赖于机器的功能,收集已经由人或机器或由两者共同创建的标签化的元数据。

对自动生成元数据的研究始于20世纪50年代早期,当时的研究主要涉及自动标引、自动摘要和自动分类等方面。该领域早期的工作致力于主题描述或关键词和摘要的生成。今天,自动生成元数据的研究已经超越了原有的范围,而扩展为著者、题名、日期和格式以及其它类型的元数据的产生。

当前元数据自动生成的研究领域可分为两大类,即实验研究和应用软件研究。实验研究主要涉及文献结构(document structure)和知识表示体系(knowledge representation systems)两方面。在文献结构上,研究者标识了文献类型、文献内容和文献结构之间的关系,如通过文献类型可获知文本的密度,用于判断对某种特定类型的文献采用何种元数据的抽取法则。在知识表示体系上,数字技术极大地促进了叙词法、分类法、规范文档以及其它知识表示体系的电子获取性。以文献内容为重点的实验研究提高了对自动生成元数据的认识。但是实验研究存在着缺陷,实验的范围只局限于某些特定的主题领域、资源类型、资源格式和元数据元素,今后还需进一步研究通过何种途径才能使元数据的应用软件具有更广泛的适用性。随着元数据的重要性得到越来越广泛的认同,支持元数据创建的应用软件也获得了发展。应用软件包括通用的内容创建软件和一些更专用的工具。其中内容创建软件是指用于创建资源的软件,也就是那些能用于生成数字内容(不管是文本还是多媒体)的任何软件,如Mic rosoft Word、Macromedia Dreamweaver、Adobe Acrobat和Nullsoft Winamp等。在网络环境下,内容创建软件被用于创建数字资源,这些数字资源可通过标准的网络浏览器和其它相关软件进行访问。

内容创建软件可通过自动、半自动和人工方式来支持元数据的生成。自动技术通常用于生成诸如“date-created、date_modified、size(e.g.,bytes)”的技术型元数据。一些内容创建软件从文献内容中抽取元数据以便提供描述性的信息,另一些则包含一个便于生成人工元数据的模板。这样,通过自动技术可以将输入的元数据转换为特定的编码语言,如XML,并将其嵌入资源头标或插入一个元数据数据库中。

2.2 AMeGA计划的研究方法和研究结果

AMeGA计划使用了特性分析(Features Analysis)和元数据专家调研(Metadata Expert Survey)两种方法对自动生成元数据的应用情况进行研究。其中特性分析采用抽样调查的方法,挑选一些内容创建软件进行分析。它包括3个组成部分:第一,元素分析,将每个应用软件支持的描述性元数据元素与都柏林核心元数据标准相映射;第二,每个应用软件支持的自动生成元数据的方法;第三,标识用户界面特性。元数据专家面向的调研人员包括编目员或标引员、网络设计员、图书馆管理人员、教授或研究人员、数字图书馆馆员、信息技术人员等,此外还有对编目机构的调研,包括研究图书馆、公共图书馆、政府部门、非赢利组织等。调研的问题涉及元数据遵循的标准、应用软件的使用情况、元数据质量控制问题、都柏林核心元数据的自动生成、元数据应用软件的附加功能等。

用来做特性分析的内容创建软件包括7种,即“Word”、“Acrobat”、“Dreamweaver”、“CityDesk”、“EndNote”、“Winamp”、“Movable Type”。分析结果表明:“EndNote”拥有最全面的元数据系统,能够与都柏林核心映射的元数据元素也最多。“题名”是唯一能被7种测试软件所支持的元数据元素,“创建者”、“主题”、“日期”次之,能够被6种测试软件所支持。“Winamp”是被测试的软件中唯一支持所有描述性元数据元素自动技术的软件,“W o rd”、“Acrobat”、“EndNote”和“Movable Type”则支持至少二分之一描述性元数据元素的自动技术,“Dreamweaver”和“CityDesk”两种软件的自动技术功能则很差。

对元数据专家调研的结果显示,编目机构在创建元数据时同时使用了多种软件或系统,最多达7种,其中使用1种的有94家(占51.1%)、2种的有55家(占29.9%)、3种的有22家(占12.0%)、4种的有6家(占3.3%)、5种的有4家(占2.2%)、6种的有2家(占1.1%)、7种的有1家(占0.5%)。参与调研的专家预言,对技术型元数据,如对ID、语言、格式等的自动处理要比对需要人工判断的元数据,如主题和描述进行的自动处理更为准确,因此对技术型元数据实施自动处理更为妥当。他们表示支持元数据的自动生成,但是96%的参与者表示不愿意接受元数据生成的全自动化技术,而认为应首先对元数据生成实施自动控制,然后软件能提供一个进行人工评估和人工干预的途径。同时,他们还十分关注支持非文本资源的自动生成元数据技术的研究。在元数据评估和质量控制方面,63.4%的机构有正规的评估和质量控制机制,1 7.2%的机构在创建元数据时就对其标准进行维护,包括套录编目时选择高质量的元数据记录、使用规范文档或叙词表、在存盘或输出元数据前进行校对、使用可进行自动校对格式的系统等,16.4%的机构没有评估和质量控制系统,还有3.0%的机构准备进行质量控制。大多数的质量控制采用人工的方法,只有极少数的机构使用全自动控制的方法。对于系统的附加功能,元数据专家们则要求系统有良好的附加功能,如个人和团体名称的规范控制功能,元数据能以标准的格式进行输入或输出,支持自动或半自动的质量控制、错误修改、编码确认,支持元数据创建、管理和使用等的权限控制,支持元数据记录的自动连接,包括相关文献之间的参见和交替参见,支持用户或机构的本地定义以及可实现智能的缺省功能等。

2.3 自动生成元数据应用软件的功能需求

AMeGA计划研究的最终目的,就是为自动生成元数据的应用软件推荐功能。功能需求的内容主要包括:系统的目标、一般系统推荐、系统配置、元数据识别或收集、支持人工元数据的生成、元数据的发布和修改、元数据评估和非文本资源的元数据生成。

系统的目标是提高元数据生成的效率和效能。一般系统推荐基本包括允许用户查看指导元数据生成的法则或其它文件并能够追踪元数据的创建过程。系统配置方面应考虑到系统文档的配置,包括元数据元素的设置,应能将所有的数据表合成到元数据生成的过程中。其它方面的功能需求还包括:系统应使用自动性能去识别和收集与资源相关的元数据、尽可能地使用自动技术帮助人工元数据的生成、使用自动技术提高自动或人工生成的元数据质量、使用自动技术评估元数据的质量并提供统计的评估等级。此外,系统还要尽可能使用自动技术创建非文本资源,如可视化资源、地球空间资源和动态影像资源的元数据。当非文本资源被创建时,一系列的技术型元数据也同时自动生成,人们就不必再花时间去创建这些信息了。

3 对我国信息资源自动编目的启示

近年来,我国在自动著录和自动标引方面都取得了一定的进展,如2000年以来由陈源蒸等专家在我国推行的ECIP计划、《军用主题词表》的辅助标引技术的研发等。但总体来说,研究的广度和深度都还不够,应用的范围也不够广泛,特别是在图书馆界还没有大量的应用。美国AMeGA计划通过调研,提出了自动生成元数据应用软件的功能需求,并形成最终的自动生成元数据应用研究报告。通过对该报告的调查分析,我们得到了许多启示,这些启示对我国开展网络资源自动生成元数据的研究提供了宝贵的经验。

3.1 多方面、多角度地分析应用软件的功能需求

AMeGA计划的一个显著特点就是对元数据专家以及元数据自动生成的有关情况进行了广泛调研。调研工作体现了如下特点:第一,调研对象范围广泛,从编目机构到编目员,从管理者到系统设计员,涉及方方面面的元数据专家;第二,调研的问题具体而有针对性,包括使用的软件、对自动生成元数据的要求和对未来元数据生成的预测;第三,调研的数据准确详尽,而且还配有统计资料的分析。这样的调研结果为相应应用软件的设计提供了坚实的基础。我国在进行元数据自动生成研究时,可充分参考AMeGA的调研结果,特别是对系统软件功能的推荐,其中许多内容对当前元数据自动生成领域的研究都具有指导意义,如系统软件在满足自动化功能的同时还应允许人工干涉;应把名称规范控制、主题词表等内容标准融入软件功能;如何用自动技术来解决元数据的质量控制问题等。我们在设计自动生成元数据应用软件时,应多方面、多角度地考虑应用软件的功能需求。

3.2 加强对知识表示体系的研究

AMeGA的最终报告指出,当前有关自动生成元数据的研究主要集中在知识表示体系方面。传统环境下,书目控制被广泛应用于文献资源整理,而在网络环境下,书目控制依然有着强大的生命力。网络信息资源也需要像传统文献资源一样进行编目,提供目录检索。实践证明,随着网络文化的普及和深入发展,人们越来越清楚地认识到分类法、主题法仍是揭示组织检索数字信息资源的重要方法。

在人们处理与日俱增的海量信息的过程中,出现了诸如中文文本自动分类、自动摘要、自动标引、文本信息自动提取、信息检索等自然语言处理技术。其中,主题词提取是基础工作之一。目前,中文文献主题自动提取主要停留在主题词层面上,但是主题词往往是孤立的,并不能完美地体现文章的主题。因此在具体的应用实践中,我们可考虑以中文文本为处理对象,结合领域背景,使用概念语义网络的思想构造主题词典和知识库,在概念层次上理解文献主题,以实现规范的主题词提取。

3.3 与内容创建软件开发商建立交流机制

AMeGA报告还对美国国会图书馆在自动生成元数据方面提出了未来的任务,将与内容创建软件开发商建立交流机制作为任务之一。通过与内容创建软件开发商协商,在开发软件时,加大软件对元数据自动生成的支持力度,极大程度地提高元数据自动生成的效率。

标签:;  

美国Amega元数据应用程序的自动生成及其启示_元数据论文
下载Doc文档

猜你喜欢