基于元数据关联的馆藏资源聚合研究_元数据论文

基于元数据关联的馆藏资源聚合研究,本文主要内容关键词为:数据论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      随着数字化技术和互联网技术的发展与广泛应用,图书馆拥有的数字资源越来越多,通过网络可访问的馆外数字资源也十分丰富。传统图书馆的信息组织工作,在数字化背景下同样也十分重要。利用馆藏书目管理系统、自建特色数据库、购买学术数据库等数字资源开展图书馆信息服务和知识服务,是当前图书馆的重要工作之一。其特点在于以数字资源为核心,以服务用户为目的。在此背景下,图书馆针对数字资源的内容分析、标引、加工和处理,亦成为开展面向用户需求的以数字资源为主的各项服务的基础工作[1]。针对当前馆藏数字资源的松散组织、异地分布、异构结构等现象,将数字资源进行有序组织,实现馆藏资源深度聚合,是用户的现实需求,能为用户提供更为全面、丰富的深度知识服务[2]。

      馆藏数字资源聚合的本质是对不同类型、不同来源、不同语种的资源进行聚集和依据资源的内容特征在语义层次上进行融合[3]。馆藏资源聚合包含着资源整合和语义融合两个层次,资源整合是资源聚集和浅层关联,而语义融合更强调资源之间的深层语义关联。结合图书馆知识服务的功能特性,通过从语义、学科、资源对象等多个角度,采用不同方法揭示资源内容中的概念及概念关系、文献结构的引证关系和科研实体及关系等是揭示馆藏数字资源之间内在关联的基本方式,进而可在馆藏资源关联基础上进行资源聚合。从现有研究来看,较多研究关注不同场景下的馆藏资源聚合模式:针对多分馆场景,整合不同的OPAC数据库实现馆藏目录整合[4];针对网络资源、外购数据库、自建数据库等多资源场景,构建统一的元数据仓库,将异构异源的资源元数据整合到统一的元数据标准下进行存储,提供统一检索服务[5-7];在语义网和万维网背景下,根据关联数据语义和结构,构建馆藏资源对象和实体中的相互关联,实现资源聚合[8]。

      在馆藏资源聚合的实现方面,研究相对较少。部分研究提出利用语义网格[9]、本体[10]、关联数据[8,11]等技术来实现馆藏资源的聚合,然而这些技术本身需要大量人工干预和人工知识,因此实现难度较大,目前还未看到较成熟的系统实现诞生。本文认为,在馆藏资源的元数据著录基础上,寻求一种无须太多人工干预的资源聚合方法,更为简单、可行。在此基础上提出利用元数据关联实现馆藏资源聚合,充分利用元数据的结构语义和元数据项本身语义,从语义层面考察利用元数据实现资源关联和聚合。

      1 利用元数据实现馆藏资源聚合的可行性分析

      元数据是馆藏资源数据管理的基础,其结构和特征使得利用元数据实现馆藏资源的聚合具有实现可行性。

      1)元数据为资源聚合提供数据基础。一般所谓的“元数据”是指关于数据的数据。在图书馆中,数字资源的元数据是指用于描述数字资源外部特征和内容特征的数据项。为方便统一的信息资源管理和不同图书馆之间的资源交换和整合,一些元数据规范被提出,应用较多的有传统图书馆的MARC元数据和描述网络资源的DC元数据。从实践应用来看,绝大多数图书馆书目管理信息系统都支持MARC元数据管理规范。图书馆自建资源库一般也遵循相应的元数据规范,例如北京市制定了《北京市高等学校特色教育资源元数据规范》,CALIS也制定有《CALIS特色库管理型元数据规范》。购买数据库或者自建特色资源库中的数据结构也能较为容易地转化为相应的元数据规范。由此看出,元数据广泛存在于书目数据库、购买数据库和自建数据库中,其可获取性和泛在性,为馆藏资源聚合提供了较为丰富的数据基础。

      2)元数据的规范性、可映射性使得元数据关联成为可能。馆藏资源一般按照某种特定的元数据规范体系进行著录,具有规范且明确的语义、句法和内容标准[12]。自建数据库、外购数据库等图书馆馆藏资源可能采用不同的元数据标准,但由于各自规范的元数据定义,也可以实现不同元数据标准之间的映射,将一种元数据规范的元素、语义和语法,映射到另一种元数据规范的元素、语义和语法上[13]。例如,在CNMARC中的“200”字段的“MYMf”元素可以与DC元数据中的“creator”元素相互映射。另外,不同元数据规范体系也可能使用相同的元数据值标准,例如使用相同的学科分类体系或主题词表。不同元数据标准体系的这种可映射性,筑成不同元数据标准体系互操作的基础[14]。从本质来看,元数据的可映射关系,使得元数据关联在实现上成为可能,而元数据关联体现的是资源本身的语义联系。

      3)元数据结构能支持不同层次、不同方面的资源聚合。根据元数据所描述内容类型和范围来看,元数据一般可以分为描述性元数据、管理元数据和结构元数据。根据不同类型的元数据进行关联,可以实现资源整合或语义融合等不同层次的馆藏资源聚合。针对同一题名书目,将不同分馆的馆藏书目进行题名匹配,实现管理元数据中的馆藏位置的跨馆书目信息集成;而将资源的摘要等语义元数据,通过语义计算,建立语义关联,则可实现资源语义融合。元数据规范中的不同元素揭示资源的不同方面,将同一方面的元数据内容建立元数据关联,则可以在不同方面进行资源聚合。例如,通过作者、分类号、主题词等不同方面的元数据进行关联,可以建立起馆藏资源的作者聚合、分类聚合、主题聚合等不同方面的资源聚合。由此,元数据规范的结构特征使得通过元数据关联可以实现不同层次、不同方面的馆藏资源聚合。

      2 基于元数据关联的馆藏资源聚合模型

      馆藏资源聚合过程涉及多个步骤,本节在现有研究的基础上,梳理出基于元数据关联的馆藏资源聚合模型,对模型中的核心环节和步骤进行详细描述,进而介绍不同元数据标准和数据库设计模式的元数据映射及分面方法,并提出具体的元数据关联方法,从而实现馆藏资源聚合过程中的核心环节。

      2.1 馆藏资源聚合模型

      部分研究认为馆藏资源聚合模式的核心是利用某种方法寻找资源集合中的资源类簇[15],而本文认为馆藏资源聚合的关键是寻找资源之间的各种语义关联,其优势在于能够在资源粒度建立起资源之间的不同方面关联性,在提供服务时以推荐服务、相关资源等服务方式呈现相关资源,更为符合用户使用资源的习惯。因此,馆藏资源聚合的核心在于寻找馆藏资源对象之间的语义关系,其目的是在信息服务和知识服务中呈现资源间的关系。

      从数字资源元数据中挖掘出馆藏资源对象的语义联系,是实现馆藏资源聚合的一种可行方案。本文提出如图1所示的基于元数据关联的馆藏资源聚合模型。该模型主要包括两个主要模块,一是元数据集成仓库[6],二是元数据关联引擎。构建元数据集成仓库是将分散的书目数据库、各种自建数据库以及购买的馆外数据库等分布在不同物理载体和位置上的数据库资源对象,通过元数据收割协议OAI-PMH[16]、跨库检索[6]等方式,进行元数据集成,离线整合或实时处理汇集到统一的元数据管理仓库中。在集中的元数据仓库基础上,元数据关联引擎通过元数据映射、元数据关联等步骤寻找馆藏资源对象之间的关联,从而实现馆藏资源对象的语义聚合。

      2.2 元数据映射及分面

      在不同馆藏数据库中,包含着多种元数据标准,例如DC元数据、MARC元数据库以及相应的扩展元数据标准,同时各种数据库中也拥有自身的数据库设计模式(Schema,即数据库表和字段规范)。尽管语法规范存在不同,不同元数据标准和模式之间大致都从资源对象的内容特征、外部特征和管理属性(包括知识产权属性)等方面进行描述和设计,不同元数据标准或数据库设计模式之间可以通过元数据映射实现元数据的统一表示和元数据互操作[17]。在图1所示的馆藏资源聚合模型中,通过不同数据库汇集而来的元数据集成仓库中包含着多种元数据标准或数据库设计模式,通过元数据映射操作,将具有相同语义的元数据项统一表示。例如,将CNMARC中的“200”字段的“MYMf”元素和DC元数据中的“creator”元素统一表示为“作者”元数据项。

      

      图1 基于元数据关联的馆藏资源聚合模型

      本文在挖掘馆藏资源对象的语义关联时,重点关注资源内容特征元数据、知识产权属性中的作者和出版者等也对资源聚合有所帮助,忽略资源类型、格式、存储大小等外部特征的元数据描述项。本文认为在馆藏资源聚合过程中主要有用的元数据包括标题、主题、摘要、描述说明、作者、出版社、学科分类等项,进而可以分为内容、主题、作者、出版社、分类等多个分面,用以表示数字资源的不同语义维度,其中“内容”分面包括标题、摘要、描述说明、目录等文本描述字段。

      2.3 元数据关联方法

      根据不同分面元数据,建立起分面语义关联,从不同维度体现资源之间的语义联系。不同分面元数据的关联方法存在一些差异,故需设计不同的元数据关联方法。针对主题、作者、出版社、分类等分面,采用元数据值匹配关联方法;针对内容分面,通过计算元数据项的语义相似性得到元数据语义相似性关联方法。

      1)元数据值匹配关联。元数据值匹配关联是指不同资源的同一元数据项通过相同的取值进行匹配。若不同馆藏资源对象的“主题”元数据项具有相同的取值,则不同资源之间建立起“同一主题”这样一种语义关联。与之类似的,还包括同一作者、同一出版社、相同分类等资源间关联,也均来源于相应元数据项通过值匹配建立起关联。值得注意的是,部分元数据项可能属于多值元数据项,即某一资源的该元数据项可以有多个取值。针对多值元数据项,任意一个值均可用于建立值匹配关系。一般而言,某一资源可以属于多个主题,可以分别建立起多个“同一主题”关系。举例来讲,某一资源的主题被设置为“信息检索”和“信息组织”,则可以分别通过“信息检索”或“信息组织”两个主题词作为主题元数据项的值进行匹配,找到关联资源。

      同时值匹配关联还可以分为精确匹配和模糊匹配两种。精确匹配要求元数据项的取值完全相同,而模糊匹配则可以采用字符串的包含操作实现,例如“G351.9”包含“G351”,则认为两者可以模糊匹配。该方法在实践中可以简单地处理主题匹配、分类匹配等元数据项的关联。

      2)元数据相似性关联。针对“内容”分面元数据,本研究通过元数据项的文本内容进行语义相似性计算建立起元数据项的语义相似性联系。由于这些元数据能够揭示资源的内容特征,因此元数据的语义相似性也反映出资源对象的语义相似性。利用文本计算语义相似性的方法有多种,这里在向量空间模型的基础上,使用较为简单的余弦相似度计算方法来衡量语义相似性。首先,将元数据项文本内容

转换为文本特征项的向量空间模型:

      

      式中

表示第i个文本特征项;

表示该特征项的权重。文本特征项可以是分词后的词项,名词、名词词组、动词、动词词组等较为有意义的词项或词组,也可以是以领域词典等知识资源为特征。

      然后,利用如下公式计算不同资源的同一元数据项之间的余弦相似度:

      

      式中

表示资源

的元数据项

的第i个文本特征项权重;

表示资源

的元数据项

的第i个文本特征项权重。则不同资源在内容分面上的语义相似性是所有内容分面元数据项的余弦相似度之和:

      

      式中

为元数据项的加权权重,总和为1,即

      通过以上的元数据值匹配关联和元数据相似性关联,建立起资源对象在不同分面上的语义关联关系。以往研究一般将单个元数据项视为一个语义维度,粒度较大,或者将元数据项的文本特征整合后视为语义维度空间,这种方法容易造成元数据结构的丢失。与此不同,本研究将馆藏资源的元数据项进行分面划分,再通过元数据关联实现资源的语义分面关联,是一种细粒度的资源关联方法,保留着元数据项的结构特征以及语义特性。

      3 馆藏资源聚合及服务示例

      馆藏资源聚合是用户现实需求所激发的一种转变馆藏信息资源的信息组织方式的现实需求,其根本目的在于为用户提供聚合后的信息服务和知识服务。依据组织方式来看,以往研究多使用聚类算法实现馆藏资源的聚合,而本文强调资源之间的关联性,通过资源描述的元数据细粒度关联,实现资源之间的语义分面聚合。从服务形式来看,以往研究关注统一检索、资源导航等服务方式,本文在资源的语义分面关联基础上,重点强调在单个层面的相关资源推荐服务,一方面增强资源的用户曝光度,另一方面也更合乎用户搜寻信息的行为。下面将设定一个具有典型代表性的图书馆作为示例,描述利用元数据关联进行馆藏资源聚合的详细步骤,并展示相关资源推荐服务原型。

      3.1 馆藏数据库设定

      在馆藏数据库设定时,考查现有高校图书馆数据库建设和购买状况,考虑馆藏资源类型,选择如下3个馆藏数据库:①馆内书目OPAC数据库,包含馆藏图书的元数据信息;②超星名师讲坛,收录多个学科课程的名师教学视频;③高校硕博学位论文库,收录本校历年的硕士和博士学位论文,属于自建资源库。以上3个数据库涵盖外购数据库、自建数据库等多种数据库类型,以及CNMARC元数据体系、数据库Schema设计模式等典型元数据规范体系,具有一定的代表性,可用于本研究的实例分析。

      3.2 元数据收割

      为了后续的元数据关联计算,需要将不同数据库的元数据汇集到元数据仓库之中。馆内书目OPAC数据库和高校硕博学位论文库均在馆内服务器上,可在数据库层面采取数据导入的方式将相关数据表中的数据全部导入到目标元数据仓库中。一般而言,元数据仓库与源数据库表结构存在差异,采用结构映射的方法进行数据格式转换。若自建数据库中支持OAI-PMH元数据收割协议,也可以采用该协议进行元数据汇集。本例中均采用直接数据表导入的方式,进行离线预处理。

      针对超星名师讲坛数据库,由于该数据库是外购资源库,图书馆并不拥有数据库的软硬件资源,无法获取到数据库的底层表结构,因此可采集跨库检索的方式进行元数据收割。具体操作方法是根据需要关联的源数字资源对象的元数据,提取出能揭示主题的核心关键词,作为跨库检索的检索词,构建检索式,再借助信息采集和信息抽取技术,得到检索结果及其元数据。利用这种方法实现对超星名师讲坛数据库元数据的收割。该方法的特点是按需采集和实时计算,一般由用户使用行为激发跨库检索和收割过程,实时响应用户操作。在技术实现上,本文采用HttpClient软件[18]实现网页采集,利用该软件的HttpParser组件实现元数据的抽取功能。这两个工具均为开源成熟工具,技术实现代价较小,进行较少的Java语言编程即可。

      3.3 元数据关联实现

      元数据关联引擎实现元数据的映射和元数据项之间关联等主要功能。在所选的3个数据库中,书目OPAC数据库采用标准的CNMARC元数据体系,超星名师讲坛数据库采用自身的数据库Schema设计规范,而硕博论文库为馆藏自建,也拥有自身的数据库设计规范。表1列出3种源数据库的元数据结构及其映射和关联方法。如表中所示,源数据库的元数据项映射分别为标题、摘要、主题、描述说明、出版社、作者和学科分类7个规范元数据项。例如,书目OPAC库中的“题名”、超星名师讲坛中的“视频标题”以及硕博论文库中的“中文题名”均映射为目标元数据中的“标题”。这7项元数据共分为内容、主题、出版社、作者、分类5个语义分面,其中内容分面包含标题、摘要、描述说明3个元数据项。

      

      在关联计算时,内容分面采用相似性关联方法进行资源对象的分面关联,其他分面采用值匹配关联方法。本文在关联计算方法实现过程中,借助IKAnalyzer分词软件[19]实现文本分词,并作为文本特征。将元数据项相似性汇总为内容分面相似性时,将标题元数据项的权重设置为0.5,摘要设置为0.3,描述说明设置为0.2。

      

      图2 元数据仓库示例

      

      图3 资源推荐服务界面原型

      3.4 资源推荐服务界面原型

      下面以《知识管理概论》一书为例,在书目OPAC系统详情展示页面中进行相关资源推荐服务示例。首先,识别出“知识管理”为核心关键词,在超星名师讲坛中以讲座名称字段进行检索,并进行信息采集和解析收割元数据,共收割到4条元数据,并集成到元数据仓库中。图2列出元数据仓库示例,展示出与该主题相关的12条资源元数据。经过元数据收割和元数据关联过程,实现其他馆藏资源对象与该资源对象的分面语义关联,进而开展相关资源推荐服务。

      图3展示了《知识管理概论》一书的资源元数据以及相关资源分面推荐原型。在该图中,左边区域为资源元数据显示区域,列出OPAC书目数据库中记载的元数据信息。右边区域为相关资源分面推荐服务区域,以页面区块的方式显示内容相似文献、相同主题文献、作者其他文献、相同学科文献等分面推荐资源。其中内容相似文献根据余弦相似度大小排序推荐,而相同主题文献、作者其他文献、相同学科文献等以值匹配关联方式进行的分面推荐随机显示所匹配的关联资源,以增加资源的曝光度。每一项推荐资源显示标题、作者、资源类型等元数据信息,同时每项资源均能链接到其馆藏Web访问地址中,使用户能快捷访问。

      4 结束语

      本文根据现有馆藏数据库的特点,对利用元数据关联来实现资源聚合的可行性进行详细阐述,提出元数据仓库构建、元数据映射和元数据关联等步骤实现馆藏资源的分面语义聚合,并认为为用户开展服务是馆藏资源聚合的根本目的。选取某一图书馆的3个数据库作为典型示例,详细描述在元数据关联基础上进行馆藏资源聚合的实现过程,并以相关资源推荐服务为服务示范,展示馆藏资源聚合的可应用方向。本文是利用元数据进行馆藏资源聚合的一种实现框架和实现路径。实践过程中还会涉及更多、更复杂的元数据映射规则和详细关联规则,依据本文思路可以进行相应扩展,同时还需要根据用户需求,除了核心语义元数据的收割外,还需要记载馆藏位置、文件大小等对用户有所帮助的其他辅助元数据项,用以完善功能设计。诸如以上不足,本文未作为核心内容进行阐述,在实际应用中,应当以信息系统工程设计和开发的方法进行完善。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于元数据关联的馆藏资源聚合研究_元数据论文
下载Doc文档

猜你喜欢