基于传统知识组织资源的本体自动构建_搜索引擎论文

基于传统知识组织资源的本体自动构建,本文主要内容关键词为:本体论文,传统论文,组织论文,知识论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

信息组织(亦称知识组织)是在传统文献信息环境下利用信息的主要手段,这一传统是在图书馆上百年的发展过程中逐渐完善起来的,发展出分类法、词表等成熟的信息组织工具,积累了极为丰富的元数据资源。遗憾的是,这些宝贵的知识资源在今天的网络信息环境下无法发挥出应有的作用。本文提出集成现有的知识组织资源,将之转化为机器可理解的、支持智能处理的本体(Ontology)。在此基础上,和搜索引擎结合在一起,用于网络资源的组织和利用。

本体可看成是知识组织传统在网络信息环境下的延续和发展。它描述了某个特定领域的知识模型(由概念和概念间的关系构成),为该领域提供相关的词汇集和推理规则。本体随着语义网的研究和应用得以流行,它是科学知识门户、知识管理、信息集成和融合、电子商务、语义Web服务等应用的关键所在。但是本体的构造十分复杂,它需要领域专家的手工劳动,是展开基于本体应用最大的瓶颈。传统的知识组织资源,包括分类法、词表和书目数据可作为构造本体的基础。

本体的构造有两个基本步骤:建模和导入实例数据。其中实例数据的导入可以自动化。建模需要描述某个特定应用领域的概念、概念的属性和其间关系,进而还可以定义相关的约束和推理规则。类表和词表是简洁而实用的知识描述体系;书目数据有国际通用的描述规范(即MARC格式),详细定义了描述书目文献信息的字段结构和著录方法。可以依据它们为本体建模,描述主题、文献、作者、出版者等信息对象,定义这些对象间的典型关系。然后,自动从书目数据集中抽取文献实例,从类表和词表中抽取主题实例并导入本体知识库,完成本体的构建。这些知识组织资源在图书馆中经过了几十年的实践检验和不断完善,基于它们构建本体,不仅高效经济,而且合理实用。在本体的基础上,可实现知识浏览、语义检索等知识服务。更重要的是,可将这一以知识组织为核心职能的本体和搜索引擎结合起来,通过词汇服务实现检索词汇提示、搜索结果归类等前沿应用。这是在Web信息环境下挖掘、发挥传统知识组织资源价值的一条有效的、可行的途径。

基于以上思路,本文利用《中国分类主题词表》和北京大学提供的计算机类书目数据,构造了一个书目本体,并实现了一个本体驱动的语义检索系统KVision,在网上提供公开访问和评测。除了知识浏览、概念检索等功能,KVision还可以通过Web服务(Web Service)接口向搜索引擎提供词汇服务,实现等级词汇提示和搜索结果归类。KVision系统为图书馆OPAC系统的改造提供了一个可选途径,展现了重构传统的知识组织资源以服务于Web信息利用的巨大潜力。

2 相关研究

基于书目数据规范的本体建模,已有一些成果可以参考。早在2世纪90年代初期斯坦福人工智能的著名学者Tom Gruber就用LISP语言定义了书目数据的本体模型[1]。随着语义网的发展,有些学者尝试用语义网技术实现书目信息的本体化。比较有影响项目有两个:①为了在采用不同元数据方案描述书目信息的机构间交换数据,欧盟DERI的研究人员们整合MARC21、DC和BibTeX,构造了MarcOnt本体,试图提供一个统一的书目信息描述框架[2]。②为了在语义网的环境下管理参考文献和引文信息,D'Arcus、Giasson等开发了基于RDF的书目本体[3]。本文的本体构建参考了这些项目。国内对本体的关注很多,涉及本体的构建[4,5]、基于本体的检索[6]、本体的表示[7]等方面。不少学者建议或尝试利用传统的知识组织工具建构本体,但是很少见到利用书目数据来自动构建本体的研究。

本文的工作是Vision项目的延续和深化[8]。Vision项目采用了面向对象的方法,集成分类法、词表和元数据来构造一个知识网络。本文的工作继承了Vision项目的基本思想,采用语义网的技术予以重新实现。在功能上,提供了支持推理的语义检索,并展现了如何利用传统知识组织工具,辅助对网络信息资源的组织与利用。

3 书目本体的构建

本文构建本体的目的是:①将传统的知识组织工具(分类法、词表)形式化,使得机器可以理解和自动处理;②探索集成传统知识组织资源,自动构造本体的方法;③展现在知识库本体化的基础上可实现的知识服务,包括概念浏览、语义检索等;④基于所构造的知识本体,为搜索引擎提供词汇服务,增强搜索引擎的功能。基于这些目的,本文本体的基本设计要求是:①简约表达。能描述知识组织工具中概念和概念间的各类关系,能简洁地表达书目资源中包含的主要对象(包括文献、主题、作者、出版者)及其间的关系。②组织功能。能保留分类法、词表等工具对数据资源的组织功能。③应用支持。能支持知识浏览、概念检索、词汇提示、搜索归类等基于内容的高级服务。

根据这些要求,本文的本体构造,以W3C发布的简单知识组织系统(SKOS)为基础框架,吸收Stanford书目本体、DC抽象数据模型的主要成分而形成。为了方便下文的讨论,我们称该本体为KVision(Knowledge Vision)本体,强调其目的是为传统书目资源和网络信息资源提供知识组织和知识服务的功能。下面,先简要介绍在设计KVision本体参考到的项目,然后给出KVision本体中用到的主要类和关系,最后说明实例数据的生成过程。

3.1 相关项目

(1)Stanford Ontology

Gruber设计的书目数据本体的目标是为参考文献信息定义一个基础模型[1],它详尽描述了书目数据涉及的各类数据对象和关系,其中有不少很基础的类,例如:文本(text)、数值(number)和时间点(timepoint)等。由于它比较复杂,过于理论化,没有基于它的应用开发。KVision本体的设计从中借鉴了一些基本类,包括document,agent,conference,place及其子类,并采用OWL语言重新描述,并加入了若干新的属性。

(2)Dublin Core

大多数人都了解Dublin Core(DC)是为描述网络资源而设计的一个简洁的元数据标准。但却不了解DC同时定义了一个描述网络资源的抽象数据模型(DCAM),并且可以通过RDF(S)描述该模型的规范语义[9]。DCAM将DC的核心元素和扩展元素描述为RDF的属性(例如:created,hasFormat,isReferencedBy等)和类(例如,Agent,BibliographicResource,Location等)。这些类和属性使得DCAM成为一个自洽的、基于RDF的简易本体系统。在设计面向应用的书目本体时,可将这些基于DC元数据规范定义的类和属性作为发展其他本体的“母体”,直接采纳或加以修饰。

(3)SKOS

简单知识组织系统SKOS(Simple Knowledge Organization System)是W3C新近发布的一个基于RDF(S)的推荐标准,用来形式化描述类表、词表等知识组织工具[10]。其目标是为在语义网(Semantic Web)环境下发布知识组织系统,创建相关的服务,提供一套简单、灵活、可扩展的、机器可理解的描述和转化机制。SKOS要比专门的Ontology语言OWL简单。Kvision本体的构造采用了SKOS Core的所有类和关系。

3.2 KVision本体建模

图1是KVision本体中用到主要类和关系图。前缀表示被定义词汇的来源,kv前缀是KVision本体对dc扩展而创建的词汇。

值得注意的有三点:①词表中的类目和主题词都用concept来表示;②为了方便查询和推理,可以定义互逆的关系,例如narrower和broader、isSubjectOf和SubjectOf;③为了实现更复杂的语义查询,可以根据本体中类间的关系,编写一些推理规则。下面的两条推理规则分别表示:

1)(? d skos:subject ? x)∧(? x skos:broader ?y)→(? d skos:subject? y):若文献d的标引主题是x,且x的上位主题是y,则y也是文献d的主题;

2)(? d dc:creator ? a) ? (? d skos:subject ?c)→(? c kv:expert ? a):若d的作者是a,且d的主题是c,则可认为a是领域c的专家。

3.3 实例数据的自动导入

图1 KVision本体图

实例数据的导入可以自动完成。步骤如下:①根据建模阶段定义的类、关系和推理规则,在Protégé中手工创建本体模型,导出为OWL本体文件;②从数据源中自动提取对象实例和对象间关系;③将提取出的实例数据记录用OWL语言编码,逐一写入从Protégé中导出的本体文件,生成本体知识库。

KVision本体的实例数据来源于北京大学图书馆提供的两个数据集:第一版《中国分类主题词表》中计算机领域(TP39)的类和主题词,和1990-1999年所产生的计算机领域的书目数据。需要编制特定的文本分析和抽取程序分析词表的电子文本和MARC数据记录,提取实例数据。从词表中提取concept实例和其间关系(narrower/broader);从MARC记录中提取document、author、press实例,它们之间的关系creator、publisher,以及概念和文献间的标引关系(subject)。从词表中提取数据,依据的是词表文本的排版格式;从MARC记录中提取数据,依据的是MARC所定义的标准结构。传统知识组织资源具有的明确定义的结构和规范详尽的著录规则,这些是实现信息抽取和实例数据导入自动化的基础。在[11]中,给出了将词表和书目记录转换为OWL文档的一个范例。

4 概念浏览和语义检索

在本体驱动的信息检索系统中,基本的操作有三类:基于对象节点的操作、基于节点间关系的操作、结合推理规则的操作。推理规则实质上是在节点间构造新关系的条件约束。所以,对本体操作的基本单位是对象和关系。对象是类的实例,类在本体中又称为概念;而边反映的是类之间的语义关系。所以,基于本体的操作呈现出很强的概念性质与语义特征。

4.1 基于概念的操作

概念,或类,是构建本体的基本单位。概念在这里可以是主题,也可以是文献或作者,但不是主题的标签、文献的标题或者作者的姓名。后者是基于值的信息系统中指代信息对象的方法,是人们现已习惯的方法。在本体中,当用户查看主题对象“数字仿真”时,用户通过这个名称定位到一个概念实体,而不是一个数据类型为字符串的值。因此,用户可以查看到这个对象全方位的信息。在“数字仿真”这个例子中,可以看到该概念的所有名称(例如:“电子仿真”、“电脑仿真”等),它的所有联系(上下位主题、相关文献等)。同样的道理,当用户搜索“数字仿真”时,系统返回的不是包含该字符串的属性值的集合,而是[名称=”数字仿真”]的所有主题对象的集合。也就是说,浏览、检索所操作的对象是概念,不是值,实现了概念浏览和概念检索。KVision原型系统实现了基于概念的浏览和检索,详细请访问http://Kvision.pku.edu.cn/kvision。

4.2 基于语义的操作

本体中概念间的联系是对实体世界中对象间关系的形式化描述,具有确定的语义。基于这些语义关系,可以实现远较传统信息系统丰富的功能。

(1)浏览可以循着对象之间的联系进行,类似于Web上的超链

在本体驱动的系统中,类和类间的关系被明确描述出来。对象作为类的实例,自然继承了类间的关系。从任何一个对象出发,循着从它发出的联系,就可以找到和该对象关联的其他对象。浏览是在一个通过联系编织在一起的对象网络中游走。从这个意义上看,基于值的信息系统(如关系数据库和搜索引擎)的浏览操作不是真正的浏览,它是转换成对属性值空间的查询完成的。例如,在本体中,给定作者a,通过联系Create(author,document)可以找到他写作的文献;再通过Publisher(document,press)可以找到这些文献的出版社;再通过Subject(document,concept),确定这些文献的主题领域。根据下面的推理规则,还可以确定作者a所涉足的专业领域:[(? d creator ? a)∧(? d subject ? c)→(? a isExpertOf? c)]。在KVision原型系统中实现了这样的浏览功能。

(2)通过语义关系可以构造复杂的语义查询

在本体中,所有的对象都通过各种类间联系编织在一起。所以能够从任何一个点出发,实现任意复杂的语义查询,使得查询达到任意的精度。例如,在现有的信息系统中表达和完成以下查询是非常困难的,因为它们涉及间接相关的对象:“找到由国家图书馆工作的人员撰写的、在科学出版社出版的、关于计算机网络的所有文献”。在本体驱动的信息系统中,对象间的关系显式地描述出来。上述查询通过类Document、Author、Organization、Press、Concept和它们之间的联系Creator(document,author),Pulisher(document,press),affiliation(author,organization),Subject(document,concept)经过串联即可完成。用本体查询语言SPARQL表达的查询语句和在KVision中的查询接口如图2所示。

图2 KVision中的语义检索界面

(3)检索结果的语义组织

根据在本体中定义的类和关系,可以对搜索结果做分类组织,方便用户控制检索结果。在KVision检索系统中,提供了类似搜索引擎的简单关键词查询界面。例如,当用户键入查询词“电子”时,虽然执行的是关键词匹配,但是检索结果按照对象的类型做了分类组织,将包含“电子”的出版社、书名中包含“电子”的文献、名称中包含“电子”的主题分块排列,供用户进一步选择。

5 利用本体加强搜索引擎

知识组织工具是领域专家编撰的,其中包含丰富的、规范的领域概念和知识结构。这些工具历经多年才能得以完善和成熟,并不断修订,是图书馆最宝贵的知识积累。遗憾的是,传统知识组织工具长期以来局限在图书馆中使用,不能用于网络信息资源的发现与利用。将之应用于网络信息环境,有两个问题需要解决:第一,要采用机器可理解、可交换的方式来表示它们,这是前提;第二,搜索引擎是目前利用网络信息资源的主要工具,要发挥传统知识组织工具对于网络信息资源利用的价值,应将它们和搜索引擎结合在一起。本文将传统的知识组织工具转换为本体,并采用通用的本体语言OWL来描述,解决了第一个问题。对于第二个问题,考察搜索引擎的不足可以发现,尽管搜索引擎在网络资源的收集、索引、响应以及结果排序方面表现不凡,但是有两个问题没有得到有效解决:第一,对于大多数的普通用户来说,常常不能找到合适的词汇表达自己的搜索需求;第二,返回的大量搜索结果完全依赖排序,缺乏组织。这两个问题可以通过本体向搜索引擎提供词汇服务,加以解决。

5.1 搜索词汇辅助

KVision系统提供了Web查询接口。当用户键入查询词时,一方面将查询词提交给搜索引擎(百度),获取搜索结果返回给用户;另一方面将查询词提交给本体,获取该词的上下位概念,显示在搜索结果页的左侧栏内。参考系统提示的相关概念,用户可以方便地进行扩检和缩检。例如,当用户查询“数据库”时,从本体返回“数据库”的所有下位主题和涉及数据库的类等级结构。用户据此可以进一步明确自己的检索需求。若用户选择下位概念“图象数据库”进行缩检,点击后,该概念的所有同义词通过“或”操作形成查询时执行搜索(此例中,最终构造的查询式是“图象数据库OR图像数据库”)。

SELECT ? title WHERE{? x dc:title ? title.

? x dc:creator ? author

? author kv:affiliation“国图”

? x dc:publisher“科学出版社”

? x skos:subject ? concept

? concept preLabel“计算机网络”}

当然,词汇提示的质量取决于本体中概念的丰富程度。图书馆有丰富的类表和词表储藏,如果都能利用起来建设本体,则能为搜索引擎提供强大的词汇辅助。和现有搜索引擎中的词汇提示功能相比(例如百度和谷歌中搜索结果页面底端的相关词汇),从知识组织工具中获取的词汇具有更丰富的语义联系(同义、等级、相关),质量更高。目前在KVision系统中,只提供了《中国分类主题词表》第一版TP39下的概念。

5.2 搜索结果归类

组织搜索引擎返回结果的常用方法是聚类。聚类不参考外部的分类组织结构,它先从命中页面中提取命名实体和主题,然后将包含相同对象的命中页面划分到同一组。受信息提取技术和聚类响应速度的限制,搜索结果聚类还没有达到实用化的程度。大多数的聚类系统只提供平面聚类,不能对聚类后的集合再次划分。

在外部知识库的支持下,可以对搜索结果进行归类。归类是依据已经存在的知识组织结构对搜索结果进行分类。如果参考的组织结构是等级的,就可以实现等级归类。归类的方法对于专业领域的搜索有较大的价值,可以看到搜索结果在相关领域的分布。图3是在KVision中对百度返回的“信息处理”的搜索结果进行等级归类后的结果页面。实现方法是在搜索引擎返回的每一条命中记录r的标题和摘要中寻找本体中存在的概念,如果r中包含概念c,则r被归到c代表的类中。基于本体的归类属于语义归类,也就是说,r包含c的任意一个同义词,都算作是c的成员。归类过程允许一个命中记录被归到多个类中去。由于KVision中表达主题和类的概念具有等级关系,归类后的主题呈现出等级层次。

图3 搜索结果归类

6 KVision原型系统的构建

实现KVision语义检索系统所采用的主要工具是本体编辑工具Protégé和RDF数据管理系统Sesame,在Java环境下开发完成。

Protégé用于创建KVision本体模型,生成的本体随后导出为OWL文件。随后,编制抽取程序从《中国类主题词表》中提取类、主题词和其间关系,作为概念的实例数据写入OWL文件;从CNMARC书目记录中抽取文献、作者、出版社、标引主题的信息和其间关系,作为对应的类和关系实例写入OWL文件,完成KVision本体的自动构建。

Sesame用于管理和查询KVision本体知识库。Sesame是一个开源的RDF数据管理器,它支持RDFS的推理和查询。Sesame下层的数据存储管理可以采用关系数据库,也可以采用文件系统。Sesame为本地访问提供了灵活的API接口,远程访问可以用HTTP或RMI(远程方法调用)。在Sesame中可以使用多种RDF查询语言,包括:SeRQL、RDQL和SPARQL。

图4 KVision系统的体系结构图

KVision语义检索系统采用Java实现,通过Sesame的API调用完成对本体知识库的操作,向用户提供知识浏览和语义检索的功能;通过HTTP远程调用向搜索引擎提供词汇服务,实现搜索词汇提示和搜索结果归类的功能。为了提高开放性,还可以将远程调用接口包装成Web Service,向互联网上的第三方程序提供开放的、统一的词汇服务。KVision系统的体系结构如图4所示。具体功能前文已有说明,在此不再赘述。KVision系统在Web上提供公开访问和测试(http://Kvision.pku.edu.cn/KVision),目前仅装入了计算机科学领域的词汇(词汇来自《中国分类主题词表》第一版TP39部分的类目和主题词)。为了比较本文的工作和相关项目,表1列出了KVision和相关项目中本体的规模和它们支持概念检索与搜索引擎的情况。

7 总结

本文介绍了基于现有的知识组织工具和书目数据资源自动构建本体的方法,展现了传统知识组织资源本体化后可开发的强大功能,包括知识浏览、语义检索、词汇服务和搜索结果归类。

知识组织是传统文献信息环境下利用信息的主要手段。在上百年的实践中,发展出成熟的知识组织工具,积累了丰富的元数据资源。在今天的Web时代,这些资源应尽快转换为机器可以访问、可以自动应用的知识库。否则,不但不能发挥自身优势,还有脱离Web环境成为信息孤岛的危险。但是,与此同时,要克服随着图书馆信息服务主导地位的丧失,由于缺乏自信而盲目追随新技术、忽视本有资源积累的倾向(如当下一些放弃信息组织传统、让MARC安乐死等的论调)。事实上,图书馆已有的知识资源积累,具有明确定义的结构和规范细致的描述,是一种“土本体”。这正是本文本体构建实现自动化的基础。

本文的另一个贡献是展现了现有知识组织资源对于网络信息资源利用的潜在价值。在这个方向上推进,需要进一步增强、改造现有的知识组织工具,实现词表的自动丰富和分类法的改造。本文作者提出挖掘标题中的新出现的专业词汇,并通过分析标引信息将这些新词丰富到词表中去[12];根据文献密度和类目的分布来改造分类表,以实现图书分类法的自动分类[13]。在真实数据集上的大规模试验取得了令人鼓舞的效果。基于这些成果,有理由相信,传统的知识组织资源对于网络信息资源的有效利用潜力无穷,值得深入挖掘。

标签:;  ;  ;  ;  ;  

基于传统知识组织资源的本体自动构建_搜索引擎论文
下载Doc文档

猜你喜欢