基于语言分析技术的本体自动获取方法研究_自然语言处理论文

基于语言分析技术的本体自动获取方法研究,本文主要内容关键词为:本体论文,语言论文,方法论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕TP182

1 引言

近年来,本体被广泛地应用到计算机科学的众多领域,人们对本体的研究也取得了一些突破性的成果,基于Web的本体构造、编辑、浏览和使用工具已经比较普遍,本体在知识工程中的运用也取得了很大的成绩。

本体是概念体系的一种明确的规范说明,即“An ontology is an explicit specification of a conceptualization”[1],它通过定义类(categories)、属性(attributes)、关系(relations)、公理 (axioms)等元素,刻画领域中的类和实例及其之间的层次关系,对领域知识进行归纳和抽象,领域本体在一定程度上是对现实世界的反映。

通常,要构建一个高质量的、独立于特定系统的本体库,人工参与本体的构建过程是不可避免的。然而,在时间有限及人力资源紧缺的情况下,构建一个很实用的本体库是一件非常困难的事情。因此,很多研究人员都从不同的角度对这个问题进行思考,以期能够在本体获取方面上有所突破。本文提出的本体获取方法是利用语言分析技术对自由文本进行分析和处理,并在此基础上进行本体获取。这种本体获取方法将把人们从繁重的手工劳动中解放出来,并能极大地提高知识获取的效率。

2 本体获取研究现状

现阶段,对本体获取和构建的研究非常普遍,本体更强调共享、重用,它的出现就是为了给不同系统间提供统一的语义集成,因此它的工程性更加明显,本体工程这个思路也已经被大家所接受。

本体获取的方式大致可以分为三种,即人工获取、半自动获取和自动获取。具体来说,根据本体获取的知识来源不同,本文把本体获取方法分为以下几种。

2.1 人工获取

人工获取,即知识工程师与领域专家合作,对有关领域知识和专家知识进行挖掘、搜集、分析、综合、整理、归纳,然后以某种表示形式存入本体库。这是把领域专家和知识工人头脑中的知识结构转化为形式化的、计算机可处理的知识的过程。人工获取的优点是概念关系表达准确规范、容易扩展等;其缺点是成本高、速度慢。人工获取的方式还是本体获取及构建的主要方法,在目前的情况下,人们普遍认为本体获取需要领域专家的参与。

人工获取本体,基本上都需要本体构建工具进行辅助,如比较流行的工具OILEd、WebOnto、Protégé等,这些工具的使用极大地方便了人们进行本体的构建活动。

2.2 基于半结构化文本资源的本体获取

即利用半结构化文本(如词典、工具书、手册、叙词表等)作为本体的知识源,通过一定的方法对这种与本体之间具有联系和区别的资源进行形式化和提取,最后获取其资源的核心知识,形成本体。利用半结构文本来构建本体,国内外都已经有不少人进行研究,也有许多进展[2-3]。

2.3 基于自由文本的本体学习(Ontology learning)

本体学习技术是目前比较热门的研究课题,利用本体学习的方法来进行本体构建,自动化程度较高,但所获取的本体效果并不很理想,还要进一步的研究和实践[4]。

2.4 本体融合/集成(Ontology merge/integration)

现阶段由于各种需要,已建成的本体数量相当丰富,如利用daml语言描述的本体,可在http://www.daml.org/ontologies/获取。因此,根据特定的需要,如何利用现有本体构建特定领域的本体,是一项非常有意义的研究工作。本体融合/集成也是目前本体获取的一个方法,它指集成利用两个或多个本无联系的本体,重用其表示的知识,将两个或多个本体中的知识以一种统一的形式表示在新的本体中的一种过程。

总的来说,目前本体的获取主要还是通过人工获取加辅助工具来完成的。也正是由于现阶段本体获取的实际情况,人们希望能够突破本体获取的瓶颈,减少人为参与本体获取的程度,能够自动化及半自动化地获取本体。也正是基于这种想法,本文提出了一种基于语言分析技术的本体自动获取的方法。当然,本体的全自动获取难度是很大的,本文在这里也只是进行一种尝试,以期对目前本体获取的方法有所启示。

3 基于语言分析技术的本体自动获取方法

3.1 语言分析技术

语言分析技术指将数量无限的句子变换成由词语及其抽象形式(数量有限)构成的用某种数据结构(句法树、复杂特征集或语义网络)表示的内部形式(数量有限),语言分析技术可以分为基于规则与基于统计数据两大类[5]。浅层分析技术或者只提取句子中的名词短语,或者只识别句子的谓语中心词及其他组块同谓语中心词的依存关系。随着计算语言学的发展和对自然语言了解的深入,深层分析技术正成为语言分析技术的研究重点。目前,基于规则的语言分析技术主要还是以句子为单位,基于规则的句法分析并辅以适度的语义分析,它仍然为语言分析技术的主流。

语言分析技术是自然语言理解中最核心的技术,人们相信,文本语言通过语言分析技术的分析和形式化,能够让计算机理解人类的语言,从而达到真正意义的自然语言理解。基于这种想法,语言分析技术应该能够对文本进行分析,最后能够从文本中获取到知识,从而最终获取到知识的核心部分,即本体。

3.2 本体获取的理论依据

从信息处理的角度看,语言文本是信息的载体,即信息中蕴含着丰富的知识,知识经过整理和形式化可以构建知识库,而本体是知识库的核心内容。

3.2.1 信息和知识处在信息开发链上的不同层次 自然语言存储的是数据资源,文本等数据资源都属于信息,而知识库中存储的是知识,因此可以对其进行转换。知识工程就是基于对自然语言的理解,从自然语言中抽取出丰富的知识,从而可以构建知识库,达到知识的获取。

3.2.2 当代语言学的发展已经为自然语言处理提供了相当实用的语法理论及形式化方法 目前的发展方向是对语言信息进行语义分析,能够对自然语言进行深层处理,达到语义的理解。如果能够对语言文本进行深层分析并可以获取语言信息的深层结构,则知识的获取也是可行的。

自由文本的本体获取面临自然语言的词汇、语法、语义以及语用等方面的问题,其复杂度和难度已经远远超过对半结构文本的本体自动获取。我们认为,利用语言分析技术对文本进行处理,应该可以初步达到对本体的获取,此过程大大加强了本体获取的自动化并极大地减少了人工参与本体获取的程度。

3.3 语法理论模型

语言分析技术发展了这么多年,必然需要有一个比较成熟的语法理论模型来对自然语言进行分析并使自然语言形式化。词汇功能语法(lexical functional grammar,简称LFG)是美国语言学家Ronald Kaplan和Joan Bresnan于1982年在“Lexical functional grammar:A formal system for grammatical representation”一文中提出的[6]。LFG语法理论以探索语言内部的结构和人类语言产生的心理机制为目标,通过良好的建模理论,为当代自然语言处理语法理论提供了一种非常实用化和工程化的理论模型,并随粘着语义学等理论的成熟而发挥更大的作用,表现出良好的发展势头。LFG理论的基本框架结构如图1所示[7]。

图1 LFG基本框架结构

LFG在句子的句法部分提供了两个不同层次结构的信息,一种是句子的成分结构(C-structure);另一种为句子的功能结构(F-structure)。成分结构表现为一般意义上句法结构树,描述句子成分的结构关系;而功能结构是利用包含特征和特征值的复杂特征集合来描述句子主语、谓语、宾语等语法功能之间的关系。LFG以功能为基础,定义句子的合格条件作为对成分结构的制约,也就是说,句子的成分结构必须经过非常严格的条件才能转换成功能结构。

例如,句子“John left”的成分结构和功能结构如图2所示,该句的语义结构则为left(John)。

图2 LFG的成分结构与功能结构示意图

词汇功能语法可以和粘着语义学这种形式化的语义计算理论相结合,对句子进行语义分析获取句子的语义结构,从而为句子的知识表示创造基础,并以此分析出句子中各个成分及概念之间的关系。因此,LFG语法理论模型广泛应用于各种自然语言处理系统中。

3.4 基于语言分析技术的本体获取过程

自由文本经过句法分析(中文文本还需经过切词),得到句子的成分结构树(语法表达形式),在句法分析的基础上利用线性逻辑对其进行语义分析并消歧处理,最后能够得到句子的语义表达形式。而语义表达是知识表示(knowledge representation)的基础,在知识表示的基础上可以构建知识库,最后从知识库中抽取出本体,基于语言分析技术的本体获取过程如图3所示。

单句的分析过程如下:英文句子The wire broke,经过层层分析及语义表达,最后把句子表示成知识库的表示形式(如图4)。因此,如果对某一领域较多的文本进行分析并形成计算机可以处理的知识表示形式,最后经过取舍,可以较自动地获取该领域的知识库。得到某领域的知识库以后,就可以比较容易抽取出该领域内核心的知识,从而能够得到本体。

图3 基于语言分析技术的本体获取过程

图4 单句知识库表示形式的语义分析应用实例

3.5 需要解决的几个问题

根据上面所讨论的步骤,基于语言分析技术,能够对自然语言进行分析及处理,达到对知识的表达,最后从中获取自由文本的本体知识。但是,不管我们运用何种语法理论模型来对自由文本进行分析,都必须要解决以下几个问题。

3.5.1 语法规则 在进行句法分析的时候,必须要拥有相当数量的语法规则,语法规则也应该能够适应大规模的文本,覆盖相当广的语法范畴,使得文本在进行句法分析的时候能够提高正确率。当然,一个能完全覆盖众多语言的语法规则的获取是比较困难的,有效的办法就是在对文本分析的过程中和从实例中,同时学习到新的语法规则并加入到已有的规则当中去,逐步完善语法规则并保证语法规则的完整性及实用性。

3.5.2 语法词典 语言信息处理涉及到切词及句法分析等过程,因此需要以词为基本单位,需要词的详细信息。而词典在信息处理中起着基础知识库的重要作用,一部高质量的机器词典是任何一个语言信息处理系统成功的必备条件之一。实践经验也表明,词汇知识的缺乏是真实文本处理的瓶颈。

基于语言分析技术的本体自动获取需要对文本进行句法分析,因此,需要一个适用的语法词典来支持句法分析。例如:基于LFG语法的句法分析,就应该有类似(1)John N(↑ pred)='john'(2)walked V(↑pred)='walk'的语法词典,分别是词、词类及词的功能标注信息。

3.5.3 语义词典及语义规则 为进行大规模的真实文本的语义分析和理解,使计算机能像人类一样理解自然语言中所包含的信息,必须构建大规模、可计算的语义资源。机器通过学习其中的知识,达到理解自然语言中所含语义信息的效果。因此,语义词典对于语义分析来说至关重要。

对基于语言分析技术的本体自动获取来讲,对文本进行语义分析并把文本表达成知识是本体获取中最关键的一个步骤。因此,必须构建一个合适的语义词典及规则,使得对文本的自动分析能够较好地进行。

以上几个问题对于文本的分析及处理是非常关键的。对于从自由文本中进行的本体获取,其困难程度可想而知,因对自然语言分析的每一个过程都需要有相应的资源进行辅助。

4 展望

本体的自动或半自动获取,是今后本体研究中一项比较热门的研究方向。各类研究机构及研究人员都在进行这方面的努力,基于语言分析技术的本体自动获取只是本体自动获取研究里面的一个方面的内容。

当然,利用语言分析技术的本体自动获取研究,涉及到情报学、计算语言学、逻辑学、认知学、人工智能、数据库、面向对象方法等多门学科的知识,学科跨度比较大,完全实现自动化的获取是比较困难的。但是,随着科技的进步和学者们对这一问题研究的深入,基于文本的本体自动获取技术将会更加成熟。

收稿日期:2006-07-05 修回日期:2006-07-19

标签:;  ;  ;  ;  ;  

基于语言分析技术的本体自动获取方法研究_自然语言处理论文
下载Doc文档

猜你喜欢