中文本体自动获取与评价算法分析_语义分析论文

中文本体的自动获取与评估算法分析,本文主要内容关键词为:本体论文,中文论文,算法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

20世纪90年代以来,互联网已经成为人们进行信息交流的重要工具,它通过统一资源标识符(Uniform Resource Identifier,URI)对互联网上的信息进行标识,使人们可以迅速地对互联网信息资源进行定位。然而,互联网在处理信息时只是按照URI来定位信息,对于人们真正关心的信息内容,计算机处理却非常有限。为了改变这一状况,互联网研究者正在努力寻求新技术,其中最令人瞩目的就是语义网(Semantic Web)。语义网通过构建本体以及本体关系来描述和导航信息,用户可以利用本体之间的语义关系来查找和浏览信息。从这一角度而言,传统的信息查询和浏览模式将因此发生重大改变。

在语义信息网中,信息模式是建立在本体描述之上,因而能否成功构建本体具有至关重要的意义。现阶段,通常的做法是借助领域专家对本行业的信息进行归纳和提取,以手工方式构建本体。然而,本体的手工构建是一项工作量巨大并且异常繁杂的任务。在这种背景下,如何半自动或者自动地构造领域本体,逐步成为近年来语义网研究的热点。

国外对于本体自动获取的研究并不成熟。Maedche和Staab提出了一个本体获取的框架,包括本体导入(Ontology Import)、本体抽取(Ontology Extraction)、本体裁剪(Ontology Pruning)、本体精练(Ontology Refinement)和本体评估(Ontology Evaluation),并对如何从文本、字典和原有本体中获取新的本体进行了研究[1]。Omelayenko则对现有的本体获取方法进行了分析,他将本体划分为自然语言本体(Natural Language Ontology)、领域本体(Domain Ontology)和本体实例(Ontology Instance),认为本体获取的任务主要包括本体创建(Ontology Creation)、本体模式提取(Ontology Schema Extraction)、本体实例提取(Extraction of Ontology Instance)、本体合并(Ontology Integration)和本体更新(Ontology Update)等,并结合机器学习讨论了自然语言本体、领域本体和本体实例的获取方式[2]。Cimiano等人则讨论了从文本中获取本体的层次或者关系的方式,对比了利用相似度度量聚类(Similiarity-based Clustering)和集合理论聚类(Set-theoretic Clustering)两种方式进行概念聚类的有效性、效率和可跟踪性[3]。

国内对于本体自动获取的研究则相对较少,2002年,李守丽等人借鉴了国外的经验,对利用奇异值和概念聚类进行汉语本体获取进行了初步讨论,但是对于计算词频之前的准备工作和本体获取之后的评估却并没有作详细讨论[4]。

结合国内外的研究经验,本文认为从某一领域文本中提取本体主要包括3个阶段,即文本预处理、本体抽取和本体关系获取。在文本预处理中,将文本按照一定规则转化为词;在本体抽取中,从词中抽取出相关本体;在本体关系获取中,对本体的层次或者交叉关系进行提取。本文讨论了这3个步骤所涉及的算法,包括基于统计模式从文本中抽词,基于奇异值分解从词—文档矩阵中提取本体,基于语义相似度对于本体进行聚类等。而对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式获取的本体的相似度(包括词和语义相似度)来衡量的思路。

1 本体获取步骤

从某一领域文本中提取本体主要包括3个阶段,即文本预处理、本体抽取和本体关系获取。在文本预处理中,将文本按照统计分词法转化为词;在本体抽取中,首先得到词一文档矩阵(Term-Document Matrix),然后利用奇异值分解(Singular Value Decomposition)和潜语义索引(Latent Semantic Index)从矩阵中抽取出相关本体;在本体关系获取中,对本体的层次关系利用层次聚合聚类方法(Hierarchical Agglomerative Clustering)进行提取。

1.1 预先处理

文档预处理主要是将文本转化为词,以便后续处理。按照是否借助于词库进行分词,可以将抽词方法分为机械式分词法和统计分词法。在这里主要借鉴傅赛香等人[5]的做法,采用基于统计的无词库分词法,具体可以分为以下几个步骤:

第一步,对文档进行预处理,包括编码转换、全半角处理、字符转换,再将停用词、标点符号、英文字母、数学运算符等其他非汉字字符用空格代替。

第二步,取出所有相连2个或2个以上的汉字组成的字符串,作为文档的汉字结合模式集,记为Φ,并统计这些字符串的出现频度。

附图

1.2 构建“词—文档矩阵”

经过预处理后,文本被转化为词。为了描述词和文挡之间的关系,需要建立词一文档矩阵(如公式3所示),假定在k篇文档中共有m个不同的词,矩阵的每一行代表一个词向量,它显示了每一个词在k篇文档中的权重,矩阵的每一列代表了一个文档向量,它显示了一篇文档中所有词的权重。

词的权重的计算方法采用TFIDF(Term Frequency Inverse Document Frequency)[6]方法,其中TF为词(Term)在文档(Doc)中出现的频度,可以利用最大正向匹配法统计Ψ中词条的出现频率,IDF则表示为词在整个文档中出现的频率,它反映了词区分文档内容属性的能力。词在整体文档集中出现的范围越广说明它的区分能力越低;而另一方面,如果它在某一文档中出现的频率越高,说明它在区分该文档内容属性方面的能力越强。

权重TFIDF的公式如下:

附图

1.3 对词—文档矩阵进行奇异值分解

“词—文档矩阵”只是反映了词和文档之间的关系,为得到词与概念之间的关系,需要对它进行分解。不难证明,任何矩阵都可以分解为类似于公式(4)所示的3个矩阵[7]:

附图

在上述步骤中,已经将概念和与其相关的词汇聚集到矩阵U的各列,概念的名称用出现最为频繁的两个词以连接符号连接而成,概念所涉及的词汇和其权重也包含在列的信息中,这些概念称为原始本体。

1.4 构建本体之间的关系

在得到原始本体后,下一步就是寻找原始本体之间的关系。由于现实中本体的关系相当复杂,因而本体关系的获取也是一项非常复杂的工程,为了简化研究,这里只讨论本体的上下位关系的自动构建。上下位关系的获得利用层次聚合聚类方法(Hierarchical Agglomerative Clustering)实现,这是一种基于相似度的从下向上的聚类方法,它首先计算两个本体之间的距离,将距离最近的两个本体合并,依次重复这个步骤,直到最后构成一个最大的上位本体。

本体之间距离的计算公式为:

附图

其中,k为两个本体所包含的Term数。

2 本体的评估

在本体获取后,如何评估本体自动生成算法的可靠性,国内外对此的研究也很少。本文认为,一条可行的思路是,在自动生成的同时,予以手工构建本体,然后对比二者的相似度,用相似度参数来衡量算法的可靠性[10],相似度参数包括词典相似度(Lexical Similarity)和语义相似度(Semantic Similarity),前者是衡量概念之间相似度的参数,而后者则反映了概念关系的相似度。相似度的计算基于核心本体(Core Ontology)[3]。所谓核心本体,可以定义为一系列概念以及其相互关系。用结构可以表示为:结构O:=(C,≤c),其中,C是一系列概念,≤c是概念层次或关系。

2.1 词典相似度

附图

附图

3 结论

本文分析了领域本体获取的三个步骤(即文本预处理、本体抽取、本体关系获取)中所涉及的算法,包括基于统计模式的抽词算法,基于奇异值分解从词一文档矩阵中提取本体算法,基于语义相似度对于本体进行聚类算法等。对于本体自动获取的效果评估,提出了利用计算手工创建本体和自动获得本体的相似度(包括词相似度和语义相似度)来衡量的想法。应当指出的是,对于本体的自动获取,本文的研究仍然停留在算法分析阶段,如何根据算法设计出实用的领域本体自动获取系统,如何在具体使用中通过调整公式(5)中的参数k以使公式(12)的结果达到最优,如何在系统的使用中进一步检验算法的科学性和有效性,将在后续的研究中进一步深入。

标签:;  ;  ;  ;  ;  ;  ;  

中文本体自动获取与评价算法分析_语义分析论文
下载Doc文档

猜你喜欢