语义对等网环境下基于节点知识地图的用户模型构建,本文主要内容关键词为:语义论文,节点论文,模型论文,环境论文,地图论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着本体技术的兴起,对等网可以有效地与语义网结合,即语义对等网的形成[1]。语义对等网使得对等网中每个节点的资源可以通过统一明确的模式描述,从而很好地利用机器自动处理这些资源,并从中抽取出隐含的语义信息,充分发挥对等网模式下信息表示的潜力[2]。但这种从本地资源抽取出具有语义的知识以及知识间的关系是零乱的,需要专门的方法对这些具有价值的语义知识进行管理。大量文献表明,知识地图可以简化大量信息,有效地对知识进行组织、管理[3]。同时可以发现隐性知识以及知识间潜在的关系(关联)[4]。
从国内外研究中可以看出,现有语义对等网环境中还没有有效利用用户兴趣来提高检索效率的方法,但在对等网环境中早已引入了这一想法,利用用户兴趣来提高检索系统效率的核心与重点是用户兴趣模型(Interest Model,IM)的构建,用户兴趣模型构建的好坏直接影响着用户兴趣群组的形成以及检索的准确性。目前现有对等网信息检索系统中用户兴趣模型构建方法有很多,通过对用户历史信息的观察创建简单的知识库,并对知识库中的信息进行学习,提炼用户兴趣,是构建用户兴趣模型最便捷的方法[5]。但单纯依靠用户历史查询建立用户兴趣模型并不能很好地适应对等网环境动态变化的特点。另一种方法是通过分析协同标记系统中的标签信息,统计标记资源所使用标签的频率以及使用WordNet来发现标签间的语义关系,并为每个标签赋予不同的权值来建立用户兴趣模型[6]。但用户以不受控制的方式分配标签,会造成信息管理缺乏系统性和元数据不一致,从而导致用户兴趣发现的偏差[7]。除了上述方法,还可结合本地节点资源分类和自动聚类的方法构建用户兴趣模型。本文借鉴对等网环境中用户兴趣模型构建的方法,重点研究在语义对等网平台上如何通过支持向量机分类原理,从管理本地资源的知识地图中发现用户表面以及隐含的兴趣,并以兴趣描述文件的形式保存,形成支持语义对等网上兴趣群组形成的用户兴趣模型。
1 用户兴趣模型的总体框架
用户兴趣模型是语义对等网检索系统在适应用户过程中,用于收集、管理本地用户资源,同时抽取分析以及管理用户兴趣,并进行相关知识推导的功能集合。用户兴趣模型的构建是在语义对等网上形成兴趣组的基础和核心,只有先从节点资源中抽取出有效显示用户兴趣的信息并进行准确的描述,才能形成可用的兴趣组,从而提高检索效率。不同于其他用户兴趣模型的构建方法,笔者利用知识地图对资源有效组织的优势,建立用户兴趣模型。知识地图可以通过对应用领域中知识表达的内容以及结构的联系来帮助检测知识资源[8]。同时,节点知识地图可以反映节点的全局知识结构,通过本地知识地图用户的资源进行有效分组,从而快速地从知识地图的框架结构中抽取出用户的兴趣。此外,随着语义网技术(OWL和WordNet)的应用,节点的知识地图可以描述难以从表面提取潜在用户兴趣,并提供有效具有语义关系的用户兴趣模型。
通过对现有研究的回顾,提出语义对等网检索系统中用户兴趣模型构建研究的总体框架(如图1所示)。用户兴趣模型建立的主要步骤是:①生成知识地图。收集反映本地资源的语义标注信息,并通过语义网推理机制挖掘资源与标注信息间的关系,分析知识资源结构和计算知识权重,得到相应资源特征实体及其之间直接与潜在关联,同时将获取的资源特征实体及其之间的关联进行结构化组织与表示,形成本地节点知识地图。②挖掘用户兴趣。根据生成的节点知识地图,抽取用户主要知识实体概念,即在知识地图中将处于集中节点位置的知识概念作为用户兴趣特征词,并依据支持向量机分类原理从抽取出的兴趣特征训练集中挖掘用户兴趣。③表示用户兴趣。通过为每一个用户创建兴趣描述文件来统一管理本地节点的兴趣,用户兴趣描述文件描述了用户兴趣的结构模型与兴趣等级。
图1 用户兴趣模型的总体框架
2 用户兴趣模型的构建
2.1 本地节点知识地图的生成
大多数情况下知识是不稳定的,尤其在语义对等网这种高度分散的环境下,所以首先构建节点知识地图,通过编纂不同的节点知识或节点对现实资源的需求来分析知识转移范围,评估、更新和改进这些知识,进而动态建立本地节点知识地图[9]。也就是说,知识地图提供了一个有效的方式来处理所收集的大量资源和提取有代表性信息,而本地节点的知识地图有效地反映了节点全局的知识结构,因此可以很容易地知道节点知识的布局和捕捉到有价值的信息进而挖掘用户的兴趣[10]。这里需要指出的是,知识获取是个动态的过程,所以随着用户本地资源的添加与删除,知识地图的结构也随之改变,所以知识地图的构建是根据时间定期更新的,并保存不同时段的知识地图,进而生成节点知识地图集合。
本地知识地图是知识实体及其相互关联的集合,每个知识实体都包括挖掘出的知识唯一的身份信息标识以及它的属性及描述信息[11]。同时知识地图清楚地揭示了相关知识的类型、特征及知识之间的相互关系。知识地图的构建主要包括相关知识实体提取,知识实体表示以及知识实体相互关系建立3个步骤。
2.1.1 知识实体的提取 知识实体是知识地图的基础与核心,知识实体抽取是指从本地节点非结构化资源的语义描述中获取相关知识内容的过程。本文利用语义对等网上节点资源的语义标注进行知识实体抽取[12],基本思路是:①借助本地节点资源语义标注集中的标注信息,以及生成的有关资源标注描述的OWL文件中标记信息的关系进行分析和计算,生成知识抽取规则。②语义对等网上节点资源语义标注信息很多都是基于匹配模式的,这些模式是由两个名词和一个动词表达组成的三元组,并借助WordNet等辞典和形式概念分析方法针对多个概念间的上下位类、同位类等类目关系实现抽取,同时利用推理机发掘潜在的知识实体。③量化标引词之间的关系,确定关系指数,并结合标引词全局分布指数计算标注词权重W。④根据标引词权重确定知识实体,生成知识实体集合,并通过它们的类型与Ontology关联,通过唯一标识存储在知识实体文件中,同时通过它们之间的关系识别建立实体间的关系。
2.1.2 知识实体的表示 利用语义网技术中的OWL可以定义各种概念和属性,建立它们之间的关系,将不同类型不同领域的知识进行整合[13]。应用WordNet对知识实体进行有效的管理,并以知识实体文档保存。通过该方法表示的知识实体能够描绘隐性知识实体的意义及相互关系。
图2表示的是一个应用OWL表示知识实体内容的知识实体文档的部分内容,从该文档中可以看出这个知识实体属于KnowledgeEntity类,其名称为e-Commerce,本地标号是10102301,在WordNet中该条知识实体仅有一个概念解释,即Commerce Conducted Electronically(As on the Internet)。该知识实体有两个实例,分别来自资源“local/user/e-trade.txt”和“local/user/buyer.pdf”中。
2.1.3 知识实体关系的建立 使用OWL等本体语言不仅能够精确地界定概念和属性,还可以准确地描述它们之间的关系。具体来说,它提供了基本术语、描述的概念、性质、关系、公理和实例,将不同类型、领域的知识联结成一个整体,进而便于信息资源的智能管理,为数据、信息、知识的匹配和交换提供了有效的支持。知识实体关系通过语义三元组方法表示,
2.2 用户兴趣的挖掘
机器学习方法(Machine Learning Methods),如支持向量机(SVM),可以帮助人们有效地组织信息[14]。本文采用支持向量机聚类算法在本地节点知识地图中挖掘用户兴趣。支持向量机是在高维特征空间中使用线性函数假设空间的学习系统,由一个最优化理论的学习算法训练,该算法实现了一个由统计学习理论导出的学习偏置[10]。基于SVM用户兴趣挖掘模型的构建思想主要分为两个部分:分类器的构造和用户兴趣分类的判决[15]。具体过程为:首先以用户不同时期的节点知识地图作为样本训练集,并通过分析获得训练集中样本的属性特征,然后通过设定好的SVM方法对选取的样本特征进行训练,以此设计出SVM分类器或分类模型。其次,用正常的测试样本对上步已经训练好的分类器进行分类验证,对验证结果进行分析,并根据分析结果修改分类器。需要注意的是,这是一个反复进行的过程,直至分类结束。
其中,用户训练集选取的前提是用户资源是不稳定的,同时知识的有效性短,有效价值有限,但在一定时期段内用户的兴趣是相对稳定的,在对等网上寻找正确节点比资源更加有效,即知识是什么不重要,重要的是哪个节点有这些资源。具体的用户兴趣生成过程如图4所示。
3)分类器确定后预测用户兴趣,接受所有高置信度的判定结果,同时进行分类结果的反馈,自动导出新训练集,完善分类器,作进一步用户兴趣的提取。为了提高用户兴趣提取的准确度,有时需要配以人工浏览来确定。
2.3 用户兴趣的表示
3 结束语
本文提出了基于知识地图的用户兴趣模型的构建,利用本体描述语言OWL描述本地的知识实体及其之间的关系,可以明显改善节点的知识结构,利于用户兴趣的挖掘,在准确性和简洁性等方面优于其他方法,具有较强的实用性。但仅利用根据本地资源构建的知识地图来发掘用户兴趣建立的用户模型,却忽视了用户兴趣短期不稳定性,所以在今后的研究中会考虑通过分析用户查询式以及历史查询节点信息对用户兴趣模型的构建进行补充与完善,并通过合适的兴趣匹配算法,对语义对等网环境下节点用户进行用户兴趣分组,充分发挥用户兴趣组在提高检索性能上的重要作用,最大限度地捕捉网络中的用户有效兴趣节点,从而产生高效的检索行为。