知识本体与信息过滤,本文主要内容关键词为:本体论文,知识论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
因特网以快捷的传输方式和丰富的信息资源极大地方便了人们的生活,同时也带来了所谓“信息过载”和“信息迷向”的问题。面对类型复杂、结构各异的海量信息,如何选择自己感兴趣的信息,屏蔽不相关的信息成为困扰网络用户的问题,信息过滤技术(Information Filtering,IF)应运而生,并成为当前信息技术领域的研究热点之一。
有关信息过滤的研究主要集中在两个方面:一是过滤不良信息,即设置一定的条件限制用户获取某些不良信息,以净化网络环境,保证网络安全。这一类信息过滤系统称为阻挡系统(Blocking System)。二是过滤不相关信息,其目的是向用户提供密切相关的信息,这一类信息过滤系统称为推荐系统(Recommender System)[1,2]。本文主要针对推荐系统,分析信息过滤的方法、实现技术和存在的问题,以及本体在信息过滤中的应用。
1 信息过滤方法
信息过滤的主要流程是识别用户信息需求、建立用户需求模型,构建文本向量空间模型,进行用户模板与文本的匹配和信息推送,再利用反馈机制,不断改进需求模型,改善信息过滤效果。相关技术和方法主要包括以下两个方面[3]。
1.1 用户需求的识别
用户信息需求的识别包括用户初始需求的获取、表示,以及通过用户反馈的学习进一步调整用户需求文档,用户需求的识别是整个信息过滤的基础。用户需求获取的方式按照主动方的不同可分为3种。
一是用户通过主动填写感兴趣的关键词的方式表达信息需求。这是传统的信息过滤系统经常采用的一种方式。其优点是简单、经济,系统开销小;缺点在于加重了用户的负担,有时用户对自己的信息需求表达不清晰,会影响过滤的准确性。另外由于丧失了信息获取的主动权,无法跟踪用户兴趣的最新变化,不能保证服务的及时性和有效性。
二是通过用户对所提供信息的显式评价来获取用户兴趣,即通过显式反馈学习方法分析用户需求。这包括采用固定文章集(Fixed Document Set,FDS )的用户需求获取方法、基于示例的用户信息需求获取方法等[3]。 这些方法采用对用户反馈的文章和提出的示例文本进行文本结构分析,形成主题词表示的用户模板。这类方法能避免用户选取关键词的困难,能够更有效地表达用户潜在的信息需求。
三是在用户没有明确参与的情况下,系统通过跟踪用户行为得到用户的兴趣,即通过隐式反馈来学习用户的兴趣。系统跟踪用户的各种行为,包括访问了哪些文献、文献内容所在页面的访问时间、访问次数、是否被保存、是否被添加入收藏夹等。系统对于用户的不同行为赋予不同的权重,从而判断用户对哪些文献真正感兴趣,在此基础上建立用户模板。这种需求获取方法的主动性最高,能及时了解用户的最新需求。但是用户需求的分析必须联机进行,系统开销很大,服务速度受用户数量的影响较大。
随着人工智能的发展,机器学习的方法在用户兴趣的获取上受到广泛关注,如Bayes学习方法,以及神经网络方法、决策树、KNN(K Nearest Neighbor)、SVM(Support Vector Machine)方法等,都能提供信息相关反馈,动态了解用户的兴趣并能跟踪其兴趣的变化,并具有自我学习和自我适应的机制,这些技术在信息过滤理论与实施中得到广泛的应用[3]。
1.2 用户模板与文本的表示与匹配
现有的信息过滤系统一般利用关键词、规则或分类信息来表达用户需求。对于不同的表示方法可以采用不同的信息匹配算法。例如利用关键词表达的系统,适合利用布尔逻辑模型、向量空间模型或概率模型等;利用分类信息表达的系统,可以利用自动分类的方法等。由于向量空间模型具有表示简洁和计算简便的特点,目前使用非常广泛。向量空间模型的主要思想是从文本中抽取出关键词,根据该词在文本的重要性,给每个词赋予一定的权重,把用户模板和未知文本均表示成向量空间中的向量,利用它们的夹角余弦来进行相似度的度量。系统将与用户原有信息相似度最大的信息推荐给用户。文献[3]论述了信息过滤中的多种匹配方法,包括BP 神经网络法、遗传算法、Bayes算法、进化式方法、最大间距法等。
基于以上的文档表示和匹配技术,信息过滤的匹配模式主要有以下几种:其一为基于内容的过滤(Contentbased Filtering),又叫认知过滤,是利用用户需求模板与信息的相似程度进行的过滤。这种方式较容易实施,能够为用户提供曾感兴趣的相似的信息,但不能为用户发现新的感兴趣的信息。 其二为协作过滤(Collaborative Filtering),又叫社会过滤,这种过滤方式认为价值观念、思想观点、知识水平或需求偏好相同或相似的用户,他们的信息需求往往也具有相似性。基于这一思路,通过比较用户需求模板的相似程度或者根据用户对信息的评价而进行过滤。协作过滤按照用户的相似性进行用户分类,用户的推荐机制综合考虑来自类别内部和类别外部的影响,按照影响的强度向用户推荐相应的文本;根据用户的评价,动态调整用户类别以及相应地修改各类参数,以便改善过滤效率。这种过滤方式既可以为用户提供目前感兴趣的信息,又可以提供潜在的需求信息。基于内容的过滤和协作过滤方式是目前最主要的两种过滤方式,其他的过滤方式还包括依赖于成本和受益核算的经济学过滤(Economic Filtering)以及以上两种过滤方式相结合的混合过滤(Hybrid Filtering)[4]。
现有的信息过滤系统中有相当一部分是建立在词语而非概念的基础上,系统对于用户需求的表达以及信息的匹配和推送都是基于词语的外在形式而非它们所表达的概念,所以常常推送给用户无关的信息。因而要提高信息过滤效率,非常关键的一点在于增强系统的语义处理能力,实现语义层次上信息过滤。要实现语义层次上信息过滤的前提是建立语义词典,在语义层次上实现对用户需求的理解、信息匹配和推送。本体作为可以共享的、完备的、形式化的概念集合,可以为信息过滤系统提供机器可理解的立体语义词典。笔者认为将本体应用于信息过滤系统中,将有效提高信息过滤系统的语义处理能力,具有广泛的应用前景。
2 本体概述
本体,称为Ontology或知识本体,是对概念体系的明确的、形式化的、可共享的规范说明[5]。本体可以理解为某个领域的一套概念体系。 它的主要成分是一整套对某一领域里的知识进行表述的词和术语,还包括术语的示例、术语之间的关系,以及领域内的一些定理。
本体具有概念化、形式化和可共享等特点。概念化是指本体包含某一概念系统所蕴涵的语义结构,它是对某一事实结构的一组非正式的约束规则。形式化是指本体中的事实应是机器可读的;本体通常以基于逻辑的语言来表示,因此可在类、属性和关系之间做出详细、准确、一致且完备的区别。为了便于计算机理解和处理,需要用一定的编码语言(如RDF/OWL)明确知识体系(词表、词表关系、关系约束、公理、推理规则等)。由于本体反映了领域中一致公认的知识,并通过形式化建立人机之间对信息的共同理解,因而具有可共享的特点。
同为信息组织工具,本体和叙词表有着密切的联系,也存在显著的不同,主要体现在以下几个方面[6]:①在逻辑表达形式上,叙词表中的术语均是规范的科学语言,而本体中的概念、术语可以用自然语言和半自然语言来表达。②在术语关系上,叙词表中只包含“用、代、属、分、参、族”这样的简单的语义关系;本体中还可以包括整体一部分、相交等众多关系,术语之间的关系被描述得更为广泛、深入、细致和全面。③叙词表相对稳定,结构保守而单一,不可能经常修订;本体是一个开放集成的体系,可以随时进行修正和更新,并且容易被复用。④叙词表是一个词汇库(语料库)但不是知识库,而本体不仅仅是概念集、语料库,还可以是一个知识库。此外两者的不同还体现在概念体系内容上和形式化程度上,本体通常包含叙词表所缺乏的概念的定义、实例和领域定理,且采用一定的编码语言实现机器理解,这也是叙词表所望尘莫及的。
本体自20世纪90年代初提出以来,在知识工程、数字图书馆等方面获得了广泛的关注,并在许多方面发挥了重要作用。①在知识表达上,本体澄清了领域知识的结构,从而为知识表示打好基础。由于可以重用,可避免重复的领域知识分析。②在通信方面,本体为人与人之间或组织与组织之间的通信提供共同的词汇。③在互操作方面,本体在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成。
3 本体在信息过滤中的应用
本体描述了领域知识,可为信息系统提供语义基础,在数字图书馆的文献标引、信息检索、知识发现乃至信息过滤中都有广泛的应用前景。目前基于本体的信息过滤研究大量涌现,成为信息过滤领域值得关注的研究课题。本体在信息过滤中的应用主要包括4个方面。
3.1 语义的扩展与排歧
许多信息过滤系统建立在对孤立的词语过滤的基础上,而缺乏对词语之间的语义联系的考虑。这必然带来两个问题:一方面由于缺少对词语的同义词、近义词和相关词等的语义扩展,很可能导致密切相关信息的遗漏;另一方面由于词语的多义性,无法进行语义排歧,势必影响对无关信息的排除。由于提供了计算机能够理解的语义,本体用于信息过滤可以有效解决语义扩展和语义排歧问题,将信息过滤从传统的基于关键词层面提高到基于知识(或概念)层面,有效改善信息过滤的效率。
语义扩展是在本体基础上形成围绕一个主题的一系列相关词,这里称为词汇链。词汇链包括同义词、近义词、上位词、下位词以及本体中对概念的注释和示例中的词等。通过对文本的分析,可以把文本和用户模板表示成词汇链的形式,在此基础上进行匹配和过滤。文献[7,8] 对在语义扩展基础上的信息过滤模型进行了研究,通过实验证明了语义扩展有助于改善信息过滤效率。在语义扩展中同义词、近义词、上位词、下位词等不同语义的扩展对于过滤效率的影响各不相同[8]。
同一词语在不同领域的含义通常差别很大,而在同一领域中的含义往往有一定联系。因此在使用涉及多个领域的通用本体进行语义排歧时,非常重要的是先要进行领域排歧。文献[9~11] 提出了进行领域排歧和语义排歧的方法。
3.2 用户模板建立
不少信息过滤系统采用二进制的用户模板,然而二进制用户模板往往不便于实现模板之间的共享,也不方便与现有领域知识相结合。建立在本体基础上的用户模板则可以解决这一问题。由于本体方便共享,且提供了领域知识,甚至知识库,基于本体的用户模板不仅可方便地进行系统之间的共享,还可以进行一定程度上的推理。
文献[12] 论述了为计算机科学实验室的研究人员建立的过滤系统Quickstep。Quickstep使用本体来描述用户模板。该模板不仅能描述出用户当前的兴趣, 还可以推测没有明显表达的用户兴趣。例如用户模板中某个概念兴趣值是N, 可以推测用户对于它的上位概念也有一定的兴趣,可为上位概念的兴趣值加0.5N。Quickstep系统还进行了用户模板和外部本体相结合的尝试。 所采用的外部本体是用户科研成果的本体,其中包含用户的基本信息和既往的科研成果。在系统运行初期,本体将所有注册用户以往的科研成果都提供给Quickstep,Quickstep对用户科研成果进行分析,推测用户兴趣,较好地解决了新系统的冷启动问题。当新用户加入系统时,通过对新用户的以往科研成果的分析,以及相似用户的分析,来进行信息推荐,从而解决了缺乏行为记录的新用户的冷启动问题。试验证明,基于这两种本体的用户模板与非结构化的用户模板相比,都能够更好地描述用户的信息需求,提高用户对过滤结果的满意度。
文献[13]论述的电影推荐系统WebBot,也是采用基于本体的用户模板。WebBot从用户经常访问的网页中提取特征词,在本体基础上采取用相互关联的词语组的形式建立用户模板,用户的相关反馈也记录在用户模板中。对模板中频率高的词语组赋予高的权重。通过Nave Bayesian分类器确定用户兴趣。经过试验证明这种推荐方法效果较好。
3.3 用户交互
信息过滤系统的运行离不开与用户的交互,及时而有效的交互有助于增强系统与用户之间的相互了解,提高服务的针对性。与用户交互时,本体可为用户提供相关概念体系结构,具体来说可应用在以下几个方面:
1)用户主动填写表达信息需求的关键词时, 为用户提供关键词的近义词和上位词、下位词等语义提示。通过语义提示,帮助用户明确其信息需求,甚至激发潜在信息需求,从而选定最能表达信息需求的关键词和词汇链,提高过滤的准确性。
2)将用户模板通过可视化的方式展示给用户。在可视化界面上, 直观地展示用户感兴趣的各个概念,各个概念相互的关系和用户的权值,以及感兴趣的概念及其权值随时间而变化的曲线图。同时提供用户在图上修改自己的模板的功能。 文献[12]中的过滤系统Foxtrot就提供了用户直接查看和修改可视化模板的功能, 收到了很好的效果。
3)按照概念体系以用户便于使用的方式提供推荐文本。 在推荐文本中可以提供概念体系的链接,让用户可以随时通过查看实例以及概念描述等了解感兴趣的概念,而用户对于相关概念的点击也可以记录入用户模板,作为下一次推荐的依据。
3.4 异构系统互操作
网络信息过滤系统常常面临着复杂的环境,很可能面对多个数据库各异、操作系统各异、元数据结构各异的信息系统。异构系统的互操作成为不可避免的问题。本体提供了不同元数据之间的相互映射机制,可使各类元数据方案连成立体的知识网络,使资源按照不同的元数据属性,呈现出规范有序的知识地图,还可以建立元数据之间的相互映射,从而实现异构系统之间的互操作[14]。另外,使用多语种的本体,如Wordnet,还有助于解决跨语种信息过滤问题。
由于本体通常是面向任务建立的,不同任务下建立的本体,即使隶属于同一领域通常也互不相同。因此在复杂的异构系统中也存在本体异构的问题。解决这一问题,需要将多个本体相互整合。本体整合的方式通常有3种:
1)合并法(Merging Approach)。即将原有的本体合并建立一个新的本体,新本体中包含原有的多个本体的类目定义。这种方法的优势在于新本体包含了进行过滤所需要的所有信息,过滤的过程将是直接的。其缺点在于建立一个能够完全替代原有本体的新本体所耗费的成本太大。整合的本体越多,成本越大,而且建立的新本体将非常巨大且难以维护和管理。
2)映射法(Mapping Approach)。这种方法可避免建立巨大的本体,它通过映射规则等建立在不同本体之间相同概念的联系。其优势在于在整合系统中加入新的本体时并不影响原有本体及其相互映射关系,问题在于加入的新本体需要与其他所有本体分别建立映射关系,从而使这种相互映射关系变得非常复杂。
3)翻译法(Translation Approach)。这种方法不需要事先进行本体整合,而只在需要的时候进行本体的翻译。通过建立共享本体,描述两个本体的概念及定义和属性,在需要时进行概念比较和翻译,重新改写提问式实现跨本体的相互沟通。文献[15] 论述了采用翻译法进行基于多个本体的信息过滤。文中提出翻译法可以采用共享词表、支持基本术语推理(Basic Terminological Reasoning)的本体编码标准语言(如DAML+OIL),以及相似性推理(Approximate Reasoning)的技术实现。
4 结束语
本体为信息的组织和描述提供了更加完备的语义,建立人机之间对信息的共同理解,实现领域知识的共享和重用。在本体基础上的信息过滤较好地解决了词语语义扩展和语义排歧的问题,提高了信息过滤系统的语义处理能力。本体应用在用户模板建立、用户交互、异构系统互操作等方面,能够有效提高信息过滤的准确性。本体与信息过滤技术的结合,将信息过滤从传统的基于关键词层面提高到基于知识(或概念)层面,代表了信息过滤的发展方向。如何构建完善的本体,更好地建立本体与信息过滤系统的无缝结合,实现更加智能的信息过滤将是今后需要努力的方向。