基于Ontology的个性化信息服务系统框架,本文主要内容关键词为:信息服务论文,框架论文,系统论文,Ontology论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
个性化信息服务是当前图书情报工作和信息检索服务领域的研究热点之一,其研究和应用受到了业界的广泛关注。个性化信息服务体现了对用户的人性化、知识化关怀,强调信息服务的针对性、连续性和专业性,也是打造21世纪知识服务和知识创新体系的重要组成部分。个性化信息服务工作的开展离不开有效的技术手段支持,如何直接面向终端用户和信息消费者研究和开发高效的智能化、个性化信息检索和服务系统便是其中的重要任务之一。近年来关于Ontology和语义Web的研究和应用,为本课题的研究提供了重要的启示和支持。 本文通过总结和评析国内外相关研究进展,提出了基于Ontology的个性化信息服务系统框架,对其主要处理流程和若干关键问题进行了探讨和分析。
2 个性化信息服务系统研究概述
2.1 个性化信息服务的模式
个性化服务即是针对不同的用户或顾客提供不同的服务形式和内容[1]。所谓“个性化”,主要具备两层含义:一是针对性,重视服务的对象个体;二是特色服务,即“人无我有”。从信息检索服务系统的研究和应用来看,个性化服务模式包括下述的3种。
(1)个性化定制服务模式
这是依据用户的主动需求以定制的方式来予以满足。按照定制的形式和要求,又可划分为个性化界面定制和个性化内容主题定制。
个性化界面定制是指对用户访问、浏览界面的颜色、字体、栏目设置、栏目位置等方面进行的定制服务,其主要方法是通过开发各种界面模版提供给用户进行选择。个性化内容主题定制则是根据用户对信息内容主题的明确要求,通过相关内容的收集和整合,以电子邮件或频道推送的方式及时或定期提供给需要的用户。
(2)特色增值服务模式
特色增值服务是由信息服务商或专业数据库建设者根据自身信息资源库的特点以及用户的需要,而开发的一些附属于其信息产品的特色功能,即除了检索、下载等基本功能外,还以个人用户为中心,提供信息通告(如定题通告、目次通告、引文通告以及数据库更新通告等)、个人存储(包括检索结果存储、检索策略存储和常用出版物存储)等服务[2]。
(3)个性化推荐服务模式
个性化推荐服务就是指信息检索或网站系统根据发现的用户喜好,以推荐的方式动态地为用户提供观看的内容或浏览建议,简单地说,就是为用户提供一对一的服务和指导,它是个性化服务的高级阶段。
个性化推荐系统具有主动学习能力,通过概括和分析用户的行为,自动地实现某种程度的个性化反馈[3]。其最直接的实现方式就是当用户上网浏览、检索访问时,由系统自动地向用户推荐相关的内容或用户可能感兴趣的页面,主动为用户导航。这种推荐或导航一般应在服务器端实现,理论上也可在代理端和客户浏览器端实现。
2.2 面向个性化推荐服务的关键技术和研究进展
个性化推荐技术是推荐系统中的核心和关键技术,很大程度上决定了系统性能的优劣。文献[4]给出了区别推荐技术的2维属性:自动化程度,用户得到推荐是否需要显示的输入信息;持久性程度,推荐机制是基于用户当前的单个会话还是基于用户的多个会话。也有学者认为,除了上述两个特征外,个性化程度是评价推荐技术的重要指标,它反映了推荐结果符合用户兴趣偏好的程度。
目前主要的推荐技术有:
(1)手工决策技术
手工决策技术是系统管理员根据用户统计数、静态个性文件或会话历史,手工制定若干规则,系统根据这些规则为特定的用户提供特定的内容及信息结构。
这方面的系统如BroadVision,ILOG等[5],它们允许系统管理员根据用户的静态特征和动态属性来制定服务规则。基于规则的系统优点是简单、直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。
(2)基于内容的推荐技术
它是信息过滤技术的延续和发展,项目或信息对象通过相关特征属性来进行定义,系统基于用户评价对象的特征来学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐。
国外相关的研究有Personal WebWatcher、Syskill & Webert、Letizia、CiteSeer、SIFTER和Web Personalizer等[6],利用资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。
(3)协同过滤推荐
协同过滤推荐是目前研究较多的个性化推荐技术,它基于邻居用户的资料得到目标用户的推荐,推荐的个性化程度高。协同过滤的优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象,如音乐、电影等。
协同过滤推荐主要分为两类:一是基于用户或邻居的协同过滤,用相似统计的方法得到具有相似兴趣爱好的邻居用户,根据对象访问的频繁程度进行推荐反馈;二是基于模型的协同过滤,先用历史数据得到一个模型,再用此模型进行预测。基于模型的推荐广泛使用的技术包括神经网络等学习技术、潜在语义索引和贝叶斯网络,通过训练样本得到的模型来指导推荐反馈。
相关研究如WebWatcher、Let's Browse、GroupLens、Like-Minds和SiteSeer等[7,8],它们利用用户之间的相似性来过滤信息。协同过滤系统的优点是能为用户发现新的感兴趣的信息,缺点是存在稀疏性和可扩展性问题。
(4)其他推荐技术
此外,还有其他一些推荐技术:如基于用户统计信息的推荐,该推荐方法基于用户个人属性对用户进行分类,在分类的基础上进行用户推荐;基于效用的推荐,它根据用户对使用项目的效用评价进行计算,并考虑非产品属性,如信息内容的出处、作者的学识、被引用参考的情况等;基于关联规则的推荐,即以关联规则为基础,以用户已经下载或正面评价过的文档访问数据为来源,发现用户提问和文档获取之间的多种关联规则,通过频繁项集的发现和关联规则来指导推荐反馈。
由于各种推荐方法都有优缺点,所以实际研究中常采用组合推荐策略。如WebSIFT,FAB,Anatagonomy和Dynamic Profiler等[6],同时采用了基于内容过滤和协作过滤这两种技术,克服各自的一些缺点,提高了过滤的性能,但计算量偏大。
2.3 对研究进展的总结与评析
(1)从研究涉及的领域来看,国内外关于推荐系统的研究和应用大多集中于电子商务中的用户购物推荐以及基于网站浏览行为的网页推荐,而面向搜索引擎以及专业信息检索的个性化推荐系统研究较少,其主要原因就在于非结构化文档处理的难度较大。对于科学研究和知识学习来说,专业信息检索系统由于信息内容正规、权威可信因而价值更高,因此研究开发面向专业信息检索服务的智能推荐系统是很有必要的。
(2)从数据处理的角度来看,个性化推荐服务系统研究中存在的诸如稀疏性、计算量大以及冷开始(即协同过滤初始时缺乏充足数据的支持)、奇异性或新颖性发现(即推荐的东西应是用户不知道的或不熟悉的)等问题的解决还需要进一步的完善。
(3)从推荐反馈的能力来看,目前个性化推荐系统的研究绝大多数仍是基于传统的关键词机械匹配的方式来进行用户访问数据的分析和挖掘,存在着“一词多义”、“一义多词”等问题,使得基于关键词的特征向量表示的语义化程度不强。因此,对文档信息资源进行语义化表达、确保用户兴趣描述与文档特征表达的语义一致性,便成为个性化信息服务系统必须寻求的突破口。鉴于Ontology(本体、知识本体或本体论)和语义Web的相关研究成果,本文提出了基于Ontology的个性化信息服务系统的设想。
3 基于Ontology的个性化信息服务系统
3.1 系统框架
在个性化信息服务系统中,关键是要解决知识建模、用户建模和推荐反馈,亦即服务建模这三个问题。如图1所示,结合数据挖掘技术,本文给出了基于Ontology的个性化信息服务系统框架。该框架从总体上分为用户、功能、处理和资源等4个层次。
附图
图1 基于Ontology与数据挖掘的个性化信息服务系统框架
作为一个整体框架,本系统的用户包括普通的信息访问用户、系统管理员以及领域专家或知识工作者三个角色。系统管理员除了一般的运行平台维护、帐户管理的任务外,还利用基于数据挖掘的规则引擎定期以后台运行的方式生成面向个性化推荐的相关规则,如用户访问序列、用户聚类、用户偏好以及用户访问关联规则等。这些规则存储于规则数据库或规则文档中,为开展用户推荐提供支持和调用。Ontology在本系统中处于核心地位,其作用主要有3点:首先是基于Ontology的知识建模和文档映射,主要由知识工作者完成,实际上就是文档资源的语义化表达过程; 其次是Ontology作为一个中间逻辑层在用户和文档集之间存在,进行用户提问导航和查询规划;第三是Ontology中的规范化概念和术语被抽取出来构造用户的兴趣偏好向量,弥补了基于关键词向量的用户兴趣描述所存在的语义不一致问题。
3.2 系统的主要处理流程
从用户角色和任务分配的角度来看,基于Ontology的个性化信息服务系统的主要处理流程包括知识建模与文档映射、用户查询与推荐反馈以及规则生成与存储维护等3个方面。
(1)知识建模与文档映射
知识工作者以特定学科领域为背景,进行Ontology的构建、存储和维护以描述领域内通用共享的概念术语及其相互之间的关系,这是个性化信息服务系统的核心和基础工作。国内外相关的研究和探讨已经很多,基本上可以分为自底向上(从底层一次信息资源的采集和整理归纳开始)和自顶向下(借助于领域专家以及现有的领域叙词表、分类体系等)两种策略,具体步骤包括[9]:
①确定本体覆盖的领域和范围;
②考虑使用或扩充现存的本体资源;
③列出相关的重要词语;
④确定类目和类目的层次关系;
⑤确定类的属性;
⑥确定对属性值的描述;
⑦创建实例;
⑧检查一致性等。
当Ontology建模完成后,实际上就是完成了对领域知识的建模工作。接下来就是文档资源和Ontology之间的映射问题,这个工作的实质就是对文档信息资源的语义化表达,亦即对文档资源的语义化标注或Ontology标注。目前国内外对基于关系数据库的结构化信息资源的语义化表达大多借助于Ontology实现异构字段的语义一致性,例如TAMBIS[10]、IT-TALKS[11] 等。而对非结构化的文本文档或网页信息内容的语义化处理则可通过Ontology概念抽取生成语义特征向量的方式进行。
(2)基于Ontology的用户查询动态导航
需要指出的是,由于用户信息获取目的的多样性、隐含性和复杂性,我们认为个性化推荐机制并不是对当前主流信息检索系统和检索方式的推翻和取代,而是对现有信息检索和服务系统的完善和提高。用户可根据其具体的信息需求来选择合适自己的检索反馈方式。
附图
图2 基于Ontology的动态查询导航
在本文提出的基于Ontology的推荐系统框架中,Ontology作为一个中间逻辑层在用户和文档集之间存在,进行用户提问导航和查询规划,如图2所示。假设某用户要通过“数字图书馆知识本体”查询相关信息资源,则其查询首先是提交给Ontology,当然用词应当是Ontology内所包含的,比如“元数据”,以保证用户提问的规范。然后,系统借助有关推理机智进行邻近搜寻,与提问概念相关的近邻区域(数字图书馆、元数据、MARC、DC)将展示在用户面前。用户可根据概念区域继续修正自己的提问,直到发出查询执行命令,此时用户的规范提问将被记录下来,同时查询引擎将命令提交给文档数据库,并以某种推荐技术进行查询反馈,从而完成一次用户查询会话处理。
这种处理方式的优点就在于克服了传统检索方式中用户提问的随意性,通过基于Ontology的动态区域概念视图导航使用户的提问用语规范化、语义化。而文档资源也是以某种机制映射到Ontology的,这样便可为用户兴趣描述和文档特征之间的语义一致性提供良好的保证。
(3)规则生成与推荐反馈
在系统的早期使用中,可以根据文档的效用评估进行信息资源的反馈,以克服大部分推荐技术所具备的“冷开始”问题。随着系统的使用利用户访问数据的积累,则可引入不同的推荐模式如知识热点、文档资源排行、用户访问关联、用户群体协同过滤等进行用户信息查询的推荐式相关反馈,从而大大丰富用户查询选择和人机交互的途径。
对用户的推荐反馈必须依赖于推荐模型和相关的推荐规则。为提高效率,这些规则还须借助于数据分析或数据挖掘技术来发现和生成,包括分类规则、聚类规则、关联规则以及向量特征规则等。规则按周期生成后将存储于规则库中,供信息查询和推荐反馈时的调用。用户访问规则理论上可以由手工方式生成,也可以借助于有关数据分析工具生成,还可以利用数据挖掘技术自动生成[12]。从处理的效率来看,由系统管理员定期以后台控制的方式进行规则生成是一个比较好的策略,并且可以通过编制规则生成计划来指导系统自动进行规则发现和生成。规则生成后,可存储于XML文档或关系数据库中。一般来说结构化较强、规模较大的规则如关联规则、向量规则可存储于关系数据库,而其他类型的规则比较适合于用XML文档来保存。
4 结语
本文对信息资源检索和服务系统的个性化问题展开了研究和探讨。介绍分析了个性化信息服务系统的服务模式、关键技术,总结评述了国内外典型研究项目和实验系统,在此基础上提出了基于Ontology的个性化信息服务系统的框架和处理思路,进一步探讨了系统中涉及的几个关键问题。
Ontology和语义Web的研究进展为信息资源的语义化处理提供了良好的借鉴和支持,利用Ontology和数据挖掘、信息过滤等技术为用户访问查询提供个性化推荐反馈机制,改进和丰富现有的信息检索系统功能和检索方式,具有较好的研究和应用前景。本文对Ontology在个性化信息服务系统中的应用提出了一个总体的设想,还需要借助于原型系统和实验分析来进一步研究和探讨。