数字信息服务的个性化发展:从适应到适应_机器学习论文

数字化信息服务的个性化发展:从可适应到自适应,本文主要内容关键词为:信息服务论文,自适应论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字化网络化环境改变了传统信息服务的形式与理念,使得数字化信息服务成为现代信息服务的热点问题。同时,由于网络资源指数增长,出现了“信息过载”和“资源迷向”等问题。于是,用户期待更多的智能化服务,智能服务高的依据关键因素是个性化,即个性化数字信息服务。而制定个性化服务的技术方法很多,也有许多学者进行了研究,其中机器学习技术是较完善的、能满足用户需要且能实现自适应要求的有效途径。

1 个性化数字信息服务的产生背景及特点

个性化数字信息服务,主要限定于网络环境。随着网络技术的发展,信息克服了时空的障碍,通过集成各种资源向远程用户提供信息服务,实现了“瞬时满足”。同时随着信息技术水平的不断提高,改变了工业社会的大规模生产和销售模式。不仅使得生产成本得以降低,而且生产个性化产品和服务成本也相应降低,这使得个性化数字信息服务成为可能。

当前的网络环境已要求信息服务针对用户的信息使用行为、兴趣、爱好、习惯需求等特点,为用户搜索、组织、选择、推荐、提供个性化定制信息服务的内容、系统和功能,以满足用户解决现实问题的信息需求。

个性化数字信息服务就是通过网络技术,利用个体的特征信息为个体和过滤信息对象或产品,呈现出个性化检索、个性化定制、个性化推荐和过程化定向等特点[1]。

较传统数字信息服务,个性化数字信息服务主要功能:(1)用户的知识结构、行为习惯、信息需求等创设适应个人心理和行为的信息活动环境,充分激励用户的信息需求,支持用户的习惯行为方式,促进用户有效检索和获取信息;(2)跟踪用户在网络空间的活动,了解用户的兴趣和需求,主动搜索任何可能引起用户兴趣的信息,形成针对个人课题特殊需求和特殊应用要求的虚拟信息集合体,从而在充分挖掘和广泛利用信息资源的同时,保障用户信息检索利用的针对性和有效性;(3)探查用户在个性化服务过程中的知识需求、行为习惯和决策形式,针对用户的个性行为动态组织信息检索和利用机器的指导,提高用户信息检索与利用的效率;(4)协助用户建立个人信息系统,提供个人信息系统与其他相关资料的有机连接,提高用户信息利用的整体能力和效力。

2 个性化数字信息服务的基本模式比较分析

个性化数字信息服务有两种基本模式:一是用户可以根据自主的兴趣、爱好和需求定制自主需要的资源和服务;二是信息提供者根据用户的需要和特点建立个性化的用户模型,对提交给用户的信息进行个性化检索和过滤,或者根据用户的动态需求进行主动推荐。这实际上代表了个性化信息服务的两个类型:前者是用户需求驱动的,可对特定的信息资源由用户进行个性化定制的个性化服务系统[2],对用户而言,是一种可适应的个性化信息服务,因而是一种被动的个性化服务;后者是系统驱动的,通过系统自动跟踪监控用户行为,采取某种机器学习方法来逐步明确用户的兴趣,挖掘用户兴趣所在,从而动态跟踪、分析、预测用户的个性化需求和潜在需求,建立起个性化的用户模型,提供个性化信息服务,对用户而言,是一种自适应的个性化信息服务,因而是一种主动地个性化信息服务。

在可适应的个性化数字信息中,每个用户模型基本是由用户提供。一般情况下,每个用户建构自己的用户模型系统,以静态形式利用这些信息,主要问题有:(1)个性化概念不一定被所有用户理解,因而用户文档的建立可能不一定代表用户理解,因而用户文档的建立可能不一定代表用户的个性化需求;(2)用户不一定清楚自己的兴趣和需求所在,并适时更新自己的信息;(3)即使用户清楚其感兴趣的内容,网络信息指数级的增长也会使用户准确确定和表达自己的兴趣和需求变得不现实。

自适应个性化数字信息服务能够自动地创建一个未经用户直接干预的用户模式。这是因为用户模式自动建立的关键阶段是模式发现,与用户应该指其偏好的可适应方法相比,该服务能自动识别出用户一系列的偏好和兴趣。可见,个性化信息服务从可适应模式向自适应模式发展已成为必然。

3 自适应的个性化数字信息服务模式结构

用户模型自动建立的关键阶段是模式发现。模式的发现来自用户和系统之间的互动,使用者可以发现一系列偏好与兴趣。机器学习技术非常适合这一过程,因为他们是为了捕捉模式和描述从结构化的输入数据中了解到什么。本文提出采用机器学习来自动获得用户模型,该技术在检测用户与系统之间相互作用的输入数据。图1介绍了自适应个性化数字信息服务体系结构[3]。

3.1 数字信息的基本元素

如图1所示,数字信息通常由三个部分组成:(1)信息;(2)结构,描述数字信息的语法;(3)特性,指数字信息可利用的信息安全问题,版权问题等。

3.2 自适应数字信息个性化服务

自适应数字信息个性化服务依据个性化要素划分为三种基本个性化服务:内容个性化、界面个性化和检索过滤个性化,这些服务大多会自动产生。

图1 自适应个性化数字信息服务体系结构

3.2.1 自适应内容个性化

内容的自适应个性化的目的是开发能够根据用户的喜好自动构建的个人数字信息服务系统。这一过程与自适应信息过滤密切相关。在信息过滤中整合用户信息到个人数字信息服务系统。自动建设和完善个人数字信息服务系统的主要途径有:(1)将数字信息下载定制为自己的资源,分类保存在特定的文件夹中:(2)用户对所获取的资料根据自己的需求进行加工,组织与整理,以便直接利用,如进行加工,组织与整理以便直接利用,如进行节选、归并、删除、下划线、评议和写读书笔记等主动性学习活动。

3.2.2 自适应界面个性化

个性化服务系统有一套个性化导航机制,这一机制与其他个性化网页界面基本相同。典型的服务通过按用户意愿选择页面颜色、版面设计、文件夹、文本颜色和字号、链接颜色等。另外它还应该提供人们工作和生活中必须的各种信息服务的定制。典型的实例是第一个个性化的商业网站My Yahoo!,用户可从一整套模块中进行选择,如天气预报、交通信息、新闻报道等。个性化界面在电子商务、电子银行中应用也非常广泛。

3.2.3 自适应检索和过滤个性化

检索和过滤是旨在为用户提供相关信息的类似过程。其中检索是利用检索机制,试图发现相关信息的一个主动过程。个性化的检索环境不仅仅是按用户的习惯来定制检索工具,更主要的是为用户提供优越的检索帮助。如何提取用户需求,用最合适的主题词来构筑准确的查询检索策略,是信息检索成功与否的关键所在。

信息过滤是根据用户的信息需求对动态信息流进行过滤,把满足用户需求的信息传送给用户,消除不相关的信息,从而为用户提供准确的信息服务的被动过程(对用户而言)。信息过滤通常分为三步:(1)发取用户兴趣与要求;(2)识别合适的信息源;(3)在适当的时候以友好的方式把结果递交给用户。用户文档是信息过滤的基础,不管用户信息文档怎样更新,系统总能根据这些文档执行过滤,用户信息文档中的关键词、短语及相关信息是用来获取用户兴趣和要求的途径。

3.3 自适应用户信息的采集

用户信息采集是实现自适应个性化信息服务的前提和基础,因为它是用户个性分析和用户模型构建的数据来源,这一过程也是实现个性化信息服务的目标所在,因为开展个性化信息服务最终要将相关信息主动提供给具有相应兴趣的用户。在数字信息个性化环境中,采集的信息类型主要以用户必要的个人信息,即从事的专业、研究兴趣、研究方向以及用户在数字信息的阅读记录和检索记录中的关键词为主。 此外,还可以采集用户的IP地址、访问的时间频率、访问的时间段、进行电子讨论的话题等相关信息[4]。用户信息采集过程有选择地收集上述信息并将采集到的信息进行用户个性分析,以便建立用户模型。

获取用户需求信息有两种方式[5]:(1)显式获取。通过人机交互,由用户直接提供其个人情况、研究领域、兴趣偏好等信息。目前发展比较成熟的个性化定制服务形式有MyLibrary、MyGateway、信息推送服务、Alerting System服务等,主要就是采用这种方法获取用户信息。如美国最早研究网络个性化服务平台的康奈尔大学图书馆,使用MyLibrary@cornell系统,根据用户的身份提供大量的缺省文件和信息,供用户根据自己的兴趣范围进行选择。显式获取用户需求及偏好的方法,技术要求不是很高,容易施行,获取的信息也具针对性和准确性。但这种方式须得到用户的配合,且不能全面、及时地反映用户的动态需求。在传统的数字图书馆个性化服务系统中通常采用这种方式采集用户信息。(2)隐式获取。用户信息的隐式获取包括三种方式:①通过浏览器上的Bookmark了解其需求。用户通常会将自己感兴趣的页面存入Bookmark中,多级管理的树形Bookmark的每一个目录反映了用户的不同兴趣。通过监控用户的Bookmark及书签目录,隐含地获知用户对网页的喜爱程度和兴趣偏好。②跟踪和收集用户访问行为。如对用户访问时问、次数、访问页面、逗留时间等进行统计分析和学习。通过对Web日志进行简单的分析,主动采集用户信息,动态跟踪用户兴趣的变化。③对Web日志进行深层次挖掘。Web日志文件中包含IP、时间戳、返回码、传送的字节数、URL、引用页URL等信息,利用人工智能和不断取得突破的各种数据挖掘技术,可以获得更多有价值的用户信息。如采用k-近邻(k-NN)方法或者聚类方法等,分析用户获取信息行为的相似性,将具有相似浏览模式的用户群体进行分组。隐性获取用户需求的方法,更能及时、主动地获取用户的需求与偏好,它与机器学习技术结合,是一种自动构建用户模型的主要方法。

3.4 自适应用户模型构建

用户模型也就是用户描述文件(user profile),用户模型的自动构建是个性化服务的关键步骤。机器学习是一种理想的用户模型构建方法。机器学习包括一系列技术和方法,是目前极为活跃的研究领域。机器学习可分为有指导的机器学习和五指导的机器学习,有指导的机器学习需要有预分类的训练数据,五指导的机器学习不需要对训练样本进行预分类,事先没有形成类目,而是靠学习器自行构建。

用于模拟用户特性的有指导机器学习技术主要是k-近邻(K-NN)、决策树/分类规则、神经网络、支持向量机(SVM)。用于模拟用户特性的无指导机器学习技术主要是聚类[包括k均值聚类、自组织图(SOM)、层次聚类和模糊聚类等][3]。

根据现有的研究结果,不同个性化服务系统的用户描述文件从内容上可分为基于兴趣的和基于行为的两种类型。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等,Personal WebWatcher、Letizia系统是基于加权关键词矢量的模型,ifWEB系统是基于加权语义网的模型。基于行为的用户描述文件可以表示为用户浏览模式或访问模式,WebPersonalizer、WebSite系统等基于用户访问日志或访问行为的模型。曾春等对目前存在的主要个性化服务系统的用户描述文件的信息来源和表达进行了归纳[6]。

用户描述文件的描述内容还没有统一的标准。目前描述比较全面的是由E.Frias-Martinez提出的用户模型,主要包括感兴趣的研究领域、关键词、用户目的、个人数据、用户兴趣八个方面。

可适应的个性化数字信息服务是使用户引导的方法构建超媒体系统,这种基于用户被动式的引导直接导致用户期望与数字图书馆个性化之间的差距。因此,数字与信息个性化服务发展下一定就是通过自动方式创建用户模型,可采用机器学习机制自动构建自动用户模型,实现系统驱动的、主动的、自适应的、个性化数字信息服务。

收稿日期:2009-12-10

标签:;  ;  ;  ;  ;  

数字信息服务的个性化发展:从适应到适应_机器学习论文
下载Doc文档

猜你喜欢