个性化信息服务的若干技术分析_数据挖掘算法论文

个性化信息服务的若干技术分析_数据挖掘算法论文

个性化信息服务的若干技术分析,本文主要内容关键词为:信息服务论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一提到“个性化信息服务”一词,暂不说其服务内容、服务方式如何,首先会想到个性化信息服务的实现要依托于一定的技术。综合分析一下,个性化信息服务主要涉及到智能代理技术、信息过滤技术、数据挖掘技术和知识发现技术。下面逐个作以分析。

1 智能代理技术分析

1.1 涵义分析

智能代理(Intelligent agent)理论研究是计算机科学和人工智能中发展很快的前沿领域之一,目前,Agent已经成为许多领域中通用的概念。在国内,Agent有很多种译法,如:“主体”、“智能体”、“智能主体”、“智能代理”等等。但大多还是直接以英文原文形式出现。人们常把这种“智能代理”形象的称为“会思维的软件”。智能代理技术实际上是一种软件单元,具有高度的智能性和自主学习性,可以在用户没有明确具体要求的情况下,根据用户需要,代理用户处理各种复杂的工作。如信息查询、筛选及管理等。[1]

1.2 特征分析

智能代理的特点主要有:高度智能性、自主学习性、代理性和协作性。

1.2.1高度智能性

这是智能代理技术的一个最基本的特点,它具有一定的推理能力,能比较准确地揣摩和预测用户的思想意图,并能将复杂的任务进行分析、分解,有针对性地提供信息、解决问题;可以在用户没有给出十分明确的需求时推测出用户的意图、爱好或者兴趣,并按照一定的方式代替用户完成部分任务;同时还能够根据用户的需求和环境的变化,主动向用户报告并将结果反馈给用户。当然,即便是智能代理技术具有高度智能性这一特点,也不是说什么事情都可以由它来独立完成,仍旧需要人工的参与。

1.2.2自主学习性

智能代理技术能够根据周围环境的变化,动态地调整自己去完成各项任务与计划,并主动地把经过过滤、整理后的信息提供给用户利用。学习型的智能代理可以作为一个独立的个体进行自主学习,能与用户并行工作,将用户的兴趣、爱好、习惯等信息直接转化为内部表示,存放在知识面库当中,建立不同的用户模型来指导自己的决策,使之更好地符合用户的个性化需求。

1.2.3代理性

对于代理性的理解主要表现在两个方面:首先它是“代表用户”来工作的;其次在功能上它可以将其他资源封装起来,引导并代替用户对这些资源进行访问,并将结果主动反馈给用户。

1.2.4协作性

协作性是指它能通过各种通信协议和其他多个智能体进行信息交流,并可以通过协作和相互磋商来共同完成复杂的任务。[2]

1.3 应用

智能代理技术最初应用于商业领域,随着通信技术和网络信息技术的迅速发展,其特征和功能也不断的扩展,主要应用在数字图书馆、智能搜索代理、电子商务、远程教育和娱乐的研究及开发领域。

数字图书馆利用智能代理技术可以为用户提供主动的、个性化信息服务。利用智能代理技术,根据用户的爱好、兴趣、工作性质等设计个性化信息服务模块,建立“个人数字信息资源特色库”,设计智能型的用户服务界面(如用户检索界面),做好知识库(包括用户库、个人数字信息资源特色库等)的安全管理,为用户提供优质的个性化信息服务。

智能代理技术在个性化信息服务中的应用主要体现在信息导航功能、智能检索功能、管理信息库功能等。(1)信息导航功能就是告诉用户其所需要的信息资源在哪里,或是根据网上资源回答用户关于特定主题的问题;(2)智能检索功能,先是过滤,即按照用户指定的条件,从流向用户的大量信息中筛选符合条件的信息,并以不同级别(全文、详细摘要、简单摘要、标题)呈现给用户。然后是整理,即为用户把已经下载的资源进行分门别类的组织。最后是发现,即从大量的公共原始数据中筛选和提炼有价值的信息,向有关的用户提供;(3)管理信息库功能,即需要对用户信息库、各类资源库等进行管理。上述这些都是使信息服务走向个性化主动服务不可缺少的功能。

2 信息过滤技术分析

2.1 涵义分析

信息过滤技术是指根据用户兴趣帮助用户过滤掉那些他不感兴趣的信息。它与信息检索有所不同。信息检索是将符合用户需求的信息筛选出来供用户选择利用;而信息过滤是将无用信息、垃圾信息屏蔽掉,而将有用信息充分挖掘、体现出来。二者的共同之处就是提高查全率和查准率。只是采取的方式不同。

2.2 类型分析

信息过滤技术主要包括两种:一种称为基于内容的信息过滤(Content-based Filtering);另一种称为基于合作的信息过滤(Social Filtering,又叫协同过滤或社会过滤)。

2.2.1基于内容过滤的技术

基于内容过滤的技术是通过比较资源与用户描述文件来推荐资源。[3]关键问题是相似度计算,对于矢量空间模型来说,通常采用的方法是余弦度量。如果用户的描述文件没有正确描述用户的兴趣和行为,那么该方法推荐的数据可能和用户真正的兴趣根本不相关。在基于内容的过滤中,通常采用某种方式(如VSM)来表示用户的兴趣模型和信息资源模型。基于内容过滤系统的优点是简单、有效,其缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。

2.2.2基于协作的过滤技术

协作过滤是根据用户的相似性来推荐资源。它与基于内容的过滤技术不同,它比较的是用户描述文件,而不是资源与用户描述文件。基于协作的过滤算法从用户相似度的角度出发,它的基本假设是经常访问相似资源的用户兴趣相似,相似兴趣的用户又会访问相似的资源。因此,通过对相似兴趣用户的判定,来确定某个用户对某一未知资源是否感兴趣。协作过滤的关键在于建立用户的相似度关系。可以采用Pearson Correlation Coefficient (PCC)方法和Vector Similarity (VS),考虑上述方法中矩阵的稀疏性(即用户—资源矩阵是稀疏矩阵)导致潜在相似兴趣用户的难以发现,有人提出了基于用户分类的方法和基于LSI的方法,取得了一定的效果。[4]不过,协作过滤常常和内容过滤方法配合使用。

2.3 应用

目前存在着许多个性化服务系统,都从不同角度提出了各种思路来实现个性化信息服务,其中的信息过滤系统主要可以分为基于内容过滤的系统和基于协作过滤的系统。基于内容过滤的系统如:Personal Web Watcher[5],Syskill & Webert[6],Letizia[7],Cite Seer [8]等。基于协作过滤的系统如:Web Watche[9]等,它们主要是利用用户之间的相似性来过滤信息的。

3 数据挖掘与知识发现技术分析

3.1 涵义分析

关于数据挖掘和知识发现两个名词术语,在工程领域习惯上称作数据挖掘,而在科学研究领域则习惯称作知识发现。二者在某种方面可以互用。为方便起见,下文均采用“数据挖掘”一词。

数据挖掘(Data mining)是数据库研究中一个很有应用价值的课题,它融合了数据库、人工智能、机器学习等多个领域的理论和技术。数据挖掘又可以称作数据库中的知识发现(Knowledge Discover Database简称KDD),是通过分析各种数据源以获取隐性知识及有用信息的过程。数据挖掘比较公认的定义是W.J.Frawley、G.Piatetsky、Shapiro等人提出的:就是从大型数据库的数据中提取人们感兴趣的知识。这些知识或信息可用于知识管理,决策和其他许多领域。

数据挖掘技术可以分为三种类型:全自动、半自动和全交互式。对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作;对于半自动技术,系统或者在后台操作,或者采用全交互式方式;对于全交互式技术,是一种简单的数据挖掘,它由用户设置每次操作的参数,然后等待相应结果。

数据挖掘的关键技术是数据挖掘算法,简单归纳一下其常用的数据挖掘算法有:粗集方法(Rough Set );遗传算法(Genetic Algorithms);神经网络(Neural Networks);聚类法(Clustering),聚类法又包括分层聚类法(Hierarchical),概念聚类法(Conceptual);分类法(Classification),分类法则包括:决策树归纳法(Decision Tree Induction),规则归纳法(Rule Induction),神经网络法(Neural Networks)等。

3.2特征分析

数据挖掘的特点主要有6方面,分别是:(1)数据挖掘要处理大量的数据,待处理的数据规模可能达到GB、TB级,或更大。(2)数据挖掘要把大量的原始数据转换成有价值的知识,可以利用它来描述过去的趋势和未来的趋势。(3)数据挖掘可以作出快速的响应,具有高效的查询效率,为决策提供支持信息。(4)数据挖掘可发现数据中大量规则,并且这些规则是动态的。(5)减轻用户的负担。用户不必形成精确的查询要求,依靠数据挖掘技术可为用户寻找其可能会感兴趣的信息。

3.3 应用

目前数据挖掘和知识发现的应用十分广泛,它可应用于决策支持,也可以应用于数据库管理系统(DBKS)中。数据挖掘可作为决策支持和分析的工具,可以用于构造知识库等等。但是,数据挖掘也将面临巨大的挑战,主要有:超大规模数据集中的数据挖掘;异质数据集的数据挖掘;动态数据和知识的数据挖掘;并行数据挖掘的研究;存储技术的研究等等。

4 小结

为用户提供个性化的信息服务是提高图书馆服务质量和信息资源有效利用的重要手段,我们可以认为这种服务方式将成为数字图书馆提供服务的重要方向。信息技术的发展为图书馆实现个性化信息服务提供了技术保障,本文主要从涵义、特征和应用三个方面对个性化信息服务中涉及到的重要技术进行了分析。

标签:;  ;  ;  ;  ;  

个性化信息服务的若干技术分析_数据挖掘算法论文
下载Doc文档

猜你喜欢