信息过滤问题的研究,本文主要内容关键词为:信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G354.2
随着WWW的迅猛发展和广泛使用,“信息过载”的问题日趋严重。 用户在享受它方便和快捷的同时,也为其所包含的庞大芜杂的信息所淹没,人们要在浩瀚的信息资源中找出自己需要的内容,无异于大海捞针。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息已成为基于Internet网络信息查询的当务之急,采用信息过滤(Information filtering )的方法有选择性地传播和利用信息变得越来越重要,人们普遍认为信息过滤正日益成为解决信息超载问题的必要手段。
1 信息过滤的意义
1.1 改善Internet信息查询技术的需要
随着用户对信息利用效率要求的提高,以搜索引擎为主的现有网络查询技术受到了挑战,网络用户的信息需求与现有的信息查询技术之间的矛盾日益尖锐,其不足主要有如下几方面:
(1)在使用搜索引擎时,只要使用的关键词相同, 所得到的结果就相同,它并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万良莠不齐,使得用户在寻找自己喜欢的信息时有如大海捞针;
(2)网络信息是动态变化的,用户时常关心这种变化。 而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化的信息,这花费了用户大量的时间。
因此,在现有情况下,传统的信息查询技术已经难以满足用户的信息需求, 对信息过滤技术的研究日益受到重视, 把信息过滤技术用于Internet信息查询已成为非常重要的研究方向。
1.2 个性化服务的基础
个性化的实质是针对性,即对不同的用户采取不同的服务策略,提供不同的服务内容。个性化服务将使用户以最少的代价获得最好的服务。在信息服务领域,就是实现“信息找人,按需要服务”的目标。既然是“信息找人”,那什么信息找什么人就是关键。每个用户都有自己特定的、长期起作用的信息需求。用这些信息需求组成过滤条件,对资源流进行过滤,就可以把资源流中符合需求的内容提取出来进行服务。这种做法就叫做“信息过滤”,信息过滤是个性化主动服务的基础。
1.3 维护我国信息安全的迫切需要
网络为信息的传递带来了极大的方便,也为机密信息的流出和对我国政治、经济、文化等有害信息的流入带来了便利。发达国家通过网络进行政治渗透和价值观、生活方式的推销,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息。我国80%的网民在35岁以下;80%的网民具有大专以上文化学历,而这两个80%正是我们国家建设发展的主力军。所以,中国的信息安全问题已迫在眉睫,必须引起我们高度警惕和重视,而信息过滤是行之有效的防范手段。目前主要通过过滤软件及分级制度对来往信息尤其是越境数据流进行过滤,将不宜出口的保密或宝贵信息资源留在国内,将不符合国情或有害信息挡在网络之外,其中用的较多的为Internet接收控制软件和因特网内容选择平台PICS(Platform for the Internet Content Selection)。
1.4 信息中介(信息服务供应商)开展网络增值服务的手段
信息中介行业的发展要经过建立最初的客户资料库、建立标准丰富档案内容和利用客户档案获取价值三个阶段。其中第一阶段和第三阶段的主要服务重点都涉及到信息过滤服务。过滤服务过滤掉客户不想要的推销信息,信息中介将建立一个过滤器以检查流入的带有商业性的电子邮件,然后自动剔除与客户的需要和偏好不相符的不受欢迎的信息。客户可提前指定他们想经过过滤服务得到的信息或经过过滤服务排除出去的任何种类的经销商或产品。对于不受欢迎的垃圾信息,信息中介将会在客户得到之前把他们过滤掉。
在网络环境下,尽量减少无效数据的传输对于节省网络资源、提高网络传输效率具有十分重要的意义。通过信息过滤,可减少不必要的信息传输,节省费用,提高经济效益。
2 信息过滤的理论背景
信息过滤,也就是所谓的信息的选择性传播。与信息检索不同,信息过滤关注用户的长线需求(指在一段时间内,比较固定的信息需求),是为非结构化及半结构化的数据设计的,主要用来处理文本信息。其目标是帮助用户处理大量的信息,对动态的信息流进行筛选,着重于排除用户不希望得到的信息,基于用户概型(profile )从输入的信息流中滤掉数据。在信息过滤中,用户的需求表示成概型,一个概型是一个数据结构,通常包括一组主题,用以描述用户感兴趣的主题。根据概型对进入系统的文章流进行评价(ranking),用户在浏览结果时,提供相关反馈并及时更新概型。由于反馈的存在,机器学习的方法在信息过滤中已得到广泛的重视,其中主要的方法有:Bayes学习方法、 神经网络方法、决策树、KNN、SVM等。
信息过滤和信息检索如同同一硬币的正反面。大部分信息过滤的的早期研究基于这样的一种设想:有效的信息检索技术同样也是有效的信息过滤技术。许多过滤方法建立在过去成功的检索方法基础之上的,如标引、匹配等。1996年Callan等对这一观点提出了挑战,其思想为:为了设计和评价有效的信息过滤和信息检索系统,需要不同的技术和评价方法。尤其是与信息检索相比,信息过滤需要经过相关反馈学习的更复杂的技术,因此凭借用户提供的最少量的信息来预知用户需求是很重要的。一个需要进行长期和痛苦培训的信息过滤系统,即使具有过滤性能,也认为是无效的;只有过滤性能良好,同时只需要进行简短培训的过滤系统才是有效的。
3 信息过滤系统的研究
一个有效的信息过滤系统可提供精确的信息,以最小的代价满足用户的兴趣,并适应用户兴趣的变化。其功能就是根据概型中的兴趣值,为每一个文献确定一个相关值,然后将文献介绍给用户。这涉及到分组、排序,甚至对某些文献进行基于相关值的删节,通常利用信息过滤系统提供来自动态信息源的“个性化”信息。信息过滤系统一经创建,就可以通过各种各样的方式使用,例如,一个信息过滤系统可配合搜索引擎支持网页定制服务(如Yahoo's www.my.yahoo.com站点),它也可能成为更常规的定题信息服务SDI的一部分(如Uncover Reveal's uncweb.carl.org站点), 或者它能支持一个单一的个性化站点(包含很多资料)的使用(例如出版商代理站点www.ics.uci.edu/~pazzani/Agents.html)。信息过滤服务的普及和扩展证明其有助于减少手工操作,而这是跟上信息更新步伐所必需的。
3.1 信息过滤系统的研究回顾
信息过滤系统吸引了研究者和开发者的关注。最早的Web过滤系统之一的SIFT,允许利用用户确定的关键词构建概型。然后这些概型与USENET新闻文章内容进行匹配,以确定适用于个体用户的相关文献。SIFT允许进行基于向量空间相似度量及更直接的布尔对照的匹配。向量空间对照体系还利用相关反馈来重新调节概型中的关键词权值以改善效率。1992年Foltz and Dumais比较了两种概型获得方法。第一种方法要求用户直接为自己的用户概型提供关键词;第二种方法利用相关反馈的变量形式直接从相关性排序的文献中抽取关键词。这一研究比较了不同概型描述的有效性。为了使概型与文献匹配,研究人员应用了直接向量空间对照及一种基于潜在语义标引尺度(Latent Semantic Indexing dimensions)的简化集。实验数据显示利用相关反馈方法产生的概型与潜在语义标引匹配相结合,可产生最佳的过滤效果。1997年Pazzani and Billsus描述了一个名为Syskill and Webert的系统,该系统能够基于从用户中收集的肯定和否定反馈推荐新的Web站点。 该系统与众不同的地方在于它把相关文献的确定看作一个分类问题,即将文献分为两类:热(相关)及冷(不相关)。Pazzani and Billsus 同样论证了直接将用户提供的关键词与基于用户的反馈不断修改的概型相结合的概型获得方法。
信息过滤研究的一个显著趋势是增加信息过滤系统的自动化,以便自动地修改概型和自动地进行相关的过滤操作。通常研究人员利用“代理agents ”(即智能软件成分)来实现信息过滤系统的自主操作。 将Agent技术用于WWW信息过滤中,既克服无智能过滤的弊病,又克服人工智能局限于较旧的应用领域等缺点,开拓Agent在WWW这个最大的信息资源的发掘作用。
1994年,美国麻省理工学院的Maes和她的研究小组开发了一类代理,该代理能够精确的观察电子邮件系统用户的行为并学会将各种各样的行为与信息(或消息)内容联系起来。Maes(1995)声明代理之间可以互相学习,并能够在某些任务中利用遗传算法不断改进,以逐渐改善其适切性。同样也是美国麻省理工学院研制的系统Amalthaea(Moukas,1997)支持利用两种代理进行过滤:信息过滤IF和信息发现ID。在Amalthaea 中,其核心部分包括用来表达具体内容范围的加权关键词向量。信息发现代理通过自动搜寻搜索引擎来查找(定位)文献,信息过滤代理仅仅允许那些被认为相关的文献通过。利用控制代理生态系统的遗传算法来产生并逐步形成信息过滤代理及信息发现代理。通过每个使用周期的相关反馈,遗传算法调节生态系统中代理的数量和类型。实验数据显示在Amalthaea中随着代理适切性的快速增长,可以快速地对用户的兴趣进行学习。同时还证实:当兴趣改变或转移时,Amalthaea同样也能重新学习用户的兴趣。1992年Jennings & Higuchi研制了Browse系统,该代理创建一个基于神经网络的用户模型,采用了非线性的方法表达用户模型。与利用线性方法相比,该系统可对个性化的信息需求进行彻底及复杂的描述,其缺点是需要基于肯定或否定相关反馈的培训以达到适宜的性能。1997年Payne 等在他们的基于代理的过滤系统中采用了一种不同的方法。他们创建了两种代理:一种运用了名为CN2 的规则归纳算法(rule induction algorithm),另一种采用了名为IBPL的K最邻近算法(K-nearest neighbor algorithm),已被用于两个领域:邮件消息及新闻组新闻。在电子邮件系统中,代理需要提供基于内容的能满足需求的目录列表;而在新闻系统中,代理要负责删节用户不感兴趣的文章。在电子邮件应用程序中,采用CN2可获得65%的平均精确性, 这高于采用IBPL所得的57%的平均精确性。
3.2 信息过滤系统的分类
(1)根据操作的主动性分为主动或被动过滤系统
主动过滤系统为其用户选择真正相关的信息。被动过滤系统从输入的信息流中选择相关信息。
(2)根据操作的位置可分为代理服务器过滤或客户端过滤
过滤系统可能处在信息提供者和用户“之间”的专门的中间服务器上,即代理服务器过滤,代理服务器如同一个大型的网络缓存器,外来的信息要经过它才能进入本地或局域网,而内部信息也要经过它的代理才能传递出去,因而可以设置相应的限制,对一些网址或信息进行控制;过滤系统也可处在客户端,称过客户端过滤,用户根据需要设置一定的条件,把不希望获得的信息拒之门外。
(3)根据过滤方法分为认知过滤、社会学过滤及经济学过滤
①认知过滤(cognitive filtering)在认知过滤中,用户概型及过滤技术是基于信息内容的。用户概型由对用户感兴趣主题的描述所组成,过滤过程侧重于查明数据项内容相关的程度,用户对系统数据项的相关性排序的反馈被用于更新用户概型。许多商业过滤系统采用认知过滤,因为相对来说,这种方法较容易实施,并产生合理的过滤结果。
②社会学过滤(sociological filtering )也即合作过滤(collaborative filtering)。社会学过滤被定义为通过选择基于个人组织、团体地位及关系的信息进行过滤,绝大多数社会学过滤系统将这一定义解释为将过滤基于“相似”用户的合作过程。在社会学过滤系统的用户建模中,社会学参数如用户教育程度、职业、知识、经验、信息偏好及习惯等对于过滤任务是致关重要的。例如,一个研究者和程序员可能具有同样的兴趣主题——面向对象的编程,但由于他们所受教育及职业等的差别,程序员可能对有关软件的新版本、技术通讯等的数据项感兴趣,而研究者可能对研究论文、教科书、会议报告等感兴趣。为了妥善处理这些差异,用户概型除了包括兴趣主题外,还包括社会学参数。此外,那些共享社会学参数的用户应对信息需求具有共同的偏好和习惯。这也可以通过用户stereotypes的形成而获得。换句话说, 可从用户所属的stereotypes中推断用户的默认信息(即关于用户信息需求的偏好和习惯),而用户可根据他们的社会学参数分到相应的stereotypes中。
③经济学过滤(Economic filtering)依赖于成本和用户获益的计算,依赖于价格机制。在以上三种过滤方法中,认知过滤和社会学过滤是两个主要的方法,这两种方法在用于构建用户概型(userprofiles)的方法及用于计算数据项的相关性能的技术上存在着差别。认知过滤和社会学过滤可以结合起来使用,有两种结合方式:连续使用方式和并行使用方式。
连续使用方式:其中一个过滤方法为主要方法或更重要的方法。因此,数据项首先经过该方法过滤,只有在其结果排序(resulting rank)超过某一相关阈值时,才应用第二种过滤方法,进行第二次相关排序。因此,数据项的最终相关性排序是两次排序的加权平均值,其中主要方法的加权值更大;如果该主要方法的相关排序低于某一阈值时,其排序结果就是数据项的最终排序。连续使用方法比较适用于这样一种情形:其中一种方法(认知或社会学过滤)更重要或有效,同时另一种过滤方法对其进行细微的调整,以明确数据项的总的相关度。
并行使用方法:即两种过滤方法都采用,并提供数据项的相关排序,其中总的排序是这两种方法排序的平均值。并行使用方法适用于这样一种情形:两种过滤方法比较起来都不是更重要的或更有效的方法。这样,就存在4种过滤策略:仅仅使用认知过滤、仅仅使用社会学过滤、并行使用方法(均等使用认知过滤和社会学过滤)、连续使用方法。其中,在“连续使用方法”的过滤策略中,一个过滤方法为主要方法,包括认知过滤为主社会学过滤为辅、社会学过滤为主认知过滤为辅两种,主要方法和辅助方法的加权不同,为60%:40%和70%:30%。
研究证明,认知过滤和社会学过滤的结合使用,要优于任何一种方法的单独使用,为进行快速有效的过滤提供了强有力的工具。不同过滤方法的结合使用比单纯应用一个过滤方法来说可以产生更好的过滤结果。
3.3 信息过滤系统的构成
一个信息过滤系统必须包括以下基本构成:一个信息分析器,一个用户概型,一个过滤过程和一个学习过程。图1是一个信息过滤系统基本模型的图表描述。信息分析器部分a从信息提供者获得信息,并对该信息进行过滤,只将相关信息传递给用户。对信息进行分析并用适当的格式描述,然后作为输入信息传递给过滤处理部分b。用户概型部分c负责从用户收集有关信息需求的显性和隐性信息,负责构建一个用户概型并作为过滤处理部分c的输入信息。过滤处理部分b利用描述信息与用户概型匹配,并决定将要传递给用户的相关信息项。作为回应,用户评价剩余信息的相关性。该评价又被传递到学习过程部分d,该过程据此更新用户概型。由于建模的困难性及用户信息需求的改变,用户概型并不太精确,所以每一个过滤必须包括一个学习过程。
信息过滤系统在系统已知的用户概型的基础上消除不相关的信息,由于从现有过滤系统所获取信息的平均相关度大约在50%左右,因此用户对其缺乏信任,担心会漏失重要信息,所以用户仍然克制使用现有的过滤系统。过滤系统不可靠的主要原因在于用户建模的精确性问题。许多研究讨论了在用户概型中应保留什么样的信息、如何收集信息及如何表示和更新信息。
3.4 用户概型的构成
用户概型的主要部分是stereotypes。一个stereotype 是对一个给定类别的用户的形式化的描述,它代表了用户的特征,常用于表征一类通常情况下发生的相关信息、知识、目的和特性,而且与具有这些特性的一些用户有关。一个用户对应一些当前活动的stereotypes, 这些活动的stereotypes表现了用户的当前特性。当一个stereotype根据用户的反馈能够表征用户的特性时,它被触发成当前用户的活动stereotype;当一个stereotype根据用户的反馈不再能够用来表征用户的特性时,它被关闭,不再是当前用户的活动stereotype。激活和关闭都存在一个阈值。stereotypes被广泛地用于用户建模的研究中。
(1)用户建模所用的两个主要Stereotypes方法
①补充工具方法(the Complementary Tool method )即在构建用户概型中,当缺少一些有关具体用户的信息时,Stereotype可作为一个有用的补充工具。例如Grundy系统、GUMS系统,两者都采用了专家系统的方法。
②完整模型方法(The Complete Model method )即仅仅以用户所属的一个或多个Stereotype所包含的信息为基础,Stereotype被用于构建一个完整的用户概型,例如UM-tool、KNOME系统。
(2)stereotype规则 一般利用一些规则来描述概型中的stereotype,这些规则可用以确定用户利用信息的习惯方式。我们可以通过参考被过滤的数据库中的参数来确定这些规则,以明确stereotype接受或拒绝什么样的信息。Stereotype的规则与以下参数有关联:
①信息的用途:例如一条会议通知,征文通知、招聘消息等
②信息的长度(字符):以避免数据项超过或少于某一长度
③信息的类型:如数字的难易程度。如果属于科学领域,就有可能检索数据项中公式的号码及其复杂性,以此确定该数据是否适于特殊的stereotype。
④信息的来源:例如,来源机构、来源会议、图书出版商等。
⑤来源的重要性:在每一个领域,可根据该领域已知的排序方式,对来源信息按重要性排序,如期刊、出版商、会议、机构的等级等。
3.5 用户信息需求的获取方式
(1)显式知识获取:通过提问来获取知识。 许多系统采用提问来获取对用户的描述,在得到这些信息后就可以分类用户于当前的某一个类,并且激活适当的Stereotype。这种方法有一些缺陷:首先它只能利用有限的提问来确定用户的偏好,要求用户主动填写,所以系统不能主动跟踪用户的兴趣变化,故其概型没有随时间动态更新;其次,由于语言表达的问题和分类的模糊性与多样性,一般Internet用户在如何生成合适的关键词、如何选择相关的类别上还有一定的困难,往往不能将信息需求表达清楚,用户的信息表达影响了信息查准率。
(2)隐式知识获取:也即用户兴趣的学习, 可根据用户对浏览信息的选择,采取某种学习方法来逐步明确用户兴趣的一个过程。实质上它是一个机器学习的过程。对于用户的信息需求,我们可以通过反映用户信息需求的各种痕迹和线索来获得:①跟踪用户的热链、经常访问的站点或浏览历史,分析记录用户的行为和选择倾向,隐性地获取对用户的描述,以此确定用户的兴趣和偏好,获取用户信息需求,自动产生个性知识库,由个性知识库的规则指导过滤。但由于用户的兴趣是时常变化的,用户的行为信息所反映的用户的信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难;②相关反馈,即用户对以前过滤结果及所访问的网页的反馈,用户有3种相关度可供选择(不相关, 有一些相关和非常相关),所获取的知识可以被用来更新用户模型。
显式知识获取和隐式知识获取这两种方法可以结合起来使用。通过对新用户的提问来获取用户的初步信息,并将其分类到某一个用户Stereptype;在用户交互过程中动态获取的规则不断地被用于修改其用户模型,使每个用户概型既要反映到用户感兴趣的主题,又要通过不断地对用户兴趣的学习,了解用户的兴趣变动,不断的更新用户概型。
4 目前信息过滤存在的主要问题
4.1 信息自由问题
公民的信息自由是指公民在获取信息时有充分的自由选择的余地,有对信息获知的权利,以及在传播信息上的自由等,即公民对信息的获取权、知情权与传播权。由于信息过滤涉及到公民的信息自由问题,一些国家反对使用过滤软件,认为这样做限制了信息的自由利用。
4.2 对信息类型的限制
目前,信息过滤主要用来处理文本信息,难于处理图片、动画、视频文件,而一些色情资料却总是以上述形式出现的。