基于P2P技术的高效检索模型构建研究,本文主要内容关键词为:高效论文,模型论文,技术论文,P2P论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】TP311.5
1 问题的提出
传统的网络检索技术主要是由各种全文本检索技术组成,技术的基本原理是计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的排序文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果[1]。如果该单词在文章中出现的次数越多,它与用户检索提问的相关度就越大。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。
然而,这种检索技术的不足是显而易见的。传统的搜索引擎依赖于服务器,而信息整理的速度远落后于网络信息的膨胀。因此,所检索到的结果就可能使信息缺乏及时性、广泛性,并且缺乏深度检索和自然语言理解等。所以,唯一可利用的选择去解决这些问题就是开发一种新的检索技术可以被自然语言理解,可以提取语义信息等等。从更高层面满足用户的检索需求,“想用户之所想,急用户之所急”,推动信息检索技术向高效与智能方向发展。
2 P2P技术
伴随网络技术的到来,P2P作为网络计算的重要技术之一受到越来越多的关注。它是一种技术,但更多的是一种思想,有着改变整个互联网基础的潜能思想。
2.1 P2P含义
P2P是Peer-to-Peer的缩写,Peer在英语里有“(地位、能力等)同等者”、“同事”和“伙伴”等意义,国内一般将P2P译成“端对端”、“点对点”,或称为对等联网。P2P被定义为通过直接交换共享计算机资源和服务,每一个对等点可以同时充当客户端和服务器两种角色[2]。
长久以来,人们习惯的互联网是以服务器为中心,人们向服务器发送请求,然后浏览服务器回应的信息。而P2P所包含的技术是使联网电脑能够进行数据交换,但数据是存储在每台电脑里,而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送数据。具体地说,P2P直接将人们联系起来,让人们通过互联网直接交互,使得网络上的沟通变得容易、更直接共享和交互,真正地消除中间商;P2P使人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载;P2P改变互联网现在以大网站为中心的状态、重返“非中心化”,并把权力交还给用户。所以,在P2P软件环境中流行着第二代互联网之父Doug.Van Houweling这样一句话:“下一代互联网民们将真正参与到网络中来,每个人都能为网络的资源和功能扩展作出自己的贡献[3]”。
P2P看起来似乎很新,但是正如B2C、B2B是将现实世界中很平常的东西移植到互联网上一样,P2P并不是什么新东西。在现实生活中我们每天都按照P2P模式面对面地或者通过电话交流和沟通。即使从网络看,P2P也不是新概念,P2P是互联网整体架构的基础。互联网最基本的协议TCP/IP并没有客户机和服务器的概念,所有的设备都是通讯的平等的一端。在十年之前,所有的互联网上的系统都同时具有服务器和客户机的功能。当然,后来发展的那些架构在TCP/IP之上的软件的确采用了客户机/服务器的结构:浏览器和Web服务器,邮件客户端和邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以E-mail为例,互联网上并没有一个巨大的、唯一的邮件服务器来处理所有的E-mail,而是对等联网的邮件服务器相互协作把E-mail传送到相应的服务器上去。所以,本质上来看,P2P技术并不是什么新生事物,只是在过去的5年里,互联网上绝大部分的节点不能和其它节点直接地交流,联网的发展从表面上远离了P2P。
P2P给互联网的分布、共享精神带来了无限的遐想,从目前的应用来看,P2P的威力还主要体现在大范围的共享、搜索的优势上,更好的解决网络上四大类型的应用:对等计算、协同工作、搜索引擎、文件交换。
2.2 基于P2P技术的信息检索
(1)基于P2P技术的信息检索优势
正如上文所述,由于目前互联网搜索引擎主要依赖全文检索技术和Web爬虫来搜寻互联网上的内容并将这些信息存储到海量可搜索的数据库中,用户在互联网上检索时,利用搜索引擎公司提供的服务器,在需要搜索信息的时候要向服务器发出指令,由服务器把检索出来的相关目录通过一定的排序法则呈现在用户面前,这就会不可避免的带来一些问题,比如:如果服务器信息更新周期长,将有大量过时的信息产生;如何服务器不加鉴别、只是一味的搜集信息,将带来许多无价值的垃圾信息;受设备条件影响,服务器收集的信息有限等等。如图1显示了传统的检索模式,其特点是一个指定的服务器通常满足多个用户的要求;服务器的价格很昂贵;无法登录服务器则无法提供服务。
图1 传统检索模式
P2P技术的出现,为互联网的信息搜索提供了全新的解决之道。把这一理念应用到搜索引擎技术上来,与目前使用的其它各类搜索引擎相比,其最大优势在于应用先进的对等搜索理念,可不通过给定的中央服务器,也可不受信息文档格式和宿主设备的限制,对互联网络进行全方位的搜索。搜索深度和广度是传统搜索引擎所难以比拟的,其搜索范围可在短时间内以几何级指数迅速增长,理论上最终将包括网络上的所有开放的信息资源,采集到的信息将有更强的实时性和有效性。如图2显示了基于P2P技术的检索模式,其特点是不设置服务器,每一个机器能提问并满足检索要求;比在一个计算机上能利用更多的资源;通过多台计算机能并列执行;廉价的计算机和快速的网络。P2P中,在任何用户节点可获取的信息是索引的,并且只有当用户在线时才保持索引。相应地,索引总是与当前状态同步。P2P是当用户登录进入P2P网络时才开始索引并发送出内容索引的信息[4]。一个P2P网络可以依靠搜索引擎ROBOT来重访链接和更新信息,但决不是完全依赖。这种内容动态索引和轻松搜索内容的能力使得P2P与其它应用,如新闻组允许在社区中信息共享大相径庭。表1所罗列的一些指标充分揭示了传统检索模式与基于P2P技术的检索模式之间的区别。
图2 基于P2P技术的检索模式
表1 传统检索模式与基于P2P技术的检索模式的主要指标比较
主要指标传统检索模式 基于P2P技术的检索模式
服务器
有无
成本 高低
资源 少(20%-30%)
多(所有开放网络资源)
结构 集中式集中式/分布式
数据流动性
差好
(2)基于P2P技术的信息检索应用
目前基于P2P技术的检索实例有很多,诸如采用集中式搜索的Napster、分布式结构化搜索的CAN、Chord、Freenet以及分布式非结构化的Gnutella、FastTrack、Morpheus、KaZaA等。以P2P技术发展的先锋Gnutella进行的搜索为例:一台PC上的Gnutella软件可将用户的搜索请求同时发给网络上另外10台PC,如果搜索请求未得到满足,这10台PC中的每一台都会把该搜索请求转发给另外10台PC,这样,搜索范围将在几秒钟内以几何指级数增长,几分钟内就可搜遍几百万台PC上的信息资源。此外,著名的搜索引擎公司Google也宣称要采用P2P技术来改进其搜索引擎,一家名为Infrasearch的新建公司也因为开发P2P技术的搜索引擎而获得了一笔巨额风险投资。
3 基于P2P技术的高效检索模型构建
3.1 模型理想功能
笔者期望所建立的基于P2P技术的检索模型可以实现检索的智能性和高效性。期望它能囊括所有接入互联网的个人电脑上的信息资源。通过它采集到的信息不再是无用的、过期的内容,取而代之的则是有用的、实时的信息。因为人们普遍的行为是:在自己电脑里只存放那些对自己有用的,当然对别人同样有用,最具有价值的东西。一台PC上的用户的搜索请求通过网络同时发给网络上另外N台PC,如果搜索请求未得到满足,这N台PC中的每一台都会把该搜索请求转发给另外N台PC,这样,搜索范围将在几秒钟内以几何级指数增长,几分钟内就可搜遍几百万台PC上的信息资源。模型具体完成以下两个方面的任务:发出检索请求的本地Peer解析用户检索请求和收到检索请求的Peer按用户的检索要求查询。
3.2 模型设计
为实现笔者期望的这些功能,基于P2P技术的检索模型的设计思路是通过用户提问,发出检索请求的本地Peer接受用户检索要求。它可通过观察用户的检索行为,分析用户检索要求去搜索网络信息资源。同时使用相关度反馈机制跟踪用户实际检索行为,并能合理解释返回的搜索结果。而收到检索请求的Peer除可对自身完成搜索以外,可将搜索信息传递到下一级,优化搜索路由,并将结果返回到发出检索请求的对等点。
模型主要两部分,一部分是在P2P网络中的检索,另一部分是在万维网中的检索。图3展示了基于P2P技术的检索模型的各具体组成部分以及整个检索流程。在P2P网络中各对等点可以随时进出网络,可以与其他对等点彼此定位并与之交互。为了保证P2P网络中的动态性,在网络中应该有一个Peer可以充当若干Peer的搜索中心,它负责收集和反馈某一区域内多个Peer的相关信息,其中保存有该区域内包含的各对Peer信息的地址列表。当一个peer发出的检索请求可以直接到达本区域内的搜索中心上进行查询时,如果可以被满足,则可根据中心对等点上的地址列表与相应的Peer建立连接,否则到另一个区域内的中心去查询。此外,模型为实现检索的个性化服务,引用了两类Agent,即PHA(Peer Host Agent)和SMA(Search Mobile Agent)。PHA存在于每一个Peer,专为用户提供个性化信息服务;SMA由PHA派生出来,一个PHA可以派生出多个SMA,它主要帮助用户在海量的信息环境中进行信息发现,并返回发出查询的Peer。
检索模型的流程描述如下:在P2P网络中,用户发出检索要求,负责接收用户检索请求的本地Peer根据知识库中以往用户查询结果记录准确描述出用户的需求,优化查询条件。由PHA派生出来的SMA将携带优化后的用户查询条件和相关信息,发送给相应的Peer进行搜索。Peer间进行文件传输,以确定所搜索资源的位置。最后若有结果,还是由SMA携带查询结果返回到发出查询的Peer。在万维网中,由Robot负责抓取网络信息资源,用户把检索要求交由Search Sever进行检索,Search Sever和Robot都可以与P2P网络在某种协议下进行兼容,帮助用户更好地完成检索。
图3 检索模型流程图
3.3 模型评价
基于P2P技术的信息检索模型可以使信息用户最大程度的检索到所有网络信息资源,可以使信息用户检索速度大幅度提高,还可以直接从该信息的聚集处找到最新的发展。它可以减轻Server的负担,不至于造成网络的局部堵塞。并且在同一个P2P网络中,每一个Peer都使用相同的协议进行工作,便于协调。模型还以深度检索为目标,检索结果在保证查全率的同时也保证了查准率,并能够根据用户的评价调整自身行为,实现信息过滤,为用户提供高效智能的个性化检索服务。此外,基于P2P技术的检索模型在很大程度上也降低了检索成本,等等。
模型除了具有上述优点之外,其不足也是显而易见的。虽然现代的P2P系统已经摆脱了集中式和洪泛搜索的方式,但是仍然存在扩展性的问题;其次各种P2P系统完成的大部分都是搜索、传输方面的工作,但是相互之间不能协同使用,因为协议不兼容;此外,每一个提供文件共享服务的P2P公司都不得不认真审视P2P网络面临的版权问题,等等。这些不足都是由P2P技术本身特点所导致的,为了解决这些弊端还有待于在今后的研究中不断完善和优化。
4 结束语
利用P2P技术自身的特点,将其理念应用于信息检索无疑推动了信息检索技术的发展,推动信息检索技术向高效、智能方向发展。特别是,随着网络浪潮的到来和宽带网技术的进一步发展和普及,将引起各界人士对于P2P技术的关注。虽然至今P2P技术尚未进入主流检索技术的阵容,基于P2P技术的检索模式还存在着一些问题,有待于优化和完善,但是可以预见,未来的信息检索技术将以P2P技术为核心,并且它将更具有实用价值和研究意义。