网上信息资源智能导航系统的实现技术与原型设计_搜索引擎论文

网上信息资源智能导航系统的实现技术与原型设计,本文主要内容关键词为:原型论文,信息资源论文,导航系统论文,智能论文,网上论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G202 [文献标识码]A [文章编号]1003-2797(2003)04-0045-03

为了适应网上信息检索的要求,让用户方便、准确、快捷地找到所需资源,需要一种全新的检索机制——智能导航技术。

1 实现智能导航系统功能的关键技术

虽然网上搜索引擎种类繁多,功能各异,但大都具有相同的体系结构,即由索引数据库、信息收集软件、查询接口三部分组成,因此,实现搜索引擎的智能导航功能主要有以下关键技术。

1.1 指引库的建立

所谓指引库是指这样的一个数据库,从物理上讲并不存储各种实际的信息资源,但对其访问却可以检索到有关数据库的实际内容,即指引用户到特定的地址获取所需信息。指引库中的信息资源可以采用主题树方式进行组织。指引库犹如一棵信息树,其根部是主页,一级分支可包括文献形式、文献类别、文献主题、文献提供者等等。每个一级分支又可分为若干二级分支,二级分支下又可细分,如此逐级分支下去直至不能分支为止。最后并列的部分按照字母顺序排列,并在各部分后面注明提供该部分文献的网站地址,这样就形成信息树的叶子节点,即用户的检索目标。建立指引库后,用户即可采用树浏览方式逐级浏览,找到所需的信息线索,从而减少了“迷路”问题的发生。

1.2 网上信息自动跟踪技术

因特网上的各种信息资源相当一部分是处在动态变化的状态中,这种变化若不能及时反映到指引库中,用户就常常可能碰到“死链”、“空链”等不正常现象,大大影响了检索效果,所以,及时更新指引库是一项重要的工作。同时,由于指引库包含的内容丰富、数量庞大,更新指引库也是一项繁重的工作,靠人工完成几乎是不可能的。因此,网上信息的自动跟踪技术也是实现智能导航的一项关键技术。

自动跟踪解决了网上资源的变动跟踪问题,用于及时更新的信息指引库,增加新出现的节点地址,删去已经从网上消失了的节点地址,修改发生改变的节点地址。自动跟踪技术可以从两个角度来考虑:一是参照搜索引擎中的网络机器人更新指引库,即利用网络机器人(软件)定期对网上某类信息资源进行搜寻,对搜寻到的结果进行分析,对指引库进行相应的修改,并将网络的变化及时反映到指引库中;二是利用搜索引擎的检索结果,了解网上资源的变动情况,更新指引库。前一方案采用了比较先进的网络机器人技术,可以大大缩短指引库的更新周期,但是对软件的要求较高,需要解决很多技术上的问题,例如搜寻到的节点如何进行分类,如何确定相关度,这些单靠计算机是不可能完成的,所以实现起来较为困难。目前,大多数专家倾向于采取第二种方案。这种方案的实现原理是模拟搜索引擎的客户程序,编写包含检索词和检索选项的跟踪程序,向搜索引擎提出查询请求,并对查询结果进行分析,即将查询结果与指引库进行对比,找出地址发生变动的节点并对指引库进行修改。自动跟踪功能的实现包含以下三个过程:

(1)跟踪程序的执行阶段。用户在用户代理程序中输入跟踪程序的路径,用户代理将跟踪程序(HTML文件)翻译后,显示给用户跟踪界面。用户在跟踪界面中选择跟踪主题和想要选用的搜索引擎,用户代理将用户的选择提交给相应的搜索引擎,并将搜索引擎的检索结果存入服务器。

(2)搜索引擎的检索过程,在用户提交给搜索引擎的选择中包含了默认的检索词和各种检索选项,虽然目前网上有各种各样的搜索引擎,但是它们检索的基本原理都大同小异。可利用一个被称为ROBOT的网络自动跟踪索引程序,穿行于网络信息空间,访问网络中公共区域的各个站点,记录其网址,标引其内容,并组织建立索引文档,形成供检索的数据库。根据用户的检索选项,代替用户在数据库中寻找与提问匹配的纪录,并返回结果。在这里,搜索引擎的返回结果由用户代理负责存盘。

(3)分析程序的执行过程。首先用户代理从检索结果中抽出有用信息,即Urls、Title、类别和相关度,由于不同的搜索引擎具有不同的特点,因此抽取的内容也不同。然后将抽出的地址进行筛选,去掉相关度小、类别不符的地址(可利用检索结果本身提供的信息),将剩下的地址与指引库中的内容进行对比分析,找出新增的或者地址发生变化的节点,并根据分析结果更新指引库。

1.3 用户行为的提取和用户模型的建立

为了对用户提供个性化的导航服务,必须了解用户的个人行为习惯,进而建立用户模型和用户特征数据库。智能导航系统的用户模型主要包括用户定制和系统自动提取两部分,对用户行为的提取一般分为3个层次。层次1:根据网络访问者的要求确定内容。通常是访问者通过问卷主动地选择他们想看的信息。层次2:根据访问者隐含的要求确定内容。站点根据较一般的问题,猜测确定访问者的兴趣和需求。层次3:根据访问者的行为确定内容。站点建立个人数据库,库中记录访问者的访问路径和执行的操作。

1.4 用户个性化导航信息查询

在建立用户特征数据库的基础上,不同的用户由于其知识背景、兴趣爱好、检索目的等方面的不同,往往需要不同的导航建议。因此,智能导航系统应根据不同的用户给出最恰当的导航建议。目前,经常提供的导航建议包括:根据用户输入的关键字,从资源数据库中检索出匹配程度最高的URL,作为导航建议提供给用户。其中可以结合数据库的用户模型,对用户最近关心的内容进行加权处理,使提供的导航建议能更好地满足用户的需要。根据用户选择浏览的URL,进一步找出与其内容近似的其他URL,提供给用户,供用户找到相关内容。当服务器数据库的现有资源不能满足用户查询需要的时候,可以链接到其他搜索引擎进行查询,提高用户的查全率。④为适应用户个性化需求,可在界面风格、字体、检索结果排列格式等方面让用户进行自由的定制。

1.5 信息资源的发送

当用户订阅的网络信息资源发生更新时,智能导航系统要负责及时地将更新后的资源发送给用户。目前,有两种信息发送方式:一种是目前很多网上订阅所采用的利用电子邮件、手机等工具通知用户有新的信息来到,用户可以到相应的网站浏览。另一种是比较先进的"push"方式,利用一个push服务器和客户端软件,用户在初次使用时定制好所需信息,站点的Push服务器收集更新了的信息,并将更新后的信息发送给客户端,用户则可在客户端利用相应软件获得最新的信息。这种方式利用Push技术和离线浏览技术,避免了用户繁琐的查找和等待,而且一次从网上发送过来的信息可以提供给多个用户,有效地降低了重复信息在网上的发送,同时可控制无用信息的流入,提高了信息检索效率。

2 网上信息资源智能导航系统原型设计

2.1 智能导航系统原型的体系结构

根据智能导航系统的特点及实现的关键技术,笔者设计了一个具有个性化智能导航功能的系统原型。该系统具有以下功能:①搜集因特网上的信息资源。②对所搜集的信息资源进行分析,提取出有用的信息供检索使用。③系统保留每个用户的个人信息,允许用户对自己所需要的信息进行定制。④在用户使用系统的同时,系统对用户的行为进行记录,并逐步形成每个用户的用户模型。⑤在用户检索和浏览信息时,根据所搜集的信息资源和用户模型,对用户提出导航建议。⑥根据用户的定制信息,定期检查信息的更新情况,并及时将信息的更新情况或更新后的信息传递给该智能导航系统用户。该原型的体系结构如下图所示(见下页)。

网上个性化智能导航系统原型示意图

2.2 智能导航系统的组成要素

(1)搜索引擎。搜索引擎是导航系统的重要组成部分,导航系统为用户提供的导航信息和建议,都必须以搜索引擎所发现的网络信息资源为基础。在该系统中,搜索引擎可以在服务器上独立运行,其他模块要访问搜索结果,必须通过数据库。因此搜索引擎可以独立于其他部分来启动、运行和停止。搜索引擎负责因特网上信息资源的搜索,它完成对信息资源的链接、传输和分析,并将分析结果写入数据库,供其他模块使用。搜索引擎对信息资源的分析包括提取标题、关键字、内容等,并能够根据其中的超链接继续处理所链接的其他信息资源。

(2)数据库。数据库是该系统的核心部件,各个模块可以通过数据库互相传递信息。数据库中存储的数据包括:已搜索的网络信息资源的索引信息、各个用户的用户管理信息、个人定制信息和浏览习惯等个人化数据、网络信息资源的更新和修改情况等等。其中搜索的网络信息资源的索引信息占大部分,各个模块通过读写数据库完成相应的功能。对数据库的维护管理是一项关键的任务,要利用前面介绍的指引库的建立技术、自动跟踪技术等等。

(3)客户定制器和定制服务器。客户定制模块功能为接收用户主动定制的信息,将定制信息加入用户数据库中,并能提供用户修改其定制信息的功能。客户定制器是在客户端运行的,用户第一次使用该系统时,可以按个人需要生成定制消息,并将接收到的信息传送给定制服务器,以后每次登录都可以修改定制。定制信息主要包括关键词和URL地址两种形式。定制服务器由独立运行在服务器上的软件来担任,用于接收客户定制器传送的信息,并与用户数据库相联,将用户的定制内容存储在数据库中,根据相应的信息对数据库进行查询或修改操作。

(4)浏览器助手和个性化服务器。这两个模块完成用户个人信息的提取和智能导航。浏览器助手随HTML页面下载到客户机上执行,用户每次使用浏览器助手,都将用户的动作记录下来,并传递给服务器上的个人化服务程序。浏览器助手是该系统与用户的界面,它主要提供给客户4种查询和导航功能:①用户输入想要浏览的页面地址后,会自动弹出1个浏览器窗口,显示该地址对应站点的内容,同时将这个地址作为用户个人信息储存。②关键词检索,既可以在数据库中查找,也可以在其他搜索引擎中查找,并将检索到的URL地址返回给用户。③分类检索功能,主要由系统管理员向客户提供类别选择,使得用户可以按照类别层次进行查询检索,并将检索到的URL地址返回给用户。④利用功能①中用户给出的页面地址以及功能②、③中查到的页面地址,可以查找与其内容近似的页面地址。

(5)资源发送器和接收器。这部分负责给用户发送定制的信息资源的最新内容。资源发送模块根据数据库中信息变化的情况,向定制信息的用户发送更新的信息资源。如果信息发送方式采取的是"push"方式,则资源接受模块要由用户下载到客户端,并在客户端运行。第一次运行时由用户进行配置,以后可以更改这些配置。

总之,通过对上述这个个性化智能导航系统原型的研究可以看出,充分运用现有的先进技术,建立一个具有个性化导航功能的搜索引擎是有一定的可行性的。笔者相信,对这一课题的研究将会给网上信息服务带来新的亮点。

标签:;  ;  ;  ;  ;  ;  

网上信息资源智能导航系统的实现技术与原型设计_搜索引擎论文
下载Doc文档

猜你喜欢