网络信息资源构建与维护方法研究,本文主要内容关键词为:信息资源论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G203[文献标识码]A[文章编号]1003-2797(2003)05-0033-03
1 引言
所谓网络信息组织,是指从浩瀚的网络信息海洋中选择相关的信息资源使其有序化,同时提供用户方便获取信息资源的机制和检索接口。信息构建则是一门帮助信息查找者有效解决信息需求尤其是在网络环境下的信息需求的艺术与科学。对特定的信息用户入口而言,有许多信息结构可用来提供有效和快捷的访问信息源。对这样的信息查找空间来说,“信息建筑师”像土木工程建筑师在一个物理空间集中于功能目标设计一个建筑物一样,从事信息结构和信息源的创建、设计、组织、可视化及实现、包装、通信和导航等,设计和实施特定的系统和接口。
基于Web的信息资源组织与构建可分为三级层次,其中:一级用简单格式组织信息。目前,因特网上很多搜索引擎均采用这种格式,它们用分类层次结构组织信息、抽取关键词,建立关键词和分类索引,支持分类检索和主题检索。二级用结构化格式组织信息。Dublin Core元数据就是其中的代表,它用15个基本元素来描述信息对象,根据需要可以用限定DC来增加描述深度。三级用复杂格式描述信息对象,ISO2709和MARC等是其中的代表。Web信息资源数据库就用到了这种格式。这样,三级层次又可演生出多种方法。
2 信息资源构建
信息构建的主要工作是:说明站点的任务和视角,权衡主办者和用户需求;确定站点将包括的内容和功能;根据客户在站点查询信息的方式来定义它的组织、导航、标记和检索系统;随着时间的推移,用图标示站点的变化和发展。信息构建的内容包括:①按照信息的内在联系进行独特组织,做复杂整合。②建立信息结构图,指导人们寻找路径的知识。③根据21世纪出现的专业工作,处理时代需要的有关研究信息。
一个大型、复杂的站点的信息构建可从两个方面着手:一是站点用户最迫切的需求和一个局外人所能想到的功能,二是业内人士充分认识到这种需求,站点主办机构应明确它的任务、目标、内容、客户和内部工作流程。队伍内部的训练基础很重要,信息构建必须联合通晓多门专业知识的人才队伍,组成训练有素的专业组,对信息进行可视化、组织和标记。
信息构建所需的专门人才包括:市场营销经理、信息构建设计师、写作与编辑员、程序工程师及工程管理员。
(1)市场营销经理。市场营销经理的中心工作是为站点的计划目标和客户服务,他们必须懂得怎样引导客户进入站点和客户将得到什么。
(2)信息构建设计师。信息构建师的工作是对信息进行组织、索引、标记和导航系统设计,支持用户对站点的浏览和检索。
(3)图形设计师。图形设计师负责站点的图形设计和页面布局中图形标识定义,他们力求对建立与实现平衡形式及功能方面提出设计见解。
(4)编辑人员。编辑人员关注与站点使用的语言,他们的任务包括校对和编辑拷贝,推敲内容,确保站点的公用信息并建立新拷贝。
(5)技术人员。技术设计员和软件工程师负责网站服务器端的开发与管理、站点工具的集成和应用,他们指导其他组关注相关技术的机遇与限定。
(6)项目管理员。项目管理员控制项目进度和预算,他们负责内部股东或客户与各组之间的沟通。
综上所述,一个成功的站点设计依赖于上述这些专业人员的成功合作。
基于Web的信息资源的组织与构建包括信息资源网站建设、WEB数据库(包括虚拟数据库)建设、数字图书馆建设、商务网站建设和数据仓库建设等。
一个网站的建设,先要设计一个构建方案(如虚拟信息空间设计),然后进行装填。装填工作可用手工进行,也可用程序(网络机器人)自动进行。下面以网页索引为例,来讨论网络信息资源的组织问题。
根据构建方案,装填相关网页可用索引机器人实现。初始阶段,Crawler模块从一个种子URLs集出发,开始对网页进行爬行,从爬行下载的网页中抽取所有链接指向的URLs,并将这些URLs存入到URL全集中(如下图所示)。经过一段时间爬行后,Crawler将要爬行的下一个URL由URLs子集或更新模块决定。Crawler将爬回的网页保存在网页数据集中(如果存在),或者保存在缓存中足够长的时间,以便使索引模块完成索引任务并将索引数据保存在索引数据集中。
面向网页选择和更新的Crawler架构图
网页之间的链接为Crawler的随机爬行提供了基础,Crawler从种子URLs集出发,从爬回的网页中抽取所有链接指向的URLs,并将新的URLs放入URLs列队中。由于很多网页中常常存在几十或上百个链接,经过一段时间爬行,URLs列队中的地址数量必将急剧增多。根据URLs列队,Crawler随机爬行网页,每次自动爬回期望数量的网页后便停止爬行。这样随机爬行构建的搜索引擎在一定程度上满足了用户的需求,但难以满足特定用户对特定主题及在其他方面的个性化需求。另外,在更新方面,Crawler通常采用的是同频率模式,即每隔一段时间,对所有已索引或存储的网页重新进行爬行,以达到对索引数据集和/或网页数据集的更新。
Web巨大的网页数量使每一个搜索引擎都不可能涉及所有的网页,而只能是其中的一部分。这使得Crawler不可能停留在随机爬行基础之上,而应对网页的主题、重要性等因素进行分析。在主题分析上,专业类搜索引擎只对某个专业领域如生物化学主题感兴趣,Crawler应能对等待爬行的网页进行主题分析,并在分析的基础上对只与主题相关的网页进行爬行,而不爬行与主题不相关的网页。这不仅节约了Crawler爬行资源,而且必将提升用户满意度。在重要性分析方面,Crawler应能对等待爬行的网页进行重要性分析,并进行优先级排序,保证Crawler总是最先爬行重要性最大的网页,再爬行重要性次之的网页,依此类推。在期望爬行网页数范围内,Crawler要善于捕捉重要性大的新网页进行索引和/或存储,并去掉重要性较小的旧索引和/或网页。
按照构建方案所组织起来的网络信息资源,可向用户提供多途径、快速的检索机制,方便用户使用。用户要不断地获取全、准、新的信息,就要不断更新信息资源。
3 网络信息资源的维护方法
Crawler是组织与维护网络信息资源的有效模式,是搜索引擎重要的功能模块之一。随着用户对Crawler需求和管理者对Crawler有限资源进行有效配置需求的增加,人们对Crawler的功能提出了更高的要求。
(1)网页选择。网页选择是信息构建与维护的基础,利用Crawler进行网页选择是一种快速可行的方法。Crawler就是一个能自动爬行Web网页以供搜索引擎生成本地索引和/或本地网页数据集的程序。首先,Crawler从一个初始URLs集(称为种子URLs)出发,从中获取一个URL,下载网页,从网页中抽取所有的由链接指向的URLs,并将新的URLs添加到URLs列队中以等待扫描。然后,Crawler从列队中获取另一个URL,重复上述过程直到Crawler停止为止。有的搜索引擎中的Crawler同时将爬行到的网页存储在网页数据集中,旨在永久保存大规模的网页;大部分的搜索引擎没有网页数据集,Crawler将爬行到的网页保存在缓存中足够长的时间,以保证搜索引擎索引模块完成网页所有词条索引的建立。
(2)网页更新。下载完指定数量的网页意味着Crawler只完成了部分任务。网页信息与纸质媒体信息在更新上表现出不同的情形:纸质媒体信息一经印刷,在内容上就无法更改,其更新通常表现为另一个纸质媒体的增加;而分布在处于不同地理位置服务器上的网页在大小和内容上很容易也经常发生变动,且不同网页存在不同的变动频率。传统Crawler通常采用的是同频率模式,即每隔一段时间,对所有已索引或存储的网页重新进行爬行,以达到对索引数据集和/或网页数据集的更新,这种更新不仅耗费Crawler资源,而且影响Crawler效率。Crawler应能对已下载网页的变动更新情况进行跟踪分析,如每个网页的变动频率是多少?每个网页的生命周期有多长?整个Web网页的50%发生变动需要多长时间?并在此基础上决定以什么样的频率重访哪些网页,保证索引数据集能够真实而动态地对站点网页进行索引(如果有网页数据集,则网页数据集中的网页应对应地与站点中的最新网页保持一致)。
(3)并行爬行。巨大的网页数量迫使Crawler必须在尽可能短的时间内爬行更多的网页,这导致对并行爬行的需求,即多个Crawlers在多个服务器上并行运行和下载网页。
(4)爬行动态网页。Crawler通常爬行的都是静态网页,即能简单地通过链接便能访问已存在的网页。Web上除了静态网页以外还存在大量的动态网页,据统计,Web上大约80%的内容是动态生成的,随着网页动态生成技术的不断推出,这个数据还将不断增加。对于某一网页P,如果其部分或全部内容是通过在服务器端执行某个程序而生成的,则称P是动态网页。动态网页的生成依赖于客户端输入机制(通常通过表单输入),其典型代表是浏览器、Web服务器和数据库服务器三级模式。在这种模式下,信息在数据库服务器中进行组织,当用户通过浏览器发出检索请求时,Web服务器将检索请求传递给数据库服务器,并将数据库服务器返回的检索结果转变成Web页面,再传递给浏览器。这种模式下生成的Web页面是在用户的请求下动态生成的,Crawler应能对它们进行爬行。
(5)与Web站点和网络传输的协调。当Crawler从站点下载网页P时,站点必须占用磁盘和CPU资源,以从系统中检索出P。当P从站点通过网络进行传输时,又必然占用网络资源。Crawler应尽量减少对这些资源的影响,否则,网络管理员或某些站点可能会抱怨甚至封锁Crawler的爬行行为。
Crawler在网页爬行中应充分考虑到各方面的功能需求,使有限的Crawler资源在爬行中得到有效配置,最大限度地满足用户需求。
总之,网络信息资源构建的方法很多,利用索引机器人在网上爬行来组织和更新信息只是其中的一种方法。同时,利用虚拟数据库技术,建立数据仓库,进行数据挖掘,也是一种不错的选择。