隐蔽网络资源的采集与整合,本文主要内容关键词为:网络资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着网络技术和通信技术的日益发展,人们获取信息的主渠道正在从以纸质文献为主转变成以网络信息资源为主。但是,常规的搜索引擎基本上只搜集了互联网上部分可索引的信息。在Web世界里,存在着许多被隐藏起来的信息源。有关研究表明,互联网上至少有5500亿份文件,而用搜索引擎和网络目录所能搜索到的信息只占互联网的一小部分,由于受技术或资费限制,常规搜索引擎对一些正文页、文件或其它高质量、有权限的信息不做索引,使之成为隐蔽网络。
1 隐蔽网络的概念及特点
1.1 隐蔽网络的概念
隐蔽网络是一个与可见网络相对应的概念,最初由Dr.Jill Ellsworh于1994年提出,意指那些普通搜索引擎难以发现的信息内容。2001年,Christ Sherman、Gary rihce合著《隐蔽网络:揭开搜索引擎看不到的信息源》,其中对隐蔽网络的定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能,或者经审慎考虑后而不作索引的那些文本页、文件或其他通常是高质量、权威的信息。
1.2 隐蔽网络的特点
与可见网络相比,隐蔽网络资源的内容更丰富、专业性更强,因而更具价值。据Bright Planet对隐蔽网页资源的范围、数量及相关性调查结果表明,深层网页资源有以下特点:
(1)信息量大。隐蔽网络的信息量达7500TB,是WWW资源的400-550倍。它拥有近5500亿个文档,而表层网络只有10亿个。2000年隐蔽网页站点已超过20万个,2004年达到30.7万个,其中60个最大的隐蔽网页站点收集的信息约有750GB,超过表层网络范围40倍。
(2)利用率高。隐蔽网页站点的访问率很高,月访问量是表层网络站点的150%,且经常被其它网络资源链接;但是许多典型的深层网页站点不为大众所熟知。
(3)发展迅速。隐蔽网络资源是互联网上新生信息增长最大的一个种类,2000年—2004年间增长了3-7倍。
(4)信息质量高。隐蔽网页站点倾向于向学科范围更狭窄、内容更深入的方向发展。信息内容与每个所需信息、市场及领域具有较高的关联性,且大部分(54%)隐蔽网络资源存放在专题数据库中,经统计分析其高质量内容比表层网络多1000-2000倍。
(5)免费开放。95%的隐蔽网络资源对公众免费开放,即无需支付费用或订购使用。
2 隐蔽网络形成的原因
2.1 技术条件原因
互联网发展初期,网络内容都采用HTML,网页组织结构为树型目录结构,用户可点击各个超级链接访问网页。这使得常规搜索引擎能够派出称为“蜘蛛spiders”,“爬行者crawlers”的自动化软件轻松地进入网站并发现和找到新建网页,实现网上数据的搜集。现在许多大型网站采用了新的技术,网络内容不再是单纯的HTML。而常规搜索引擎对于非HTML文本,如图片、声像资料等的索引能力有限,难以应付如PDF、Postscript、Shockwave、Flash,执行文件(程序)、压缩文件、Office文档(Word、Excel、PorwerPoint)等这些特殊格式的文件,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性质知识。由于覆盖度有限,在一般情况下,搜索引擎存在着不能对某些类型的信息资源进行索引的现象。只有当一个网站注册了某个搜索引擎时,它才能被该搜索引擎搜索,当某个网站含有隐蔽在当地数据库的许多信息时,搜索引擎的搜索功能便受到限制。最大的技术障碍来自于数据库及基于数据库的网站,因为一些文件如数据库文档、非文本信息需要特殊的命令才能实施检索,需要DBMS的一些能力如SQL查询命令等。数据库的内容构成了隐蔽网络的核心部分,人口设置的账号、密码等提问,是一般搜索引擎难以跨越的障碍。一些基于数据库的站点也会使网络蜘蛛在动态网页中受阻。
2.2 非技术原因
(1)严格管理的负面影响。网页是一个复杂信息的滋生地,有时会产生大量的垃圾信息,提供误导的甚至具有欺骗性的信息,大多搜索引擎采取严格的管理措施来处理这些垃圾信息,但有时也会产生负面影响,如剔除了有用的信息,于是这些有用的信息便衍化为隐蔽网络信息。
(2)经济制约。搜索引擎对网络资源进行定位,索引更新维护费用很高。搜索引擎的网页索引率越高,开发和维护的成本就越大。出于商业考虑,索引非HTML文档格式的文件花费过多或跟进实时信息数据库会耗费太多的搜索引擎资源,网络公司不愿意索引这类网络信息,比如许多论文都以PDF格式存储。但在主要的搜索引擎中,只有Google列出目录,其它公司大都没有耗费精力进行搜寻。从运行一个搜索引擎的综合成本考虑,目前只有极少数搜索引擎能够承担维持网页覆盖率所需的财力和物力,因而也就造成了网上隐蔽网络信息的产生。
(3)知识产权的负面影响。许多网站经营商为了保护知识产权,将大部分内容封闭在文档中,仅对注册用户或自己的工作人员开放。即使比较优秀的搜索引擎,如HotBot、Excite等,也都无法使他们的网络蜘蛛完成哪怕是最简单的注册过程,从而也就无法进入网站获得信息。
3 隐蔽网络资源采集
要从大量的网络资源中选出有价值的资源,在较短的期限内达到信息的规模效应,必须重视隐蔽网络资源的采集。隐蔽网络资源的采集应遵循多元化策略,主要可采取以下措施:
3.1 人工采集
由工作人员查阅各种文献、浏览互联网或向有关专业人员请教获得相应的信息源,定期对这些信息源进行跟踪检索获取数据。人工采集效率较低,所收集的信息不全,带有一定的随机性和随意性。常用的信息源有:(1)对公众免费开放的数据库资源,如Pub Med、Gen Bank、DOAJ等。(2)目录指南(directories),目录指南也可以说是一个主题指南,按照主题分类提供大量网站的链接。检索精度高、资源权威、使用方便且大部分可免费获取是其主要特点,用它来查找主题相对宽泛,质量相对较高。目前常用的选择性指南包括Findlaw、InfoMine、The Invisible Web Directory及About.com等。(3)搜索“Invisible Web”的网站,如The Invisible Web Directory、Direct search、Complet Planet(Bright Planet公司经营的网站)、Info Mine、About.com等。(4)专业搜索引擎:Incywincy、Singingfish、Google News、Scims、Science.gov等。(5)利用普通搜索引擎如Google、Yahoo!Search、Yahoo! Directory和Teoma等搜索,检索策略为“主题词或关键词+database”,这样就可以搜索到这些搜索引擎所收录的该主题词或关键词方面的相关数据库链接。
如果用户要查找有关某个主题的信息内容,可以先利用Google或Yahoo!等搜索工具查找关于这个主题的数据库,具体做法就是在搜索栏中输入主题词,主题词后面在输入“database”(数据库)。进行查找时,搜索引擎会把与主题有关的数据库的网址以目录的形式反馈给用户,用户可以根据所提供的数据库网址查找到这些专业数据库的主页,然后再数据库的界面上通过人机交互,在从这些专业数据库中获取深层信息,也就是一般的搜索引擎或网络指南无法直接搜索到的隐蔽网络信息。
3.2 自动化采集
即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数隐蔽网络资源为蜘蛛程序无法访问或索引的数据库,自动化采集隐蔽网络资源需要使用专门的隐蔽网络数据挖掘软件。
一般采用专用商业软件,这类软件可实现对隐蔽网络资源的检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果送回给用户。如Bright Planet开发用于检索隐蔽网络资源的专业软件DQM2(Bright Planet's Deep Query Manager TM),可根据用户的指令对超过70000个隐蔽网络专业数据库同时进行检索,并实时进行跟踪和监测为用户返回最新研究进展提示,也可根据自己的学科特色进行限制检索,检索到的结果可根据用户需要进一步管理制作,后续资料可进行追加,是一个较为理想的隐蔽网络资源采集软件。
只有改进搜索技术,优化现有专业搜索引擎的工作模式和工作机制,注重协作策略的运用,才能使之搜索更多格式的文件。据此,King-Ip Lin等设计了一个多元专业搜索系统,集合互联网上的多个专业搜索引擎,自动查找和标引隐蔽网络资源,当用户检索时,系统通过数据挖掘技术挖掘与检索表达式相关的信息,自动完善用户的查询表达式,为用户选择最佳的目标专业搜索引擎,并检索出普通搜索引擎无法搜索的大量有价值的隐蔽网络资源。这样一个多元专业搜索引擎应包括spider、搜索引擎数据库、搜索引擎选择模块、检索预处理模块以及用户接口等5个部分,其体系结构(见图1)。
图1 多元专业搜索系统的体系结构
其中,spider在互联网上爬行,搜索各专业搜索引擎,并抽取有价值的信息返回给搜索引擎数据库以更新其中的数据。spider在抽取信息时将信息分为三类:①搜索引擎的描述性信息,这些信息主要描述搜索引擎的主要功能,spider主要通过搜索引擎主页上的“description”、“copyright”、“author”以及“back-links”来识别这些信息;②网页关键词,spider主要通过网页上的“page abstract”、“keywords”以及“page title”来获取此类信息;③搜索引擎关键词,spider搜索这些信息能更准确地判断目标搜索引擎的功能。通过上述信息分类,系统能够更准确有效地定位搜索引擎,从而达到准确选择目标搜索引擎,有效提高查准率的目的。
搜索引擎数据库主要用来存储专业搜索引擎的信息,具体包括其URL、域名以及可查找的范围。针对某次查询,通过搜索引擎数据库,系统即可选择最佳的目标搜索引擎,同时还能自动组建最佳的查询表达式。
搜索引擎选择模块是整个系统的核心部分,它接收经检索预处理后的检索表达式,抽取其中关键词与搜索引擎数据库中关于搜索引擎的3类信息相匹配,根据最佳匹配原则选取目标搜索引擎,针对每个目标搜索引擎构造并发送最佳检索表达式。既然在搜索引擎数据库里存储了专业搜索引擎的3类信息,因此,在匹配时可以按照各类信息重要性的不同赋予不同的权重,如搜索引擎的描述信息的权值为0.5,网页关键词的权值为0.3,而搜索引擎关键词为0.2,通过这种方式即可进一步提高匹配的精准度。
检索预处理模块的主要目的是完善用户的检索表达式,为此,检索预处理模块要用用户输入的关键词在普通搜索引擎(Google、Yahoo等)中进行搜索,抓取最符合检索要求的少数检索结果,从中挖掘与检索关键词常一起出现的词语,然后利用episode规则知识发现技术发现其中与关键词相联系的词语或表达,进而完善用户的检索表达式并传递给搜索引擎选择模块。
用户接口则提供给用户方便易用的交互界面,其作用是允许用户输入检索表达式,接收所有检索结果并进行信息后处理,如信息去重、格式转换等,然后将结果返回给用户。
自动化采集的工作效率较高,可以确保查全率。但所收集的资料良莠不齐,质量难以保证,而且所收集的信息量太大,容易使系统难以承载。
3.3 人机结合采集
充分利用网上自动漫游、自动跟踪、自动分类和自动标引技术,采用人机结合的方式,提高资源采集的效率,以适应网络信息变化快、更新迅速的要求。一方面工作人员可以对软件定期收集来的资源进行严格的筛选评价以保证其质量,另一方面可以自定一些较好的网络资源,将其添加到系统中由机器人定期到这些网站中进行搜索。制订一系列专业学科的检索策略,通过软件有针对性地收集网络数据资源,并将收集到的资源用元数据的规范描述与提示后存放到数据库中,以实现主题浏览查询、资源类型浏览查询和关键词查询等多种检索方式。
4 隐蔽网络资源的整合
4.1 资源整合策略
对隐蔽网络资源进行加工整合应遵循以下策略:(1)标准化策略。要求提供规范和深入的知识化描述,能够支持开发集成和个性化定制服务。标准化是实现跨学科信息导航互操作和数据共享的基础,是实现信息导航系统可持续发展的必然要求。(2)开放性策略。要求在信息结构、元数据描述、知识组织体系、用户界面、用户使用后管理等各个层面具有良好的开放性机制,支持个性化定制和开放集成。(3)及时性策略。要求信息的更新和维护必须及时、准确、有效。(4)权威性策略。要求优化选择学科信息导航系统的隐蔽网络资源,以保证导航系统的资源质量。
4.2 信息的标引
对采集的信息做好标引。标引就是将一篇文献的内容变成可检索知识点的过程。计算机利用应用软件,可自动切出主题、作者、作者单位、摘要、关键词、正文等字段,通过一系列有序的工作,将文章中的信息切分为有序的知识点,作为数据库的素材为全文检索提供条件。其次,做好信息的加工。对采集来的数据,根据其特点简单分成不同的类型,编辑后再进行详细处理,把经过标引加工的资料按层次分门别类地组织在一起,生成静态索引页面,为用户按目标浏览和检索方式定位提供所需信息。
4.3 创建异构信息检索整合平台
这是一种基于系统的专业文献第二级整合形态。异构信息整合检索要能够检索和整合不同来源和结构的信息,包括已购数据库和未购但可以在互联网上进入的各类专业数据库的文献资源以及在互联网上检索得到的大量隐形网络信息。它能支持各种格式化文件如MARC、TEXT、XML、HTML、RTF等,能支持结构化、半结构化和非结构化数据的统一处理,能支持多种语言信息的检索,支持各种检索语法、字符集、和开放检索接口的集成等。甚至它还能够达到对多媒体信息的整合检索,不仅能够对图片、视频的描述信息进行检索,而且还能够对图片的内容如:颜色、纹理、整体相似性以及对视频的内容如:关键画面、场景、主题等进行综合性检索。通过检索软件可实现对多种不同结构的数据库同时检索并返回检索结果。这种跨平台或异构平台的开发与应用在国内已有一定的发展,在图书馆数字资源的集成检索系统方面成功案例较多,如CALLS和北京大学图书馆共同开发的统一检索平台,该平台提供了基于异构系统的跨库检索服务,用户可按学科、按数据库名称、按文种同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果,并可进一步得到详细记录和下载全文。
4.4 隐蔽网络资源整合应注意的法律问题
对于网站之间相互设立链接及网页资源的保存问题,我国尚无具体的法律规范。隐蔽链接是否会侵犯版权,在我国也处于理论探讨阶段。尽管95%的隐蔽网络资源属于免费开放资源,本着为导航系统顺利健康发展的宗旨,学科信息导航系统的建设和服务应在法律框架内进行。为此,设置链接前事先征求被链者的意愿。尽管可以依据“默示同意原则”,为避免纠纷,设链者在设置链接前还是事先通知被链接网站为宜。如果后者在合理时间内没有明确表示反对,则视为默认链接。在采用隐蔽链接的情况下,建议在设置链接的文字表述时尽量写明是指向哪个网站的页面,以声明自己并非直接在使用这个网页。
资源采集时注意网页版权声明项,如注有不得转载使用之类说明的网页资源不加以收集。若采用软件自动搜索,则要加有关这方面的滤过系统。
同时,国家应尽快出台相关政策法规,对国家图书馆、公共图书馆及其它相关图书馆在网络信息的复制、编辑、保存和服务权限方面给予立法支持。
收稿日期:2006-08-02
标签:搜索引擎论文; 搜索引擎收录论文; 网站数据库论文; 数据库系统论文; 网站关键词论文; 数据检索论文; 数据库论文;