基于元搜索引擎的联合网络采集平台的构建_搜索引擎论文

基于元搜索引擎的联合网络采访平台构建,本文主要内容关键词为:采访论文,搜索引擎论文,平台论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着电子商务的发展,出现了大量利用数字技术、网络技术在因特网上进行图书贸易的网上书店。网上书店的兴起改变了传统的图书销售方式,有效地缩短了图书流通发行环节[1]。利用现有的各个网络书店,通过元搜索引擎技术,可以将多个网络书店的搜索引擎整合,形成一个统一的检索平台,方便图书馆工作人员利用网络进行图书的检索和采购,进一步提高网络采访的工作效率。

1 构建联合采访平台的必要性

图书馆主要的图书采购方式有书目预订、现场采购、邮购、招标采购、网络采购、纲目采购等,其中现场采购是最为主要的购书方式。据统计仅2007年,全国各地举办的各种图采会近30场,全年图书现采的订购码洋近10亿元[2]。网络采购与现场采购相比,虽具有检索快捷、使用方便、节约采访经费等明显的优势,网络书店的数量和规模也在逐年提升,却一直无法成为图书馆主要的购书渠道,其中一个重要的原因是由于各个网络书店长期处于各自为政、独立发展的状态。总的来说网络采访的途径可分为三条:一是专业为图书馆服务的网络书店,如北京人天书店有限公司网络书店、北京淘金海岸图书有限公司网络书店、成都市世云书店有限责任公司网络书店等;二是网上零售书店,如当当网上书店、北京图书大厦网上书店、上海图书城网上书店等[3];三是图书出版社的网络书店,如高等教育出版社网络书店、工业出版社网络书店等。可见网络书店的总体信息量大,但网络书店数量过多导致资源分布无法高效集中,任何一个网络书店都有其自身的局限性,图书的重复率也比较高,这都在一定程度上增加了图书检索的难度。建立基于元搜索引擎的联合网络采访平台,能够将多个网络书店的图书资源在逻辑上进行有机整合,在操作界面上形成一个整体。图书馆工作人员一次性输入相关检索信息就会立即得到结果,而且通过对联合采访平台的设置,可以将检索结果按着图书馆工作人员的要求自动组合排列,使相关结果很容易进行比较,既节约了网络采访的时间,又提高了网络采访的效率。

2 使用元搜索引擎构建联合网络采访平台的优势

研制元搜索引擎的出发点是要在一定程度上解决用户所查找信息的Web覆盖率问题。自1995年世界上第一个元搜索引擎Metacrawler诞生以来,短短十几年里,元搜索引擎发展非常迅速,技术也日益完善,国内外可用的元搜索引擎已达近百种[4]。就构建联合网络采访平台来说,虽然各个图书出版或发行单位共同开发一个网络书店,也能够将所有的图书信息有效整合。因为按全国每年出版8万种图书计算,平均每天向网站数据库录入的信息不足300种图书数据,工作量并不大,具有一定的可行性。但由于图书出版或发行单位数量众多,各个单位在数据传递和整理的过程中必然存在着一定延时,使网络采访平台信息发布具有明显滞后性,另外管理和责任的划分也存在一定的困难。基于元搜索引擎的联合网络采访平台的构建,只是将多个图书出版或发行单位的网络书店搜索引擎集成在一起,通过一个统一的检索界面接受并处理图书馆工作人员的查询提问。在进行检索时调用一个或者多个独立搜索引擎的数据库。当检索完成时,返回的检索结果是来自独立搜索引擎的检索结果,或者是来自多个搜索引擎检索结果集合的综合[5]。因此基于元搜索引擎的联合采访平台的构建最大的优势,是在实现联合建站目的的同时,并不对原有的网络书店的内容和经销模式进行改动,充分保证了信息发布的及时准确,更有利于联合网络采访平台的建设和发展。

3 基于元搜索引擎的联合网络采访平台结构

3.1 显示模块

显示模块就是联合网络采访平台的网页外观,为图书馆采访工作人员提供简明、易懂的可视化界面。当图书馆工作人员输入检索信息时,显示模块向检索模块传递信息并显示处理结果。同时联合网络采访平台所需的其他常用功能如新书快报、图书排行榜等都是在显示模块中设置完成。

3.2 检索模块

3.2.1 检索模块的功能

检索模块主要完成对图书馆采访工作人员输入请求的语义理解以及对从各独立搜索引擎返回结果集进行二次处理,返回给显示模块。在语意理解方面,由于元搜索引擎本身不进行检索,而是调用其成员的独立搜索引擎来完成检索任务,因此在选定独立搜索引擎之后,要将图书馆工作人员输入的检索请求,按照各独立搜索引擎的查询格式进行转换处理,然后才能发送给各搜索引擎[6]。其转换原理是在向各个独立搜索引擎提交URL时,以相应独立搜索引擎的编码方式对提交内容进行编码。比如某一网上书店的URL的编码方式是UTF-8,在向该搜索引擎提交请求前,将URL改为用UTF-8的编码方式进行编码,当编码完成后,该搜索引擎会自动执行检索模块的请求;在二次处理方面,当检索模块在接收到成员独立搜索引擎的返回结果后,需要从各个结果页面中提取所需要的检索信息。同样还是由于各个图书出版或发行单位的网络书店搜索引擎间使用的技术不同,而且页面结构相差比较大,在结果的提取时很难形成一个通用的接口获取信息,此时检索模块分别对各个搜索引擎的结果返回界面进行分析,找出相应的规律来获取所需的URL,以此对各独立搜索引擎返回结果集进行整合。

3.2.2 各个子模块的功能及工作流程

(1)子模块功能。如图1所示,检索模块由结果排序子模块、检索器子模块等部分组成,各个子模块的功能如下:①结果排序子模块负责根据查询返还网页的专业相关度,将查询结果排序返回给显示模块;②检索器子模块的功能是当接收到图书馆工作人员查询请求后,分析检索词的查询逻辑,并向索引库或培训专业字典发起相关检索请求;③数据库子模块是将搜索请求模块返回并由检索模块过滤的结果网页,以一定的格式存储在数据库中,供图书馆工作人员查询使用。另外由于数据库往往比较大,需要对数据库建立索引库子模块,用来理解数据库中的信息,从中抽取出索引项,方便检索器进行信息检索。④培训专业字典是查询模块一个十分重要的组成部分,其作用是按照专业信息分类保存相关检索词汇,然后向各个独立搜索引擎发起检索请求,是元搜索引擎检索的源泉;⑤管理员接口子模块是管理员进行系统维护的接口,主要负责对培训专业词典管理与维护;⑥URL管理器是将搜索模块的各个独立搜索引擎返回的页面进行分析,找出所需的URL保存到URL库中,并负责控制URL的入队、出队、去重及统计等工作;⑦结果集筛选器通过使用建立好的模型,对URL管理器中的网页进行计算,得到其网页相关度值。根据相关度对比删除那些重复的网页,并保存专业相关度较高的网页到数据库中。

图1

(2)工作流程。检索模块首先将图书馆工作提交的查询信息送至检索器,若检索器在索引库找到索引项,将查询结果交给结果排序模块,排序结果返回给图书馆工作人员。若索引库中没有所需的查询关键字,则将此次查询关键字添加到培训专业词典,等候联合采访平台管理员对此关键字进行确认,同时将关键字切分后重新查询索引库,返回相关近似查询结果。即如果有完全匹配信息则返回完全信息,如果没有则返回近似查询信息。若近似信息也为空,则向搜索请求模块发起检索请求,搜索请求模块进行实时查询[7],将返回的结果经URL管理器和结果筛选器暂时存储在数据库中,但返回的结果不做任何保存,只按照记录位置给这些信息进行排序后显示给图书馆工作人员。

3.3 搜索请求模块

搜索请求模块主要完成对各独立搜索引擎搜索规则库的整合,并直接向各独立搜索引擎发送查询请求。各个搜索独立搜索引擎是构成整个元搜索引擎的基础,并决定整个元搜索引擎的工作效率。独立搜索引擎的选择是一个比较困难的问题,互联网上现有记录可查的搜索引擎已经达到2500多个,各个搜索引擎的检索质量和效率差异很大,要获得高质量的检索结果,必须建立合适的搜索引擎数据库并及时维护和更新。搜索引擎的选择方式有两种:一是系统选择,是指由系统默认选择独立搜索引擎,这是在元搜索引擎对各成员搜索引擎的功能效率进行自动评价的基础上实现的;二是人为选择,是指用户出于个人偏好和对各搜索引擎的评估来自主选择独立搜索引擎[8]。一般常用的元搜索为了保证信息的查全率,往往选择系统选择的方式,但这种元搜索引擎往往在检索速度和查询的准确率上比较差。而基于元搜索引擎的联合网络采访平台从使用角度上讲,可以说一种专用的元搜索引擎,检索的范围就是各个图书出版或发行单位的网络书店,以用户选择的方式设立各个独立搜索引擎,就能够保证信息的查全率和准确率,而且也可以充分减少检索时间,提高元搜索引擎的使用效率。

4 关于联合网络采访构建和使用的建议

4.1 增强“访”在图书采访工作的比重

采访由“采”和“访”两部分组成,简单地说“采”就是买;“访”是指遍访读者,了解读者的需求。图书馆以往在采访过程,往往忽略“访”的环节,重“采”轻“访”是绝大多数图书馆的通病。而网络共享采访平台的构建,只是为图书馆的“采”提供了便捷,不但没有解决“访”的问题,反而更增加了“访”的难度。因为在网络采访时,图书馆工作人员采书的唯一依据就是图书出版或发行机构提供的信息。这些信息仅包括书名、出版社、作者等基本信息,只能给图书采访人员一个模糊的印象,并不能确认书籍章节等具体内容,若在这种情况下直接购书,书籍的质量很难得到有效的保证。因此,各个图书馆在网络采书时,必须增强“访”在采访过程中的比重,如在各个书库设立读者需求意见本,在图书馆的网站上开通专用的读者需求页面等,广泛地征求读者的意见,增强读者与图书馆的联系和沟通。在“采”以前做好充足的“访”的准备。

4.2 在平台中建立信誉评价机制

网络共享采访平台服务效率的高低,不仅仅要从图书馆的“访”入手,各个图书出版和发行机构是整个采访交易的起点,对整个平台的使用和日后的发展责任更为巨大。但网络交易毕竟是虚拟的,还缺乏完善的管理和监督机制作为保证,难免存在个别服务质量差的图书出版或发行机构在采访平台中浑水摸鱼,利用网络的虚拟性,夸大书籍知识含量和质量,甚至恶意欺骗,使个别图书馆遭受损失。在联合网络采访平台中建立信誉评价机制,可以及时反应各个网络书店的信誉和服务质量,方便各个图书馆尤其是初次使用采访平台的图书馆对网络书店进行选择和判断。另外对各个图书出版或发行机构来说,也是一种提高自身服务质量的动力。

4.3 网络银行的选择

网络付款是网络采访的最后一道程序。网络付款的安全性,不仅影响到整个联合采访平台的使用效率,更关系到平台所有参与单位资金的安全。网络银行是进行网络付款的基础。各个网络书店也提供多种网络付款方式,以方便购买者购书。在网络银行的选择上,建议平台的参与单位首选工商银行的网络银行进行网络付款。因为工商银行的网络银行在验证网络密码的同时,还为提供了电子银行口令卡或U盾的进一步验证。口令卡和U盾是保护客户资金不受损失而设置的又一道防线。即使图书馆工作人员不慎外泄了登录卡号和登录密码,只要保管好客户手中的口令卡和U盾,或口令卡和U盾不被同一人盗取,就能够保证网络资金和网络付款的安全性。

收稿日期:2009-02-13

标签:;  ;  ;  ;  

基于元搜索引擎的联合网络采集平台的构建_搜索引擎论文
下载Doc文档

猜你喜欢