元搜索引擎的虚拟资源分类_搜索引擎论文

元搜索引擎的虚拟资源分类,本文主要内容关键词为:搜索引擎论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

元搜索引擎作为基于独立搜索引擎的搜索引擎,是搜索引擎发展过程中产生的一种崭新形式。然而,尽管元搜索引擎是对于独立搜索引擎在功能和信息资源方面的综合集成,具有独立搜索引擎无法比拟的特色优势,可据最近国外发表的一份报告显示,元搜索引擎的使用率却不及独立搜索引擎的20%。出现这种现象固然有搜索引擎技术不太成熟的原因,也有如元搜索引擎网站宣传力度不够的自身原因。此外,笔者认为还有一个重要的原因,那就是绝大多数元搜索引擎尤其是专业性元搜索引擎没有建立网络资源分类体系,无法形成基于分类类目的检索机制。本文便试从此方面来探析元搜索引擎的改善与发展前景。

1 元搜索引擎的工作机理及其不足

1.1 元搜索引擎虚拟集成独立搜索引擎

元搜索引擎是独立搜索引擎的延伸与发展,它以独立搜索引擎为基础来处理用户信息查询提问。一般而言,元搜索引擎自身没有独立的数据库,即它是通过对它所链接的各独立搜索引擎相关功能、数据库实行一定的集成,完成用户信息服务的提供。这种集成方式实质上是虚拟的,因为支持它的各独立搜索引擎在物理形式上皆是“各自为政”、单独存在,并没有真正地合包于元搜索引擎的系统内。元搜索引擎只是将各独立搜索引擎以超链接的模式逻辑地整合、统一起来,这些底层的搜索引擎与元搜索引擎实行网络服务器的并联,全部虚拟地串接、“捆绑”在一起,构成一个系统化、有机性的逻辑整体。这一逻辑整体以元搜索引擎的形式出现,综合集成了各独立搜索引擎的相应功能、网络资源,实现了具有虚拟性质的搜索引擎一体化。

1.2 元搜索引擎的信息检索过程

当前,元搜索引擎的检索方式主要有两种,一种是基于关键词的检索,另一种则是基于选择性独立搜索引擎的检索,即人机界面上陈列出若干个独立搜索引擎网站,由用户根据自己的偏好和兴趣任选一个或几个实施检索。相对来说,大多数用户都使用前者这种检索方式,其具体过程是:用户通过人机界面输入关键词(或任意字段),将其信息查询需求提交给元搜索引擎,由它对用户提问进行处理,并实行一定的检索指令组织,必要时对用户提问模式进行规范性加工与转换,然后移交给底层的各独立搜索引擎,由它们分别在各自的数据库里搜索符合用户检索课题的信息,搜索完毕后将结果回馈给元搜索引擎对其综合、集中,并进行分析、评价,根据检索状况来实行二次加工,如删重、标注、组合、排列等,然后或直接调用相关搜索引擎的原始Web页面,或重新定制统一的页面提供给用户。

1.3 元搜索引擎存在的主要问题

(1)信息域面不够宽泛,检全率受到较大影响。元搜索引擎所链接的独立搜索引擎大多数是具有一定知名度、使用率较高的主流搜索引擎,如Yahoo、Aol、Iycos、Excite、altavista、sina、sohu、163等,虽然它们的后台数据库收集的Web页面量比较庞大,可提供内容丰富、类型多样的网络信息给用户,然而这些搜索引擎的门户网站一般是综合性的,而且Web页面的内容重复率相当高,在专项、专题信息需求的满足方面十分不足,难以适应用户的特性检索要求。

(2)检准率不易控制,信息噪音过多。由于元搜索引擎的检索结果主要来源各独立搜索引擎查询与搜寻的情况,在缺乏智能化处理机制和深加工的条件下,元搜索引擎通常会直接调用独立搜索引擎后台索引数据库中被关键词标引的相关记录,这些记录往往没有经过优化的加工与整合,从而沿袭原来的检准率不高的现象,造成无关、误检的信息数据的输出,以致产生过多的信息噪音。

(3)检索途径单一,检索功能乏力。元搜索引擎的检索途径比较单一,一般的用户均使用基于关键词的查询模式,即用户在门户站设置的查询字段输入框里,以关键词输入的方式提问自己的信息提问给元搜索引擎,再由它移交给独立搜索引擎来处理。鉴于这种模式处理一些较为复杂的检索课题所表现出的缺陷,而又无法另辟蹊径实现其它检索方法的情况下,元搜索引擎的检索功能为此十分乏力。

(4)检索技术欠成熟,高级检索难以实现。目前检索技术不太完善、成熟,许多领域如中文切词、自然语言理解、自动分词等技术有待于研究和发展。因此元搜索引擎无法对用户各种各样的检索用语均能实行准确的判断、分析、加工,转换成一定的检索模式来适应各种检索机制迥异不一的独立搜索引擎。所以元搜索引擎一般只支持通用的检索语法和简单的检索模式如布尔逻辑检索、词语检索、词组检索等,对于复杂、高级的检索则难以有效实现。

(5)人机界面不太友好,检索速度较为缓慢。元搜索引擎因其检索实现建立于若干独立搜索引擎之上,故对它们存在很大的依赖,其检索结果要受到独立搜索引擎直接或间接的影响,它们的运行效率高低、服务器工作状态好坏几乎时时让元搜索引擎处于被动的境地。此外,用户提问需经过检索模式转换、独立搜索引擎搜寻相关信息、搜索结果二次加工、定制结果页面等一系列环节,这一过程相对来说要等待一段较长的时间,使检索速度表现得较为缓慢。

2 信息分类对于元搜索引擎发挥的作用分析

自然语言检索的研究虽然取得了一定的进展,但一些关键性的问题如后控机制介入仍未获取实质性的突破,因此自然语言检索法的真正应用尚有待时日,在目前无法将自然语言检索机制导入元搜索引擎的条件下,欲实现用户的高级检索,改进元搜索引擎的检索性能,对元搜索引擎实施信息分类,设立分类类目表不失为一种较好的选择。这种基于独立搜索引擎集成在一起的信息资源逻辑整体的分类体系可起到如下几个方面的作用:

(1)信息分类的结果是产生浏览式分类目录,增设类目键这一功能按钮,用户可点击相应的分类类目级级打开、层层深入,同时通过这分类形成的导航机制在一定程度上能消除一些用户一片茫然、无所适从的检索心理,从而使人机界面的生动性、友好性大为增强。

(2)通过分类类目的引导,用户能直接利用元搜索引擎已定制的检索模式和查询途径,无需实行用户提问分析、检索用语的规范加工或检索模式的转换处理等中间环节,这样便简化检索过程、加快检索速度。

(3)建立分类体系,虽是对独立搜索引擎虚拟性整合的信息资源分类,但却将信息分门别类逻辑地聚集、反映在相应的类目之下,并间接地以预处理的形式事先规定好用户的检索用语和检索策略,促使元搜索引擎的信息噪音减少,误检率降低。

(4)可以克服基于关键词的检索模式所存在的一些不足,增加新的检索途径。进行基于分类类目的检索方法与基于关键词的检索方法这两者的有机结合、功能互补,能够有效地扩大检索范围、提高检全率。

(5)分类体系本身具有对信息资源起到擎纲引领的推荐和指南作用,在很大程度上能反映出元搜索引擎提供信息服务的资源构成和知识面域状况,可激发一定用户产生信息检索的需求,尤其对于检索操作水平不高的用户更具有突出的导航意义。

(6)分类体系通过类目提示、多重列类、交叉设类、多维分类等方式,来多角度、多层次、多节点地反映某一类信息,因此元搜索引擎便可将一些较为复杂的检索语法,以设置多个类目的转化方式,将其降解、切分、简化为若干个以类目形式出现的检索句式,从而在一定程度上实现高级的信息检索功能。

3 元搜索引擎分类类目检索的流程阐述

元搜索引擎实现基于分类类目的检索,其关键在于元搜索引擎内部技术体系中,增设后台分类标引这一功能模块,该模块存放各独立搜索引擎的各种分类类目表,这些类目表的各类目按名称、词义聚合的相近、相似或相同区分成单元组,可称之为类目组。当用户通过人机界面实施分类类目式检索时,用户先点击选中所需检索的类目,由它感应到元搜索引擎的后台分类标引模块,此模块将自动地将其用此类目名称命名标引的类目组挑选出来,然后交付给检索指令模块,根据此类目组包含的类目数量来定制出检索指令的条数,再通过信息传递监控模块,将检索指令一一配送给相应的独立搜索引擎,由它们根据各自收到的检索指令所显示的类目名,与自身类目表中相关类目的匹配状况,来搜索相关的信息,并将结果返给元搜索引擎综合、分析,进行相应的二次加工,最后必要时进行结果页面定制,在人机界面上显示给用户利用。其检索流程如图1所示。

图1

例如一用户查询国内外硕士研究生教育的状况,其操作过程是:先点击前台人机界面的相应类目(类目级别由高到低进入):教育(一级)→普通教育(二级)→研究生教育(三级)→硕士研究生教育(四级),那么“硕士研究生教育”这一最低级类目被点击选中后,便感应后台分类标引的类目库,找出该类名命名的类目组。倘若该类目组有5个不同的类名:硕士研究生教育、硕士学位生教育、低层次研究生教育、硕士研究生培养、硕士研究生培养与教育,而这5个类名又恰好分别对应于5个独立搜索引擎,检索指令组织模块便会定制出5条检索指令,经由信息传递监控模块向这5个独立搜索引擎发出HTTP请求,由它们根据相应的类目检索指令匹配状况。调集相关的Web页面给元搜索引擎,经过整理加工后通过人机界面提供给用户。

4 如何构建元搜索引擎虚拟资源分类的思考

由前面内容的分析可以看出,元搜索引擎的信息分类本质上是虚拟资源分类,即将底层独立搜索引擎的数据库虚拟地视为元搜索引擎的信息资源,并将它们综合、集中起来构成一个逻辑的整体后,以此为基础进行分类组织。其实现的重点在于构建容纳、存放各独立搜索引擎类目名的类目组库,该库相当于集成各独立搜索引擎类目表的数据库。基于此一层的认识,元搜索引擎的虚拟分类体系不妨从以下几点着手构建:

(1)链接的独立搜索引擎以综合性搜索引擎为主,恰当地兼顾专业专题性搜索引擎的选用。综合性的独立搜索引擎信息量大、面域宽,运作较为稳定,且其分类体系比较完善、成熟,元搜索引擎的分类主要还是着眼于大型、综合性搜索引擎的分类类目与数据资源库,对于用户点击频率高的热门、时髦性或焦点性专题信息,可附加链接一些运行状态良好、知名度较高的专业专题性搜索引擎。

(2)类目设置可以参照传统文献分类法如中图法(4版)、人大法来进行,但必须以所链接的独立搜索引擎各类目表为基础,遵循反映知识体系和学科领域的广泛、严密、完整性原则,同时兼顾专题性与主题性聚类标准,力求全面、准确、宽泛的实行分类。

(3)前台的类名确定应先掌握和摸清各独立搜索引擎的类目表,将相关的类目集中起来形成类目组,并从中分析、挑选出一个能符合人们检索习惯的类名对类目组进行命名,同时置放于人机界面上供用户检索时点击使用,或者另外拟定一个类名,其方法可用某一知名主题词表如《汉语主题词表》来确定,也可用日常生活用语或能精炼反映事物、事件的自然语词标引。

(4)类目层次划分适中,类目交叉关系处理应妥当。由于元搜索引擎对独立搜索引擎实行信息集成,那它的虚拟分类层次则应持适中原则,切莫太细亦不要太浅,类目层次划分以4~6级为宜。类目的纵向等级、横向相关等交叉关系处理时不要太复杂,如多重列类、交叉设类不应如同底层一些独立搜索引擎那样设置太多。

(5)借鉴一些主流搜索引擎构建网络分类体系的做法与经验。当前许多主流搜索引擎如altavista、sohu、sina在网络信息分类方面已积累了一定的经验,掌握了较好的技巧,构建成各具特色的分类体系。元搜索引擎网站不妨在类目设置、类目划分、类目关系处理、类目排列等多方面向它们吸取和学习,并可灵活、适度地直接套用一些成功做法。

(6)充分应用自动分类技术、自由标引技术、自动主题识别技术及智能代理人系统技术的研究成果,部分地实现机器替代完成分类标引与类目组库组建任务的可能性,减少人工干预与控制的工作量,增强元搜索引擎实行基于分类类目检索的可操作性与易用性。

5 结语

元搜索引擎实施基于独立搜索引擎拥有的数据库的虚拟资源分类,可在一定程度上解决元搜索引擎现存的一些问题,提高用户对于元搜索引擎的利用率。同时,出于有效进行分类的目的,元搜索引擎可能对于它的技术结构进行改造,例如对底层的独立搜索引擎进行重组实行二次选择。虽然虚拟分类存在人工工作量大、类目库组建较为困难等一些问题,但随着一些先进的自动化、智能化技术应用于元搜索引擎,分类类目检索在元搜索引擎的前景将越来越好。

标签:;  ;  

元搜索引擎的虚拟资源分类_搜索引擎论文
下载Doc文档

猜你喜欢