中文搜索引擎分类体系兼容互换工具的设计,本文主要内容关键词为:体系论文,中文搜索引擎论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G254
CLASS NUMBER G254
搜索引擎是对网络资源进行标引和检索的工具,通过一定的机制和方法对网络信息进行搜索,将搜索来的信息进行分类,建立索引,然后把索引的内容存放到数据库中,以供用户检索时用。搜索引擎一般提供分类浏览和关键词查询两种方式的检索服务。本文只对其分类浏览检索进行讨论。
分类浏览,又称为“目录式”查询。它首先建立一个知识分类框架,然后将每一个大类由宽到窄逐层细分出若干等级的类目,形成知识树,把信息分门别类地组织起来。此类搜索引擎以雅虎(Yahoo!)为先,依靠专业人员进行分类标引,具有标引质量高,内容全面,方式直观,检准率高,能够限定检索范围,可以对不明确的检索目的进行引导等优点。
目前网上中文搜索引擎多如雨后春笋,为用户查找网络信息提供了便利,但是由于各搜索引擎的分类体系存在差异,限制了用户对此工具的充分利用。本文拟以新浪(http://www.sina.com.cn)、搜狐(http://www.sohu.com)、网易(http://www.163.com)为例来分析其差异,并借助情报学的相关理论,提出改进方案。
1 搜索引擎分类体系的主要差异
除了极少数的搜索引擎采用传统的图书分类法(如《杜威十进分类法》、《国际十进分类法》、《中图法》)作为分类体系外,绝大多数搜索引擎采用自创的分类体系,存在着下列多方面的差异[1]。
分类体系不同。多数搜索引擎根据自身的特点自创分类体系,类目的设置和划分各不相同。表1列出了新浪、搜狐、网易的“教育”类下的二级类目。通过表1,我们可以看出,对于“教育”这个大类,新浪共分出44个下位类,搜狐有34个,网易只有24个。再比较这些类目,我们得到表2的结果。此外,在类目的划分上也存在差异,例如对各级教育的划分,新浪为“胎教—婴幼儿教育—初等教育—中等教育—高等教育—研究生教育—成人教育”,搜狐则为“幼儿教育—中小学教育—高等教育—继续教育”,而网易则只有“中学教育—高等教育—成人教育”,没有单独列出“幼儿教育”。再如搜狐中有“各科教育”,按科目内容划分教育,而网易中则设置“各地教育”按地区来划分教育。由此可见,这些分类体系在类目设置和划分上存在一定的差异。
表1 新浪、搜狐、网易“教育”类下位类类目
续表
表2 新浪、搜狐、网易“教育”类下位类类目比较
类名的表述不相同。新浪中称“计算机”,网易中用“电脑”;搜狐中称“互联网”,而网易中则用“因特网”,新浪中用“商业经济”,搜狐中称“工商经济”,网易中用“经济金融”等。
分类深度广度不同。不同的搜索引擎,有的类目设置过细,多达十层,有的则较粗,仅有两三层。譬如我们要查找《路遥作品集》,在搜狐中要经过“文学>文学类别>小说>文艺小说>更多作家(按拼音排序)>K—L>路遥”共七层逐步细分的浏览过程,而在新浪中只要经过“文学>小说>现当代小说>路遥”即可查到。
类目排序不同。虽然类目的排列顺序对于检准检全率不会产生影响,但对于用户的检索效率和使用便利性还是会产生影响。在中文搜索引擎中类目的排序一般采用以下几种方式:(1)按照字顺排序。(2)参考检索频率。(3)对同位类进行系统排列。(4)无序。各搜索引擎根据自己的特点来安排类目次序。据张琪玉对43种综合型网络检索工具进行统计,只有3种是按类名字顺排序,其余都没有明显的排序规律[2]。
助检手段不同。有的搜索引擎在大类下列出一些主要的和检索频次高的下位类,用作这个大类的说明,类似于类目注释。有的根据用户的检索频率,系统列出一些热门的检索类目,如新浪有“新浪推荐”用来在每一级类目中列出一些与之相关的最新信息。有的把分类检索和关键词检索结合起来,如在搜狐的分类检索中,还提供了关键词检索,可以通过关键词来检索分类索引数据库中的信息,并且提供“网站、网页、类目、新闻、网址”的范围限定选择,尤其是类目的限定选择。
2 兼容互换的基础
为了充分利用现有搜索引擎的分类目录下的标引质量较高的信息,提高分类检索的检全率,用户就会去多个搜索引擎中查找同一类信息。但是由于各搜索引擎存在着上述差异,用户要在多个搜索引擎之间进行查找,就会出现类目重新选择的困难。例如,我们要查找“幼儿教育”的信息,在搜狐中通过“教育>幼儿教育”即可检索得到,而在网易中的“教育学习”大类下却检索不到,却要到“少儿乐园”大类下,经过“少儿乐园>各地幼儿园/教育>幼教”才能检索得到。为了提高检索的效率,只能走两条路:统一分类体系或者实施兼容互换。我们不可能设计一个统一的分类体系,要求现有的所有搜索引擎抛弃自己原有的分类体系推倒重来使用这个新体系。这对于个性化强烈的诸网站来说是不可能的,因此统一这条路是走不通的。那么,在不同分类体系之间实现兼容互换这条路能不能走得通呢?
首先,情报检索语言的兼容互换理论给我们提供了理论基础。兼容互换的理论就是从各个系统中间汇集相同或相近的词汇(类目),直接或通过另一通用系统来建立词汇(类目)之间的“等价关系”,从而实现系统间的兼容互换。虽然我们不能要求各系统采用统一的分类体系,但是能够通过采用一定的中介系统实现不同体系之间的转换[3]。这对于用户和搜索引擎服务提供商都是能够接受的。
其次,现有的搜索引擎分类体系具备实现兼容互换的条件。(1)现有的搜索引擎分类体系包罗万象,覆盖范围大致相同。(2)分类体系框架相同,从表3的比较可以看出,新浪、搜狐、网易的大类设置是很相似的,这三者都设置了18个大类,其中新浪和搜狐有16个大类基本相同,搜狐和网易有16个大类基本相同,新浪和网易有15个大类基本相同。(3)类目划分详细,一般都在五级以上,而且对于某个类目划分下位类采用多个标准多元划分。(4)类名相同或相近,这一点从表2比较结果中就可以看出。
此外,近年来搜索引擎的发展在技术上出现趋同倾向,这导致它们在分类体系上也日渐趋同。从表3对新浪、搜狐、网易搜索引擎一级类目的比较,可以清楚看出它们大类的设置是很相似的。
表3 新浪、搜狐、网易搜索引擎一级类目对照
续表
所有这些为设计搜索引擎兼容互换工具提供了理论基础和可行条件。
3 兼容互换工具的设计
要实现多个搜索引擎之间的兼容互换,必须通过一个中介系统。我们考虑建立一个中介词典,如图1。本设计以《中图法》类号作为转换中心,X代表转换中心,A、B、C分别代表参与转换的新浪、搜狐、网易的分类体系。
图1 中介词典原理
《中图法》是国内最通用,用户最多,维护最好的一部体系分类法,类目详尽,覆盖面广,并且有与《汉表》对应产生的《中国分类主题词表》,有利于今后分类检索与主题检索的结合。但由于《中图法》体系严密,类目划分严谨,而网络分类体系绝大多数是面向用户需要,类目设置不同于传统的分类法,所以要对《中图法》类目进行改造,使其既突出学科体系又面向事物对象。
分类标记是一种很好的助检手段。经常查找某一类信息的专业用户,可能更倾向于使用一个分类标记直接跳转到相应的类目下实现一步到位,而不愿再一层一层浏览查找。但是绝大多数搜索引擎,无论是采用传统的分类法,还是自创的分类体系,都没有采用分类标记。因此,在这个兼容互换工具中引入了分类号用来助检。为了便于转换操作和揭示类目的等级关系,为新浪、搜狐、网易的分类体系分别设置分类标记。具体方案设计如下:
(1)结合目前网络信息资源的特点,对《中图法》类目进行改造,取到五六级类目,热点类目予以细分,检索频率低的类目予以合并,用上位类替代亦可,并保留相应的分类号。
(2)分别从新浪、搜狐、网易中逐级抽取前五级类目词,得到各自的原始类目表。
(3)用层累制分别为原始类目表编配分类标记。
(4)用《中图法》分别标引原始类目表中的各个类目,构建分类号一类目词对应表。
(5)以改造过的《中图法》为主干,以《中图法》类号作为兼容互换基础,建立各个体系之间的对应关系,并按照《中图法》类号来排序。
这样通过《中图法》这个转换中心,就可以在新浪、搜狐、网易分类体系类目之间建立关系。
表4是“教育”类的中介词典的片断。如果要检索“幼儿教育、学前教育”的信息,即可通过中介词典查到各系统中的相应类目,知道在新浪中为A4.18(婴幼儿教育,二级类目),搜狐中为B6.13(幼儿教育,二级类目),网易中为C12.5.1(幼教,三级类目)。尽管类名表述各不相同,类级也不同,但是通过中介词典却可以实现相互之间的转换。
表4 中介词典片断
为了便于检索类目,还可以考虑建立一个类目字顺索引。具体设计:(1)将中介词典中的类目词及各搜索引擎分类体系中对应的类目词抽取出来,保留类号。(2)将《中国分类主题词表》中与改造过的《中图法》类目对应的词也抽取出来,保留相应的《中图法》类号。(3)将这两组词进行去重。(4)建立字顺索引并附相应的《中图法》类号。例如,“幼儿教育”这个类目与它相关的非正式词还有“学龄前教育”、“学前教育”、“婴幼儿教育”、“幼教”等,将这些词附上相应的分类号(索引地址),按照字顺排列所有的款目。这样从这些词出发直接到中介词典中可以查找到相应的正式类目。有了这样的类目索引,检索类目就更方便,而且可以使用分类号来检索。
目前有一种元搜索引擎,能够利用多个独立的搜索引擎进行查询。当用户将检索要求提交给元搜索引擎后,它将这个检索要求同时交给多个独立的搜索引擎进行查找,收到检索结果后,对这些结果进行加权等处理后返回给用户。目前因特网上的元搜索引擎都是基于关键词进行检索的,利用前面设计出的分类体系兼容互换系统和类目索引,我们是不是可以考虑建立一个基于分类浏览的元搜索引擎呢?这样,用户就不用再去各个搜索引擎中分别查找,可以在一个统一的界面上从系统提供的、经过改造的《中图法》分类体系中直接查找,就可以获得在多个搜索引擎中检索的结果。
搜索引擎是面向大众用户的。随着它日益成为一种主要的信息源,专业用户越来越多。对于这些专业用户,可以提供分类号检索服务,而且通过类目索引可以从多个人口来查找到相应的类目,为用户提供多途径检索的便利,充分利用各大搜索引擎人工标引的高质量数据库。
总而言之,这种利用情报检索语言兼容互换理论设计的搜索引擎分类体系兼容互换工具,对于提高分类浏览检索的效率是很有帮助的,值得进一步研究和开发。