查询优化与动态自动聚类系统_聚类论文

查询优化与动态自动聚类系统,本文主要内容关键词为:动态论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 查询优化的必要性

查询优化(query refinement)也称检索提问优化,是指通过对检索提问提供优化方案等形式,供用户改进检索表达的一类技术措施。这是大型检索系统,特别是网络检索系统改进检索效果的重要手段之一。

大型检索系统,特别是网络搜索引擎的一个突出矛盾是检准率问题,即检索返回的资源数量过多,需要用户花费许多时间剔除不相关文献。不能根据检索系统的特点使用确切的检索表述是造成上述问题的原因之一。关于网络用户检索实践的研究表明,多数检索者的初始查询往往是不精确的,需要在检索过程中对检索式进行优化调整[1]。具体而言,对检索提问进行优化的原因主要包括:

(1)用户可能找不到准确表达检索内容的词汇,所选关键词与检索的内容之间可能存在着差距,需要在检索过程中进行调整。

(2)检索表达不够专指,未能确切表达出用户潜在的检索需求。例如一个使用“非典型性肝炎”进行检索的终端用户,实际上可能只是对其中的某一方面资料,如治疗或预防的资料感兴趣,其检索要求还有待进一步确切表达。网络检索中大多数用户往往只使用一或两个词进行检索,远没有准确表达其确切的主题对象。

(3)用户对逻辑表达式的书写方法缺乏了解,从而影响检索表达。这种情况对于普通检索用户十分普遍,在使用多个词检索时,多数用户往往只输入关键词,并不使用逻辑符号。

(4)检索存在着逐步深化的问题,随着检索操作的进行,往往需要根据返回的检索结果情况,进一步明确检索需求,使得检索表述更加精确、专指。

(5)检索过程中存在着需要改变检索方向,或进行相关查找的问题。在这种情况下,以交互的方式提供的查询方案,对于相关主题的检索查找,具有启发作用,十分关键。

(6)有时检索需求往往涉及到多种因素,用户很难同时照顾到,例如,为了精确限定检索范围,往往需要同时从检索范畴、语言、文献类型、地区、时间等多个方面加以控制,由用户通过检索式表达,具有一定难度。

查询优化在网络检索中之所以尤其重要,是因为:其一,网络资源数量巨大,因而检出量也大,有必要通过增加检索的专指度以缩小查找范围;其二,文本检索检准率低,更加需要通过对检索式的优化改进检索;其三,多数网络用户缺乏检索经验,有必要在检索过程中以优化检索方案的形式提供帮助。这些情况充分说明,在大型检索系统,特别是主题搜索引擎中进行查询优化技术的探索是十分必要的,这也是网络检索系统中查询优化形式不断发展的原因所在。

二 网络关键词检索工具中查询优化的形式

机检系统中查询优化形式的使用,最早可以追溯到人-机交互界面的出现。它是与包括命令语言、菜单选择、图像操作、表格形式的输入、自然语言对话等在内的所有检索形式相联系的[2]。在网络搜索引擎中,检索优化则是结合多种形式进行的,包括启发式检索界面的设置、各种交互形式的使用以及各种动态优化形式的提供等,通常是在结合采用传统数据库技术的基础上,利用一切可能使用的方式,从多个方面、多种角度发展起来的。为了便于从总体上把握,根据查询优化的实际应用状况,我们可以将目前网络搜索引擎中常见的使用形式归纳为三种基本类型,即静态优化形式、依据一定词集的优化形式和动态聚类的优化形式。

1 静态查询优化形式

静态查询优化形式是指以检索界面预先设定的方式提供检索支持。为了方便用户,搜索引擎除提供简单检索界面外,一般还提供相应的高级检索界面,以供复杂检索之用。多数搜索引擎的高级检索界面除了提供大型文本框,供输入复杂检索式外,而且还通过预先设置的各种输入形式,方便检索式的构造和各种检索因素的选取,用以优化用户的检索表述。以google为例,其高级界面提供的帮助包括:设置表达专门逻辑关系的检索输入框,提供语言、地区、时间、文献类型等的多种选择和限定,以及匹配位置限定,如限定在title、url中进行检索匹配等。这类设置的优点是形式直观、使用简便,大大降低了书写检索式的难度,用户只要根据检索需要,在相应检索框内输入检索词,甚至采用选择的方式,就可以综合多种因素,方便地构建专指的检索式,从而可以确切地、有针对性地进行检索。这种方式的不足是所有的项目均是预先设定的,往往无法满足用户各种具体检索要求,特别是在潜在主题内容的表达方面,作用受到限制。

2 依据一定控制词集的查询优化形式

这类查询优化形式通常以预先确定的、经过一定程度控制的词集为依据,在检索使用过程中以交互的方式提供。常见的形式包括:

(1)检索纠错功能。

这是网络检索中最常用的一种检索优化功能。系统通常使用预先建立的纠错词表纠正常见的输入错误,在提供检索结果的同时提供反馈信息,便利用户使用正确的检索词实施检索。不少系统采用的自然语言检索技术则可以看作是这类技术的一种深化,实质上是在排除停用词的基础上,以自然语言语句中的关键词进行检索,但这类处理通常不显示相应的检索关系式。

(2)利用用户检索词集,提供查询帮助。

这一方法通常是将用户使用过的检索式存储下来,经过选择整理,作为提供检索帮助的依据。使用时依据匹配状况,结合用户检索式使用的频率,按一定的阈值加以显示。这一形式使用的难度小,效果明显,是传统文本检索系统查询优化的一种基本形式,一些搜索引擎,如Alta Vista、Excite、百度以及yahoo目前提供的关键词搜索工具等,也均使用过这一形式。例如在使用yahoo检索“classification”时,系统除提供检索结果外,同时还在上方相关词栏提供“classification system”、“classification code”、“standard classification”……等相关检索式,供用户选用。这种形式的优点是方法简便,可以直接利用用户构建的检索词提供帮助,有比较高的实用性。不足是这类检索形式往往只反映了网络上流行的检索需要,有一定的偏向,不能全面反映使用的需求。此外,这类形式多以字面匹配为基础,不能提供以概念为基础的检索帮助,因而有一定的局限性。

(3)基于控制词表的查询优化。

这是一种使用预先编制的控制词表提供检索帮助的方法。这类词表一般根据资源的整体情况和使用需要设置,是一种根据检索系统全局使用的需要建立的辅助系统,形式上类似传统的叙词表或等级词表,但通常不如控制词表那样严格,一般包括仅提供同义词控制或同时提供以概念为基础的相关词控制等不同类型。检索时,系统首先将用户的检索提问与词表匹配,通过词表中的同义控制实施概念检索;一些同时提供相关控制的系统,还可以在检出资源的同时提供相关帮助。例如百度在2002-2003年间就使用过这一形式。这种方法的优点是能够在一定程度上提供概念检索,并利用字面匹配提供相关检索词的优化选择帮助,建立了等级结构的系统还可以同时以等级形式显示专指词或相关词,使用效果更优。不足是由于这类系统的编制迄今未能实现自动化,限制了它的规模,多数系统比较概略,在海量检索系统中往往显得力不从心;由于系统是预先设定的,具有一定的拘束性,无法灵活反映用户在特定检索环境下的需要。这类形式较适合于规模有一定限制的资源,特别是专业文本检索系统;综合性系统在使用这类检索帮助时受到的局限比较大。

3 基于自动聚类的查询优化

这是一种根据检索结果的数据以动态聚类方式提供的检索支持形式。一般在用户初始检索的基础上,通过对检索结果的分析与整合,以动态聚类的方法提供与检出资源相关的关键词集,作为检索扩展或专指检索的依据。常见的形式包括:将聚类算法的结果作为二次检索的依据,用来对返回结果进行专指查找,比较典型的如Vivisimo、AlltheWeb;将聚类算法的结果作为检索扩展的依据,用来作为进行专指检索或扩大查找范围的手段,比较典型的有Teoma、GuideBeam、Scierus等。基于自动聚类的系统的优点是,相关检索帮助是根据检索情况实时提供的,能动态反映资源的情况,可以在任何领域、对象、层次灵活地提供检索帮助,而不会如使用后控词表那样受到预先设定的词表的局限。不足是,这类系统由于采用实时处理,情况千差万别,难度比较大,容易出现一些不适用的类集。这类方法在实际使用中往往需要吸收并结合多种技术,包括纳入控制词表,以概念匹配作为聚类的基础,优化检索算法,使用人工智能技术改进处理质量等,是目前网络检索技术中一个具有较大挑战性的正在迅速发展的领域,受到广泛的关注。

此外,不少搜索引擎在返回的条目中设有“Similar to”项,这是一种利用命中的资源进行扩充查找的形式。在采用这一方式时,选定的资源成为检索扩充的依据,一般根据该资源中的词汇,并结合其链接情况等因素进行相关揭示。这类设置使用简便,只要在选定的条目后点击相应扩充检索项就可以了,可以看成是一种直观的查询优化形式。

在上述诸种方法中,动态自动聚类系统是一种网上新型的检索优化形式,具有比较大的机动性,其优点是可以根据检索结果灵活地提供查询优化方案,因而受到广泛的重视,值得我们加以特别的关注。

三 几个典型动态自动聚类系统剖析

动态自动聚类系统虽然实际应用的时间不长,但目前人们已经在网上进行了多种探索,且发展出多种模式。下面分析几种典型的动态聚类系统:

1 AlltheWeb

AlltheWeb原为FAST公司所有,是该公司搜索技术的典范,因此有时也称为FAST或FAST Search[2]。2003年4月被搜索引擎提供商Overture所购买,目前为yahoo所有。AlltheWeb是网上规模最大、更新速度最快的搜索引擎之一,在2002、2003年《搜索引擎观察》的最佳搜索引擎评选中两次被评为第二名,仅次于Google。该系统在返回检索结果的同时,将检索结果中包括的某些有检索价值的资源聚集为类,供用户选择。例如,在用“computer”进行检索时,系统提供的相关类目包括:

publicly,major company,business(13)

motherboarders,computers(6)

organizations,computers(4)

security,computers(4)

computer,it news(4)

information systems,management science,businiss(3)

computers collecting(3)

publications computer science(3)

retailers hardware computers(3)

hackers,security,computers(3)

…………

上例中聚类结果后的数字,为该主题的资源数量。这样,就可以根据需要,直接选择浏览有关的专门主题,改进系统的检准率。

AlltheWeb的聚类方式是由计算机分析查询结果,在适合的情况下动态聚集为类似open directory的类目或范畴。其基本方法是[4]:

——使用网上规模最大的网络分类表Open Directory作为分类的基础;

——使用该集作为分类训练集,即以现存分类系统的文献为基础,利用文献的相似性从网络上扩充文献;

——为那些不能恰当匹配的新文献生成新的组或类,使用文献类中的关键词进行标记。

在将结果组织进范畴时,只收入与查询主题相关的最流行的术语和短语,类目的数量往往并不多,这一方法主要用于缩小检索范围,是一种二次检索形式。虽然因yahoo对搜索引擎整合的缘故,目前无法进入该站点,但作为一种结合已有的分类结构进行动态聚类的系统,AlltheWeb十分典型。

2 Vivisimo

Vivisimo[4]为卡耐基梅隆大学计算机科学系的计算机专家建立的一个元搜索引擎[5]。其核心组成部分之一是一个聚类引擎(Clustering Engine),能够将返回的检索结果以实时的方式自动分类,以等级文件夹的形式显示。以检索“classification”为例,系统在返回结果的同时,左栏即以动态聚类的方式提供关于检索结果的优化帮助如图1。

图1 Vivisimo动态自动聚类系统页面

图1中部为检索返回的结果,左栏则是根据检索结果在自动聚类的基础上所作的一个分类显示,该分类结构把检索返回的文献类分为类集,每个类集后显示符合该类内容的资源数量。用户可以通过点击的方式,直接检索条目中的相关资源,而不必逐条浏览返回的检索结果。该分类系统具有以下特点:

①类目系统不是根据预先编制的类表获得的,而是根据资源情况经动态实时分类确定的,因而可以根据资源情况灵活处理,避免预先设定系统的不足。

②从检索结果中的分类情况看,类目的设置,不限于依据字面匹配,同时还引入了同义控制等功能,是在概念匹配的基础上加以类集的。

③一般按照基本层次分类,根据词频的情况首先确定一级类,词频较少的资源归入其他类;如一类下资源数量较多,根据情况进一步分出下位类目;一个资源如果同时具有多个类目的词汇,可以同时归入两个或多个类。

④类目大体根据包含的资源数量序列,但并不严格,从显示的情况看,其次序应是根据聚类文献所获得的阈值总量的大小确定的。

⑤动态分类的处理范围只限于一定数量以内:系统设置了数量选择显示,其处理数量被限制在200到500条左右,这一数量基本上已经可以满足用户检索的需要。

⑥是一种二次检索形式,而不是一般的检索扩展。这一方式主要用来提高检准率,有效利用检出的结果。

Vivisimo使用一种专用的启发式算法来类集文本文件。这一算法基于一种早期的人工智能概念,即一个好的类或文献组应该拥有一个好的描述,而不是先形成类,然后再思考该如何描述,因此Vivisimo的思路是先形成一个可描述的类,然后加以聚类;如果一个类不能够被准确、简洁地描述,则这个类将被取消[5]。Vivisimo的文献聚类是完全自动的,尽管在许多应用中,聚类搜索引擎的确定可以从领域专家的意见中获益。这一聚类系统在搜索网页、专利文摘、学术出版物、新闻资源、会议文本、电视文本等方面收到了较好的效果。物理学出版学会的专家对Vivisimo的聚类结果进行检测后认为,其分类的正确度达到90%。在《搜索引擎观察》进行的年度评选中,Vivisimo连续在2001年、2002年被评为年度最佳元搜索引擎。

3 Teoma

Teoma[6]是美国新泽西Rutgers大学的计算机专家创建的一个搜索引擎,最早用于2000年4月[7]。其检索返回的结果界面包括三部分:其一,按照一定排序方式显示检索结果;其二,提供与检索结果相关的主题类目,用于缩小检索范围;其三,列出由各地主题专家和热心用户推荐的与该检索主题相关的权威主题资源,供用户选择使用。其中,相关主题类目是一种基于对检出资源自动聚类而实现的查询优化的形式。例如,在使用Teoma查询“classification”时,系统在返回2767000个相关结果的同时,于结果页左上部列出如下类目:

Classification System

Congress Classification

Classification Schemes

Classification Index

Subject Classification

Universal Decimal Classification,etc.

Teoma的自动聚类系统具有以下特点:

①是一种优化检索表述的方法,主要供用户改进检索的专指度,进行新的检索,而不是一种二次检索形式。例如根据上述提供的优化检索类目,如点击其中的“Congress Classification”,即成为按照“classification,Congress Classification”结合的检索,用以缩小检索范围,使其更加专指。

②这些优化检索类目是对检索结果进行自动分类的结果。这一分类操作通常先浏览与用户提问匹配的检索结果集,然后根据链接关系,在发现网页“社区”(community)的基础上聚而成类。

③类集的主题表述通过文本分析获得。一旦这些“群落”亦即聚类结果产生,则通过分析链接文本的词频,找出最适合的词作为主题标签,用来描述该类。采用这一方法,网页主题标签的确定不需要人工干涉,能随着网页内容变化作相应变动,使用新的表达方式甚至是新的语言表达新主题。

④类目的数量决定于该聚类方法的分析结果,一般采用单级形式显示,每次形成的类目数量并不均衡,通常少于Vivisimo。

Teamo自动聚类的主要特点是根据网络资源之间链接的状况识别网上存在的主题社区,并将这一因素作为聚类的依据。与google的PageRank方式不同,Teoma认为要确定一个专业站点的质量,不能只根据一般站点的链接数量,而应根据同类专业网站的评价,在网上社区(community)的基础上进行链接分析。Teoma认为,如同现实世界的社会网络,网络资源也可以根据其链接的密度区分出各种社区,这些社区通常是与同一主题密切相关的网页组。这一技术允许生成更好的检索结果,揭示网上其他搜索引擎未能发现的方面。“这一方法类似同行的评估,可以真正建立检索结果的权威性”,使得对检索结果的处理达到一个新的相关层次。可以更加准确地判断网络资源的专业相关性和重要性[7]。Teamo对优化类目的确定,正是这样一种将主题社区结合链接分析的结果。

4 GuideBeam

Guidebeam[8]是澳大利亚DSTC Resource Discovery Unit技术产品的一部分,它不是一个搜索引擎,而是一个连接搜索引擎的查询优化工具——一种超级索引(hyperindex)[9]。这种独立技术可以灵活地用于不同的系统,如互联网、内联网、文本数据库以及文件系统。使用方法是,先输入一或两个词,然后GuideBeam会给出建议的短语,帮助澄清用户的信息需求。图2即是输入“classification”后系统显示的内容。

图2 Guide Beam动态自动聚类系统界面

图2上部的“检索历史”栏是对用户检索过程的记录;“查阅检索结果”栏供直接使用该栏的词察看检索结果。其下分组展示供用户优化检索的词。Guidebeam将优化词分别按资源类型、专指对象、相关词以及地区词等分组展开。每个优化词后以数字表示该词与用户原检索用词的相关度。这样,用户就可以通过对索引的浏览,发现相关检索词信息,进一步明确其需求。

GuideBeam的工作方式是,将查询送往一到多个搜索引擎[9],然后合并返回结果,提取优化词汇,建立索引[10]。GuideBeam使用词汇分析器模块从文献中抽取标题、说明、文摘等特定的句法成分;其索引表达解析器模块处理得到的结构成分,以一个概要的自然语言分解形式统一处理,构成索引表达;而细化和相关生成器模块则通过精确的算法生成查询细化和相关的结果。为了有效地指导用户,系统通过计算语言学(computational linguistics)和实用人工智能结合的专用技术分析用户的感受。浅层自然语言分解技术生成信息结构,用于推导与用户需求一致的信息,推导的结果再以反馈处理的方式提交给用户,从而建立起与用户的交互对话,使用户得以进行相关选择。这样,起始的查询构成焦点,索引表达则表示这一焦点的优化和交互,根据对查询结果的描述使查询获得更加专指的可能性。这对不完全明白自己需要的用户特别有用。在自动聚类过程中,GuideBeam在两个领域中进行了改革:

其一是自然语言处理。通过对文献实时分析,抽取句法结构,推论出与用户查询相关的提问。处理中不使用复杂的语义分析,其算法并在处理速度和精确性之间找到了最佳结合点。

其二是查询推论。GuideBeam从分解文献生成的句法结构中抽取和推论短语。查询推论机制遵循合理的单一性(rational monotonicity)原则,根据1990年代早期的人工智能研究成果形成。在GuideBeam中,合理的单一性规定用户当前的查询可以以一种与用户信息需要一致的方式扩充。该系统的解决方案结合使用了符号处理技术,可以比数字方法更加有效地模仿语言环境。

此外,使用自动聚类技术的还包括Scirus。Scirus是一个科学搜索引擎,该系统根据检索结果的前100篇资源进行动态分析,结合资源中依据规范词表所作的自动表述确定动态聚类结果。

四 对于动态聚类系统特点的概要分析

从上面对几种动态分类系统的实际使用形式看,不同动态分类系统在使用功能、显示形式、实现方式等方面存在着多样性的特点(见表1),同时也可以据此作出一些常识性判断:

表1 四种动态自动聚类系统之比较

搜索引擎功能 显示形式 聚类机制据以处理对象

AlltheWeb 二次检索 单级 结合分类表

依据部分结果

GuideBeam 检索优化 系统、多级

语义分析、符号技术、 系统处理

Teamo 检索优化 单级 结合网络社区 依据整体状况

Vivisimo 二次检索 多极 人工智能、数学

前200-500个

按照其使用功能,上述系统包括作为检索辅助优化工具、二次检索优化工具、独立索引等类型。其中,直接性以二次检索工具为最好,独立索引工具最弱,后者只适合用于进行深度研究的系统检索。按照其显示形式,上述系统包括等级显示(如Vivisimo)、系统显示(如GuideBeam)、单级显示(如Teamo、Alltheweb)等三类。比较而言,GuideBeam显示系统可以充分、多层次地提供优化检索词,但直接性比较弱;Teamo等形式的相关词数量不够稳定,有时提供的相关词数量略嫌不足;而类似Vivisimo的等级显示数量适中,相关度好,比较适用。

按照其实现机制,上述系统一般都是采用动态处理的方式,在检索反馈的基础上,依据词汇,同时分别结合多种技术进行的,包括结合语义、智能算法进行的聚类处理;同时结合链接关系,利用网络社区进行的聚类处理,结合符号技术进行处理等;此外,AlltheWeb结合网络主题指南进行分类处理,Scirus在结合规范词表的基础上进行处理等。总体而言,形式多样,综合性程度较高,传统知识组织、词汇控制的方法仍然有比较大的使用空间。

按照其处理分析对象包括的数量规模而言,多数系统将动态聚类的对象限制在有限数量的范围之内,如Vivisimo只选择其中的前200-500项作为聚类依据,scirus规定以前100个资源作为动态处理的依据等,这是因为,这一数量基本上已经可以包括多数供查询优化的词汇,同时又可以降低处理难度、保证检索速度以及提高处理质量。而Teamo则采用了不同的技术路线,通过检索词与相关网络社区的联系限定处理的范围,实现查询优化的最佳化。

根据上面的分析,动态聚类系统除了要合理确定其聚类机制外,从前面介绍的几个系统的情况看,网络工具建立动态聚类系统时可以考虑采用的一些基本做法可以归纳如下:

①主要作为检索的辅助系统,只供在检索的同时提供辅助帮助,而不是作为一种独立使用的索引;

②适当的等级显示,但等级不宜过多,以增加系统的直接性;

③检索优化词的数量适度,不宜过少,如,AlltheWeb、Teoma有时供优化使用的检索词数量过少;

④在是用作二次检索工具还是作为一般检索优化形式这一问题上,应当说,二次检索是一种充分开发检索返回结果的理想形式;而类似Teoma等则主要是用来改进检索式,以便进行新的检索的,应根据系统的需要恰当选定;

⑤同时结合使用其他优化检索形式,如各种静态形式,以及其他的动态形式,如“similar to”;

⑥重视对于已有自动聚类方法的学习和汲取,根据条件和可能,尽量在集中各种方法优点的基础上确定处理的方案。

五 结语

综上所述,查询优化是网络环境下改进检索系统的重要手段之一,动态分类则是其中机动性较强且受到广泛重视的形式。一个具体的检索系统对于检索优化方式的采用,应在综合考虑多个因素的基础上,选择相应的形式结合进行,并应注意新技术方法的应用,包括其应用方式的改进,这一点,动态自动聚类技术的发展十分典型。

动态自动聚类技术来源于文献自动聚类,是上个世纪70年代自动标引研究中发展起来的一种分类技术。这种技术不需要预先编制词表,直接在文献词汇分析的基础上依据一定的算法聚类,但在处理数量比较大的资源集合时,在类目体系整体构建、类目确定以及分类的准确性等方面都存在不少问题,因此,作为一种整体资源集合的组织揭示技术并不理想。动态自动聚类系统通过对检索结果集的动态处理,巧妙地将自动聚类限制在这一方法适合处理的范围以内,取得了较好的效果,是自动分类技术的一种成功应用。通过自动分类技术与检索的结合,发展了分类法使用的一种新的形式,这种形式增强了分类法的灵活性,扩大了分类法的使用范围,使它可以在任何领域中实时、动态、全方位地分类,同时改进了分类法对于海量检索对象的适应能力(在某种程度上,建立以海量文献为对象的庞大的整体性分类体系是不可能的,也是不必要的),应该受到我们的重视。目前,我们也应根据网络环境的特点和使用需要,逐步探索和建立以中文资源为对象的适合在海量检索环境中使用的动态自动分类系统。

标签:;  ;  ;  ;  ;  ;  

查询优化与动态自动聚类系统_聚类论文
下载Doc文档

猜你喜欢