试论搜索引擎的性能优化途径,本文主要内容关键词为:试论论文,途径论文,性能论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
众所周知,因特网己成为最大的全球性信息网络,它的崛起使信息服务业面临着一个新的挑战,面对浩如烟海的、数字化的网络信息资源,用户迫切需要新的检索技术。在众多己开发的信息查询工具中,搜索引擎后来居上,显示出无与伦比的技术优越性和实用性。从1994年以来己有数百个搜索引擎投入运行,发展势头强劲,并有发展成为网络标准检索工具的趋势。
1 搜索引擎的工作原理
搜索引擎的工作原理可以阐述为:计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每篇文章中出现的频率和每一个检索词在每篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序结果。简单地讲,就是为网页或网站建立一个索引表,然后根据用户的检索词,将含有特定语词的网页或网站列出来。
在具体应用中,各搜索引擎的工作原理不尽相同,主要分为两类:一类搜索引擎采用目录的工作方式,主要是提供基于网站目录或特定网站的搜索服务。使用这种方式的搜索引擎对网站进行分类,用户可以按照分类目录互助组查找所需网站,当用户按照某一关键词查询时,搜索引擎实际上并不是查找特定站点的内容,而是查找搜索引擎数据库中的网站的描述。通过这种搜索引擎查找网站十分方便,比较典型的如雅虎。另一类搜索引擎用全文检索方式,这种工作方式源于传统的全文检索,计算机程序根据检索词在每篇文章中出现的频率,对包含这些检索词的文章进行排序,最后按排序输出结果。使用这种工作方式的搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”系统或“机器人”,即能够从因特网上自动收集网页内容提交给索引和检索系统处理,这就形成了整个搜索引擎系统。这类搜索引擎主要代表是AltaVista。
目前国内中文搜索引擎大都采用全文检索方式进行网页搜索,有些(如新浪)同时还提供目录搜索。
2 从搜索引擎的基本指标看其存在的不足
2.1 衡量搜索引擎的基本指标
经过几年的发展,搜索引擎的检索从最初的字符串程序已演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件,衡量搜索引擎的基本指标也逐渐形成规范,主要有以下几个方面:
●查全率:查全率是系统在进行某一检索时,检索出的相关资料量与系统库中相关资料总量的比率。
●查准率:查准率是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率,即搜索得到的信息与用户所要求的信息相关性的程度。查准率直接影响到搜索的速度和费用。
●响应时间:这是提高工作准备效率的保障,指的是从提交检索命令到查出资料结果所需的时间。最基本的检索速度是应该达到“千万汉字,秒级响应”。
●收录范围:指搜索引擎所查找的范围。造成搜索引擎覆盖面原因很多,如网络带宽、计算能力、磁盘容量等。搜索引擎收录范围的大小是衡量其功能的一个重要指标。
●死链接:普通搜索引擎总有些搜索结果是无法打开链接的,少到1%-2%,多到8%-9%,这也是常被用作评测条件之一。
●用户负担:指用户在检索过程中付出精力的总和,任何妨碍和延迟用户达到最终检索结果的形式都属于用户负担的范畴。包括搜索界面的简洁,搜索结果描述,搜索结果描述显示。
除此之外还有:是否支持本目录下检索,索引数据库更新时间长短,对高级搜索的支持能力强弱等。
2.2 不足之处
分析以上6个方面,可以看出有些指标是互相联系的,例如,收录范围影响着搜索引擎的检全率和响应时间:搜索引擎的检准率与死链接与用户负担密切相关。从现实情况看,搜索引擎的收录范围不可能达到100%,即覆盖到全部网络信息资源。劳伦斯(S.Lawrence)和贾尔斯(G.L.Giles)曾对AltaVista、Excite、HotBot、InfoSeek、Lycos、EuroSeek、Google、Microsoft、Snap、Yahoo等搜索引擎收集的大量数据,利用统计方法进行比较、分析和评价。研究结果宣称,1997年公众搜索引擎包含了3.2亿个网页,最大的搜索引擎收录范围估计为占网页的1/3。设想一下,假如用户能够搜索到因特网上的全部信息资源,检索结果的数据量在通常情况下是很大的,可能有成千上万条,所花费的成本较大不说,用户也很难逐一查阅,因此搜索引擎也没必要把收录范围扩大到全部网页。也正是因特网信息在数量上激增的原因,搜索引擎查全率的概念正在逐渐弱化。另外两个指标,响应时间和死链接问题,得到了比较好的解决。著名的搜索引擎Google使用了网页快照功能解决死链接问题,就算搜索结果中的那个网站己关闭,用户还是可以看到Google自己储存的网页;Google的响应时间笔者也作了调查,比如关键词为“图书馆”,查询结果有4560000项,共用时0.18秒,这个检索速度是非常快的。
那么,现在搜索引擎的突出问题是什么呢?笔者认为主要是查准率及用户负担问题,这表现在:
●用户在输入关键词之后,可能发现有成千上万条信息,而查找自己需要的信息却相当困难。
●错误组配时有发生,导致毫不相关的信息也被搜索到。
●用户易“迷路”:当用户检索到一个网络地址作为入口后,顺着该链接一步步浏览,此过程中不断出现的新主题会分散用户的注意力,甚至完全忘记原来的检索目的。
●以词频来确定网页主题内容所导致的问题。采用全文检索的搜索引擎一般采用自动标引方法,根据词频来确定词语的重要性。它的程序默认的规则是:一个词在文件中出现的频率越高,越能代表文件的主题。这个规则并不总是正确,而且所标引的索引词不一定是大家所公认的某一概念或主题的标准描述方式,这种标引属于字面标引,因而质量不高,会影响到搜索引擎的使用效果。
3 优化搜索引擎性能的几条途径
从总体上说,优化搜索引擎的检索性能,一是优化搜索引擎搜索技术,对其关键性的检索思想与检索手段进一步完善;二是优化检索结果的处理技术,即检索结果的后处理,以改善搜索引擎的检索服务质量。
3.1 搜索引擎搜索技术的优化
3.1.1 利用分类法和主题法改善搜索引擎的性能
分类法采用划分范畴的树状结构组织与揭示信息,提供按学科专业或范畴领域检索信息资源的途径,具有很好的稳定性与系统性。分类法的聚类功能及其代码标识为非文献信息资源的检索提供了一条可行的途径。一般大型的分类法不断更新其版本,基本上能满足动态的网络信息分类,有的甚至有机读版本(如DDC、UDC、LCC和中图法),可直接用于网络信息的分类浏览。这使得分类检索语言最有可能成为国际通用的信息检索语言,成为新世纪网络信息资源揭示与组织的重要工具。1995年首次出现基于DDC的网络分类目录,后来相继有一些站点以DDC作为其分类目录体系。在这些分类目录中,有些目录在各层次的类目前均标记标准的十进分类号,而大多数没有分类号,只是利用DDC体系建立浏览结构。这方面比较成功的有加拿大信息主题索引“Ganadian Information by Subject”,英国WalesAbdrystwyth大学Thomas Parry图书馆的“PLCK”。
主题法采用主题词(包括受控语言和自然语言)揭示和描述信息主题内容,按照主题字顺组织和揭示信息,具有直接、直观和易用性的特点,便于检索关于某一事物的各个方面的文献。在网络信息中,主题法的自然语言得到了最为广泛的应用。针对自然语言检索效率低下的缺点,人们建立了后控制词表,后控制词表根据用户输入的检索词找出标识词,然后对检索词的所有同义词匹配查找,检出符合条件的记录。曾被誉为搜索结果最快、搜索结果最接近的搜索引擎AltaVista就运用了这一方法。
单独使用的分类法和主题法都有各自的优缺点。它们优缺点的互补性,很自然地使人产生分类主题一体化的联想。分类主题一体化能较好地克服分类检索与主题检索各自的缺点,发挥各自的优势,使检索性能更加完善。基于此,有人提出了概念检索的方法:采用二个步骤构建用于检索的知识库;首先用分类树的方法建立概念之间的关系,分三个层次组织,第一层次用来描述最具概括性的概念,第二、三层次用来对第一层的概念进行细化;第二步是在分类树的基础上添加横向联系,把独立的各个树联系起来,形成一个连通的概念空间语义网络。实验表明,概念检索在智能方面更具优势,突破了关键词检索局限于形式匹配的缺陷,实现了对用户检索请求的合理化,不仅给出检索结果,还给出了进一步检索的建议,极大地提高了检准率。
3.1.2 提高网页处理质量
要提高网页处理质量,以有利于检索效果的改善,可作如下努力:
●加深标引深度。网页是一种多层次的超文本结构,犹如一部著作的整体和章、节、小节。标引深度是指标引到网页的哪一个层次。有的搜索引擎只标引主页(第一层次),有的标引到第二、第三甚至更深层次。标引深度另一方面是指对网页的各种项目或内容进行部分标引还是全文标引。例如,有的搜索引擎只标引HTML文件的文件名或文件标题,有的标引最初的几段,还有原是分析HTML文件并标引到每个词。一般而言,标引项目或内容愈多,标引深度愈大,检索效果就越好。
●加强网页描述格式的标准化。运用元数据描述网页,使网络信息资源的创编者在信息资源的生产阶段就可同时完成其特征的描述,并使自动索引软件随时发现和搜索到这些记录。
●注重web信息的唯一性处理。用户在使用搜索引擎时,在搜索结果中通常会发现有重复网页或网站的出现,这样的重复是没有必要的,只会加重用户的负担。要解决这个问题,必须做好网页信息的唯一性处理。一方面在建设搜索引擎数据库时,对搜索引擎的搜索子系统取回的信息进行识别,排除搜索引擎数据库中已有的信息;另一方面在创建web站点时,就要求其具有唯一的标识,如对原创web信息给予其原创标识、标题标识、作者标识、所在站点和位置的标识、信息类别标识、首次刊登时间标识等,由所有这些标识或这些标识的部分形成一个web信息的唯一标识。这样做不仅能解决web信息唯一标识问题,而且也是解决web信息版权问题的一种方法。
●使用一些技巧,使搜索程序容易搜索到该网页。具体方法有:将重要的需要标引的内容放在靠近首页的页面上:利用HTML语的Meta/Keywords和Meta/Description标签,直接输入反映页面主题内容的关键词或叙词供机器人直接采用:对于框架技术和Javascript技术在使用时进行适当的技术处理。
3.1.3 词频与词语出现位置两个因素相结合,弥补单独运用词频带来的缺陷
根据关键词在网页中的位置,如在<Title></Title>、<Body></Body>等,分别给予不同的权重;如果关键词有两个或两个以上,可以考察它们的绝对位置。有调查表明,如果两个词出现的次数多,并且距离相近,它们的关系就越密切。可以利用词语的出现位置、词频和词语之间距离的远近,确定一个经验公式,作为衡量一篇文献价值(即主题相关度)的评估依据。
3.2 搜索引擎检索结果处理技术的优化
3.2.1 排序算法的优化
基于web结构挖掘与网页链接流行度的排序算法,对比早期基于web文档内容的排序方法,显示出了明显的优越性。通过优化结果排序算法并树立其权威性,可以显著缓解用户对检索结果筛选的重负。在具体实践中,搜索引擎Google所使用的PageRank技术就是基于网页链接结构的挖掘来实现对其检索结果的排序操作的。PageRank的基本思想可概括为:一个页面被多次引用,则这个页面很可能是重要的:一个页面尽管没有多次被引用,但被某一个重要页面引用,则这个页面很可能是重要的:一个页面的重要性被均分并被传递到它所引用的页面。Google的成功,其PageRank技术是制胜的法宝之一。
3.2.2 相关性反馈技术的使用
相关性反馈技术是指在信息检索中,改进搜索结果的查询修改技术。在上个世纪60年代,从Maron和Kuhns开始研究,经过将近40年的发展,相关性反馈技术取得了重要成果。常用的相关性反馈技术包括特征项重新加权和查询扩展两方面。特征项重新加权是根据回答查询的相关文档和无关文档特征的分布重新计算查询和文档的特征权重,在相关文档中查询的特征在后来的搜索中应增加权重,在无关文档中的特征就减少其权重。查询修改是根据原始查询构造一个新的查询,用新的查询来进行相关性反馈,在向量空间模型中利用查询特征的概率分布,可以构造查询特征权重和文档特征权重的计算公式:根据原始查询特征向量、相关文档的特征向量、相关文档数和不相关文档数来构造修改公式。实践证明,查准率的提高能通过相关性反馈技术来实现。
3.2.3 可视化输出的运用
搜索引擎返回给用户的检索结果,虽然经过了相关度排序,但仍有不相关的文档仍大量存在(约为75%),给用户带来了沉重的负担。研究人员因此提出检索结果联机聚类、多维文档视图(View)等可视化技术,可望改变这一局面。目前用于联机状态的实时聚类算法PCSS(Partial Clustery and Classification System)已经产生,其主要思想是先对部分文档进行聚类,根据聚类结果形成分类模型,然后对其文档进行分类。初步试验结果表明,PCSS能够快速、准确地根据文档主题内容组织web文档,使用户在更高的主题层次上查看搜索引擎返回的结果。搜索引擎Northern Light已提供对检索结果进行动态分类的功能,其专利技术Custom Search Folder使用户能亲身感受到对检索结果可视化处理所带来的便利与轻松,它也成为了搜索引擎的后起之秀。
标签:搜索引擎论文; 搜索引擎收录论文; 搜索引擎基本工作原理论文; 性能优化论文;