搜索引擎的发展阶段及其热点发现研究_搜索引擎论文

搜索引擎发展阶段研究及热点发现,本文主要内容关键词为:热点论文,发展阶段论文,搜索引擎论文,发现论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着互联网的普及和网上信息的爆炸式的增长,搜索引擎越来越引起人们的重视。如今,搜索引擎已成为仅次于门户的互联网第二大核心技术。在短短十年的时间内,搜索引擎迅猛地发展起来。特别是随着信息检索、数据挖掘、自然语言处理等多领域的理论和技术的发展,搜索引擎技术更是得到了很大程度的发展和应用。最近几年,搜索引擎已成为一个非常热门的话题。

对于搜索引擎发展的几个阶段、各个阶段在年代上的划分以及各阶段的主要特点,并没有一个统一的说法。大部分人认为,第一代搜索引擎以雅虎为标志,主要依靠人工分拣信息。用分类目录搜索信息;第二代以Google为代表,依靠机器抓取、分析进行网页搜索[1]。对于第三代和第四代搜索引擎,至今还没有明确的划分标准。也有人认为第三代搜索引擎是第一代与第二代搜索引擎的结合[1]。至于第四代搜索引擎,则更是说法不一。

从文献计量的角度来看,科技论文在一定意义上可以反映出学科发展的程度以及研究水平,而各个阶段文献的内容以及数量的变化,能从侧面反映出学科发展的变化和趋势。基于此,本文通过对搜索引擎论文方面的分析来研究其发展历程。

目前国内对于有序聚类方法的应用研究主要集中在地质学、气象学、经济学等领域,很少有人将此方法引入文献计量学领域。本文选择搜索引擎的发展作为研究对象,利用有序聚类方法对搜索引擎的发展历程按时间进行分段,并在此基础上对各阶段的特点进行分析和总结,通过词频统计发现搜索引擎技术和检索任务方面的热点,以期更为科学、更为全面地研究搜索引擎的发展现状和趋势。

本文首先介绍有序聚类、特征选取等相关概念,然后介绍有序聚类实验以及对有序聚类实验结果及词频统计数据进行分析。最后总结本文所做的工作以及不足之处。

2 相关概念

2.1 有序聚类

有序聚类是聚类的一种,是一种对有序样品进行聚类分析的方法。

本文便是期望利用有序聚类的这种特殊性,对搜索引擎的发展过程更为客观地按时间进行分段,以便为后续分析提供帮助。

2.2 特征选取

根据词汇在文本中的重要程度给其赋予一定的权重,可以提取一定数目的权重较大的词汇作为文本的特征表示。

计算文本特征词的权重,按权重由大到小筛选一定数目的特征词,作为一篇文章的特征表示。

3 实验与分析

3.1 整体流程

(1)对下载的语料进行预处理,然后对其进行分词,选取文本特征词以及建立向量空间模型;

(2)进行有序聚类实验,得到最小损失函数曲线图,确定搜索引擎的整个发展历程分为几个阶段以及各个阶段的时间划分;

(3)对搜索引擎发展的各个阶段及其热点词进行分析和总结;

(4)通过词频统计发现搜索引擎技术和检索任务方面的热点,并对其发展状况和发展趋势进行分析。

3.2 前期语料处理

本研究的语料来源于《中国期刊全文数据库》。首先从全文期刊中下载摘要中有检索词“搜索引擎”的所有论文,数量为3973篇,时间从1996年2月到2006年12月。其中下载下来的论文只包括题目、作者、中文关键词、中文摘要、期刊名、年、期刊号等。这些信息包括论文最主要的研究内容,足以概括地表明论文的主要工作。选择每个月的相关论文为处理单元,把相同年月的文本集合作为一个样本。这样共有124个月。然后对文本进行一系列的自然语言处理,如分词、词性标注、特征项的抽取等。为了提高分词的准确度,我们建立了专门的计算机术语词典。该词典来源于大连理工大学信息检索研究室,其中收录的词语主要来源于《中国期刊全文数据库》所下载语料的主题词和《中国分类主题词表》。此外,根据词频和权重筛选出100个特征词。然后建立向量空间模型。

3.3 有序聚类实验

对124个按时间排序的有序样本进行聚类。其中1996年2月的论文为第1个样本,2006年12月的论文是第124个样本。实验中得到一系列最优k分割,以及每个最优分割的分割点和其最小目标函数的极小值。选择最佳分类时,为了保证类别数不是太多同时最小目标函数的极小值尽量小,这就需要二者之间达到均衡。以极小值为纵坐标,最优k分割值作为横坐标,得到最小损失函数曲线图。确定分成几类时,一方面根据图中拐点来确定,另一方面还需要结合专业知识和经验做出合理的判断和选择。

结合图1拐点的位置,可以把124个样本空间分成3类或者4类。表1是分成3类或4类的相关数据,其中分割点代表每个有序文本的编号。

表1 最优分割表

从上表可以看出,分成4类时第29个单样本为一类。由实验数据得知,第29个样本是1999年1月,也就是说单独一个月成为一类。由于有的月份只有少量的搜索引擎论文,甚至可能出现没有相关论文发表的情况,导致聚类结果中出现这种单一月份的类。对于这种情况,我们把它看作过渡类,并把它归到相邻的后一个类中。因而我们最终确定分成3类。这样,124个有序样本分成3类的聚类结果为:

{199602,199604,199605,…,199812}

{199901,199902,199903,…,200107}

{200108,200109,200110,…,200612}

前28个样本空间为一类,对应时间为1996年2月至1998年12月,此为搜索引擎发展的第一个阶段。从第29个样本到第59个样本的31个样本空间为一类,对应时间为1999年1月至2001年7月,此为搜索引擎发展的第二个阶段。最后65个样本空间为一类,对应时间为2001年8月至2006年12月,这是搜索引擎发展过程中的第三个阶段。

3.4 搜索引擎发展阶段分析

本实验中,由于全文数据库中几乎没有1996年之前的有关搜索引擎的论文,本文主要讨论1996年及其以后的搜索引擎发展情况。我们也可把1991~1995年的搜索引擎发展单独作为一个阶段,这里不作详细讨论。以上实验得出,1999年和2001年把搜索引擎的发展分割成了3个阶段。

第一个阶段里研究搜索引擎的期刊论文相对较少,大部分搜索引擎技术处于萌芽阶段。此时各种搜索引擎概念相继出现,如目录式搜索引擎、全文搜索引擎、元搜索引擎等。这一阶段,词频相对较高的关键词是全文检索、智能检索、多媒体、图像搜索、语义网络、分类目录、分类主题等。这个时期分类搜索是网络搜索的主流。

图1 最小损失函数曲线图

搜索引擎在第二个阶段里开始迅速发展。最负盛名的搜索引擎当数Google,它在1999年以不可抵挡的势头走向世界。Google的出现带动了新技术PageRank和锚文本技术的发展。此阶段的热点词语有关键词检索、倒排索引、全文索引、自动摘要、链接分析等。这段时期链接分析技术、PageRank算法以及Hit算法等如火如荼地展开。人们基本认为Web信息检索开始进入了新一代搜索引擎阶段[4]。

第三个阶段里搜索引擎的研究变得非常火热,搜索引擎越来越向智能化、个性化、专业化的方向发展,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品。通过对文本分类、聚类、用户行为分析、分布式、相关反馈、智能代理、查询扩展等高频词的分析,我们可以看出,人工智能、数据库、数据挖掘、自然语言理解等领域的研究有力地促进了搜索引擎的发展。

搜索引擎技术现在已成为计算机产业界和学术界争相研究和开发的对象。通过对搜索引擎技术和检索任务方面的词语进行统计和分析,一方面可以反映出学术界对搜索引擎的关注程度,另一方面也能大致分析出搜索引擎的发展现状以及发展趋势。本文下面部分将对技术和检索任务方面的词语进行词频统计,以此发现热点问题。

3.5 搜索引擎热点技术分析

本文统计的词数共19713个,从中挑选出词频最高且属于搜索引擎技术或者检索任务方面的前35个词,如表2所示。在词频统计时,我们注意到很多相似概念的词语以及语义相关的词都会以不同的形式出现,因此我们提出以一个概念来代表一组词语,如智能检索、智能搜索、智能信息检索等都归为一个概念。词频统计结果表明,图像检索、基于内容检索、聚类、分布式系统、视频检索、智能代理技术、对等网络等概念排在最前面。其中多媒体检索中尤以图像检索频次最高,视频检索次之。聚类概念不但包括文本聚类,还包括图像聚类和视频聚类等。

表2 词频统计表

续表2

根据以上数据,为了更为直观地发现热点词语,我们构造了如下公式:

从以上公式可看出,离目前越近的词频所增加权重的幅度将越大,其变换后的总频次相对于原来词频所增长的幅度越大则说明越为热点词。其中CurrentYear取2007年,freq[,i]是此年总的词频数。通过计算发现,热点率最高的是对等网络、搜索引擎优化、PageRank、聚类、跨语言检索、分布式系统、个性化信息服务等词。

从表2可知,对等网络(P2P)在最近三年内频次增加幅度很大,可见对等网络不但是当前互联网应用的热点在搜索引擎方面的应用也备受关注。基于P2P的搜索引擎是一种开放理念下的搜索引擎,它应用先进的对等搜索理念,搜索的是互联网上所有开放的信息,其自由沟通和深度挖掘的特点正成为新一代搜索引擎的焦点[5]。

搜索引擎优化(Search Engine Optimization,SEO)是近几年开始火热起来的,它是为使网站达到良好的网络营销效果而进行的提高网站搜索排名的优化工作。针对搜索引擎进行网站优化将会给企业以及各种网站带来巨大收益。搜索引擎优化技术的逐渐成熟将会形成一股促进搜索技术完善的新力量。

数据挖掘技术中的聚类和文本分类,以及自然语言处理中的分词和语义分析,出现的频率也很高。在搜索引擎的具体应用中,文本聚类与文本分类相结合,对查询结果集进行分类,可以缩小查询范围,大大减少用户浏览查询结果的数量[6]。

跨语言信息检索的兴起与TREC(Text Retrieval Conference)是分不开的,这一研究领域的关键点是查询翻译技术和自然语言处理技术。随着用户需求的提高,人们已不能满足仅在同一个语种中进行检索。跨语言的信息检索(Cross Language Information Retrieval,CLIR)将会受到人们越来越多的关注[7]。

另外,随着互联网上信息的飞速增长,搜索引擎系统规模达到一定程度后,集中式已不能满足实际需要,分布式系统将成为海量数据处理的必然趋势,以此来提高检索的速度和性能。

而通过个性化信息服务、智能代理技术、用户行为分析(用户兴趣模型)、信息过滤等热点词,我们可以看出搜索引擎的一大发展趋势,那就是更为专业化,更为智能化,更为个性化。搜索引擎利用智能代理技术对用户的查询兴趣、意图进行推理,自动进行信息搜集过滤,自动地将用户感兴趣的、对用户有用的信息提交给用户。数据挖掘技术对用户的数据进行挖掘,从中获取知识,以此深入挖掘用户的兴趣,使得用户的搜索结果更加个性化。

另外,从表2可以看出,多媒体检索任务从一开始就被提出来,成为研究热点,特别是基于图像的检索。如何进行有效的相关反馈是搜索引擎又一关键的技术问题。基于内容的图像检索的提出,使得相关反馈技术有了进一步的发展,并成为图像检索中一个相当重要的环节和热点话题。最近几年,人们的注意力逐渐扩展到视频检索、音频检索等领域,多媒体检索开始进入了一个更为繁荣的阶段。

我们发现,潜在语义分析(Latent Semantic Analysis,LSA)在2004~2006年出现的频率相对于2000~2003年来说成倍增长。基于LSA思想的文本信息检索,能够有效地解决基于关键词检索中遇到的同义词和多义词问题,其在搜索引擎的文本分类和查询扩展等方面已经有一定的研究和应用。相信潜在语义分析必将成为今后信息检索的一个重要研究方向[8]。

神经网络技术在搜索引擎中一直有所研究,尤其是最近两年研究得比较多。人工神经网络(Artificial Neural Network,ANN)模仿大脑神经网络的结构和功能,具有很强的自学习功能和自适应能力。神经网络中的自组织特征映射网络(SOM网)、BP算法等,对搜索引擎的聚类、页面的自动分类都有比较好的性能。

对等网络、分布式系统、个性化信息服务、跨语言信息检索、搜索引擎优化等技术和检索任务的兴起反映了当前搜索引擎的部分研究热点。统计过程中还发现,在各种搜索引擎中,智能搜索引擎,元搜索引擎以及专业搜索引擎出现频率最高[9],其中专业搜索引擎中尤以医学搜索引擎频次最高。

4 总结

本文利用有序聚类对搜索引擎的发展历程进行了分段,同时通过词频统计对搜索引擎的热点技术以及检索任务进行了分析。实验表明,有序聚类作为一种有序样品的分类方法,在搜索引擎发展分段的分析中是有效的。由此可以推测把有序聚类应用于学科的分段也将是合理的、有效的。本文实验的预处理过程中,分词程序的不够精确以及词频统计时同一概念表达方式的多样性,都是影响实验结果的因素。

另外,在对学科发展进行分析和推测时,应该考虑到论文的发表时间会稍微滞后于学科的发展,这使得实验结果与实际情况会有一定的偏差。

收稿日期:2007年6月5日

标签:;  ;  ;  

搜索引擎的发展阶段及其热点发现研究_搜索引擎论文
下载Doc文档

猜你喜欢