传统搜索引擎与语义搜索引擎服务比较研究,本文主要内容关键词为:搜索引擎论文,语义论文,传统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:TP393.09,G354.4 文献标识码:A 文章编号:1007-7634(2010)02-0265-06
1 传统搜索引擎与语义搜索引擎服务对象与内容比较
信息检索系统的一个重要组成部分就是服务对象和服务内容,这两个要素在很大程度上决定了信息检索系统的服务策略和服务模式。对于搜索引擎而言同样如此,信息服务对象是那些对网络信息需求者、需要信息导航者和信息交易需求者。信息服务内容是指信息服务者在信息服务活动中为用户提供的特定的服务和产品。为用户提供的内容就是搜索结果。两种搜索引擎都可以提供与用户提交检索式相关的网上检索结果,但是它们存在很大区别。
1.1 传统搜索引擎服务对象与内容
搜索引擎的主要作用是帮助用户查询互联网上的各类信息,其用户就是互联网上的有信息查询需求的网络用户。人们上网搜索的需求大致可以分成三类:对信息的需求(例如:找新闻、找评论、找帖子等)、对导航的需求(找某个特定网站)和对交易的需求(例如:下载软件、在线购物、订机票等)[1]。
1.1.1 传统搜索引擎服务对象
90年代初,服务对象只在大学和科研机构里面,很少有用户在用搜索引擎,当时服务对象比较单一。到了1994年雅虎目录的发布,代表了面向普通大众的搜索引擎的诞生,这时搜索引擎的服务对象开始逐渐增多。
网络目录主要用户群是互联网的初级使用者,他们对万维网的组织和形式不太熟悉,缺乏检索系统使用经验,通过逐级浏览网络目录可以较容易地定位到所需的内容。此时,虽然服务对象检索欲望强烈,但往往搜索结果与检索目标存在很大差异。
时隔不久,综合搜索引擎的出现为万维网用户提供一个崭新的检索入口,它准备了与用户提问相关的各种网络资源,供用户自行筛选。其用户群覆盖范围逐步扩大,其中包括需要导航服务和查找普通信息的一般网民,也包括需要专业信息支持的用户和商务推广人员等。用户范围涉及了所有类型的网络资源使用者。
垂直的搜索引擎,对有明确的可以界定在某一个特定范围内信息需求的用户,并能提供以特定形式加以组织的信息产品,它提供的结果都是与用户需求相关的,用户不用自己再进行分析和判断。应该说,此时的服务对象检索需求与以往相比检索内容直接而广泛。
针对服务对象的不同要求,传统搜索引擎开始把注意力放在对非结构化文档数据、异构数据的统一处理上,对几乎所有的企业及产品都提供主流文档格式的支持。包括常见的电子文档格式:电子图书、电子邮件等文档的处理分析能力,不但提供了多格式数据库文件的统一访问接口,而且还针对不同情况提供了不同层次的安全管理手段,在方便文档检索的同时,提供文档的安全访问。
1.1.2 传统搜索引擎服务内容
由于互联网上的信息迅速增长,网络中涵盖的信息类型和文档格式也越来越多,传统搜索引擎不仅要提供基础的网页搜索服务,也要提供对各种格式的网络文档的搜索服务。
传统搜索引擎的服务内容主要包括以下几个方面:知识类型搜索服务、娱乐类型搜索服务、生活类型搜索服务[2]。
(1)知识类型搜索服务,主要目的是为辅导用户的工作和学习提供搜索服务。
①学术搜索:对学术文章进行搜索。
②图书搜索:搜索图书全文,并发现新书。对电子图书和普通图书信息提供查询服务。
③翻译搜索(词典):可提供多语言翻译查询,以及与其相关的例句和网页。
④百科搜索:从全体网民共同撰写的百科全书中查询所需信息,每个人都可以自由访问并参与撰写和编辑,分享及奉献自己所知的知识。
(2)娱乐类型搜索服务,主要目的是供用户进行娱乐休闲消遣提供搜索服务。
①多媒体文件搜索:包括影视片、音乐、图片等非文字资料的搜索服务。
②博客与公告板搜索:博客搜索又称网志搜索,方便用户从博客文章中查找感兴趣的主题或直接查找某个博主的博客。公告板搜索则提供对公告板系统的主题讨论空间(贴吧)中查询感兴趣的帖子。
(3)生活类型搜索服务。主要目的是为解决用户生活中的常见困难提供搜索服务。
①生活搜索:搜索用户身边的分类生活信息,包括房屋、餐饮、工作、车票等日常信息查询,以及更专业化的地图搜索。
②资讯搜索:阅读、搜索新闻资讯、商业信息、财经新闻、实时股价和动态图表。
③企业商情搜索:提供对企业和商家有关的搜索服务。
从技术角度讲以上网络资源分为网页资源和非网页数字资源。由于网页资源分布范围广且资源丰富,为此传统搜索引擎将网页按照某些特定方式组织起来便于人们查询访问。而包括音频、视频、电子图书、学术文献等的非网页数字资源的高效检索对于传统搜索引擎来说还有一些困难,主要体现在类型区分和组织上。针对用户信息的需求变化,传统搜索引擎在搜索服务内容的不断扩充和更新方面采取多样化的搜索服务来进一步满足人们的需求。
1.2 语义搜索引擎服务对象与内容
由于语义搜索引擎发展还处于各个研究机构独立设计和试验的初级阶段,规模普遍较小,因此其服务对象和服务内容也受到一定的限制。虽然它还有些不成熟,或说存在某种缺陷,但是它强大的生命力和广阔的发展前景已被越来越多的人所重视。
1.2.1 语义搜索引擎服务对象
由于语义搜索引擎的发展刚刚起步,应用范围略显狭窄,其服务对象也体现出很强的指向性,即只针对语义网信息的搜索者。在现阶段,这一部分用户主要包括从事研究的知识密集型领域的搜索用户,例如医学、法律、金融、科学和文学等。这些包括知识管理人员、语义网络研究人员在内的科研人员、大型企业内部人员以及语义网文档搜索者,他们普遍拥有较高学历。少数几种面向万维网内容的语义搜索引擎则只提供某方面的内容搜索服务,除研究人员和此类内容爱好者外,只有一部分其他用户出于某种原因而进行一些尝试。
语义搜索引擎没有广告客户,这与其没有真正进入工业化领域有关。
1.2.2 语义搜索引擎服务内容
语义搜索引擎从人们头脑中的概念到在搜索领域占据一席之地经历不少坎坷。语义网出现后,语义搜索迎来了高速发展的机遇期。虽然语义搜索服务内容主要集中在传统搜索引擎不擅长的语义网搜索方面。不过语义搜索引擎也试图拓展服务范围,提供比传统搜索引擎更全面的服务。语义搜索引擎的服务内容主要包括以下几个方面:知识型搜索服务、生活型搜索服务、语义工具服务等。
(1)知识型搜索方面,主要针对语义网知识信息资源。其中包括:
①词典型搜索服务。一种形式是如同使用电子词典一样,通过关键词直接查询与关键词对应的概念。这些概念由语义搜索引擎索引的本体文件中提取。另一种形式则是对在线百科全书的搜索服务,如PowerSet,这一点与传统搜索引擎近似,但语义搜索引擎在信息的组织上远胜于传统搜索引擎。
②语义网文档(SWD)的查询服务。用户可以通过语义搜索引擎查询所需的语义网文档和相关的语义网文档。Falcons为统一资源标识符(URI)定义的语义网对象和内容提供基于关键词的检索方式[3]。Swoogle从互联网上抽取由RDF格式编制的语义网文档(SWDs),并提供搜索语义网本体、语义网例证数据和语义网术语等服务[4]。
③领域知识查询。部分语义搜索引擎提供了针对某个或某几个专业门类的信息检索服务,用户可以选择自己所需相关信息。Cognition以搜索法律、卫生和宗教领域为主[5]。个别语义搜索引擎提供针对特定领域的多媒体语义搜索服务,如Falcon-S对足球图片的搜索服务。不过多媒体语义搜索面临与传统多媒体搜索相似的困境,缺乏有效的语义标注。对多媒体信息的辨别和分类能力仍有待提高[6]。
(2)生活型搜索方面,语义搜索引擎在传统搜索引擎力所不及的诸方面发展迅速。
①社会网络搜索。部分语义搜索引擎提供社会网络搜索功能,这种功能可以实现通过姓名、著作、所在单位等信息中的一条或几条,查询与这些信息有关联的更多信息,如我国的ArnetMiner[7]。
②资讯搜索。目前语义化的网络搜索服务能够更有针对性,更准确地为用户提供新闻资讯。Koru就是这方面的代表。
(3)语义工具服务。这是语义搜索引擎所属的研究机构的一个较为独特的方面,和传统搜索引擎提供的桌面搜索等工具不同,语义搜索引擎提供的语义工具一般不是对语义搜索功能的直接移植,而是对文档的相似性、标注等进行处理用的。这些工具可以为语义搜索引擎的索引对象进行前期数据加工,同时也供科研使用。
理论上讲语义搜索引擎能够提供包括普通网络文档检索在内的所有类型网络文档搜索服务,但是由于语义搜索引擎对网页的索引方式不同,微处理器需要比传统搜索更长的时间才能分析完一个页面,因此很多语义搜索网站只能扫描到外部网站的二级页面,这样将难以满足用户全网络搜索的需求。
2 传统搜索引擎与语义搜索引擎服务策略与模式比较
信息服务策略,指信息服务活动中的服务方式和手段的组合和运用。这两种搜索引擎虽然从表面上看它们在服务方式上有很多共性,可是在具体服务手段上却存在着很大差异。信息服务模式,主要指的是搜索引擎与用户交互的方式,即用户在使用搜索引擎查找信息时对搜索引擎的操作、反馈、再使用的过程模式。通过对服务模式的比较,可以看出不同种类的搜索引擎与用户之间的紧密程度。
搜索服务实现过程中关键性的内容有3项:①对于用户查询要求的理解和建模,涵盖查询扩展和语义关联;②对于搜索对象(包括文档或者实体)的理解和建模;③对于查询请求与搜索对象之间的相关性评估即排序。
2.1 传统搜索引擎服务策略和模式
在网络环境和用户需求的影响下,传统搜索引擎将信息检索技术发扬光大,将其应用于网络信息检索领域,并在网络环境下派生出新的全方位多角度服务策略。除使用网络目录外,搜索引擎用户需要在对搜索结果的浏览中,不断调整自己的提问要求,逐渐找到相对准确地搜索需求表达方式。
2.1.1 传统搜索引擎服务策略
传统搜索引擎在信息服务活动中,主要采取了以下几种服务策略:服务产品推陈出新、服务项目不断集中、特色服务吸引用户、发掘网络商业利润等。
(1)服务产品推陈出新。传统搜索引擎最初只有对站点地址和网页提供搜索和浏览服务的能力,随着网络技术的发展和信息品种数量的飞速增长,传统搜索引擎在网页搜索的基础上推出了多种类型的信息服务。内容涵盖生活、娱乐、学术等多个方面,逐步提供全方位多角度的增值信息服务。不仅从桌面搜索和移动搜索方面拓展业务,甚至是小型免费应用软件的开发等领域也逐步开放了特色服务。如谷歌、雅虎、百度等搜索引擎都在按照各自的计划逐步对用户提供这些服务。
(2)服务项目不断集中。对于搜索引擎而言,网页搜索永远都是它们的中心任务。因此对这个基础服务的功能扩展也是传统搜索引擎赖以发展的重要因素。为此,主流传统搜索引擎采取了联合多种服务功能,实行一站式搜索的整合搜索服务策略,用户可以通过一次搜索获得全方位的信息。
(3)特色服务吸引用户。网络信息搜索最大特征是用户在获得搜索结果之后会迅速转入搜索结果页面。从统计数据可以看出搜索引擎访问次数极高,但是用户停留时间较短。为了充分发掘流量优势,搜索引擎提供了诸如电子邮箱、网络社区等服务,延长用户的停留时间。谷歌等大型传统搜索引擎利用自己的信息优势还提供了信息排行榜类服务,用户可以轻松获得一段时期之内的信息热点和流行趋势。
(4)发掘网络商业利润。传统搜索引擎以提供无偿的网络信息搜索服务为主,即对搜索信息的用户所提供的服务是免费的。这些免费服务巩固了传统搜索引擎的用户群,提升了商业潜力。一些大型商业化搜索引擎对商业用户是特别重视的。搜索引擎的主要利润来自网络广告,即合作伙伴或在其网站上登载相关网站的广告。商业用户是它们的主要广告收入来源。因此搜索引擎对商务用户的服务策略是十分重要的。搜索产业中普遍以搜索广告策略为主,广告客户通过购买关键词使用权在搜索引擎发布广告。谷歌的AdWords、雅虎的搜索竞价和百度竞价排名是最具代表性的。
2.1.2 传统搜索引擎服务模式
网络信息搜索服务模式随着网络信息增长和技术的进步逐渐发生变化。传统搜索引擎经历了10余年发展,服务模式逐渐固定下来。形成了具有鲜明特征的传统搜索引擎服务模式,其中主要包括:常规服务模式、特殊服务模式等。
(1)常规服务模式。传统搜索引擎在提供搜索服务的过程中不断总结经验,这些经验流传下来成为传统搜索引擎普遍尊崇的服务准则,以这些准则为基础形成了常规服务模式。
①简约型服务模式。为了尽可能降低用户操作的难度,传统搜索引擎采用了简单的使用方法和简洁的搜索界面。现在的主流搜索引擎,从谷歌到百度,也包括经典版的中国雅虎搜索,界面是非常相似的。在页面中心位置提供关键词搜索入口,而其他功能和服务则通过页面边缘的超级链接与主页相连。用户在使用此类搜索接口时只需简单地输入关键词即可迅速获得所需检索内容。
②集中型服务模式。集中型服务模式让“一个搜索框、多种类型的搜索结果”成为可能,不再需要用户在搜索之前先决定搜索类型,其搜索框上的产品切换链接不再是必须和搜索框紧密联系在一起的,可以在不同的搜索产品中把其他产品链接的方式统一起来[8]。谷歌正在转向集中型服务模式,试图以“整合搜索(Universal Search)”冲破传统的搜索引擎模式的羁绊,通用搜索利用智能分析和导航系统,把不同的搜索领域的结果有机整合在一个网页内,“整合”是谷歌未来搜索发展的方向[9]。以此帮助用户快速便捷地通过搜索框的导航查询所需信息,同时也可以帮助众多垂直类门户网站真正挖掘网络资源,让那些不熟悉它们的用户快速地找到它们。
③专门型服务模式。微软则采取了另一种服务模式:专门化搜索,把精力专注于购物搜索技术开发,如何快速解决网民所提出的问题,通过专门化搜索技术,将使网民的搜索体验进一步提高[9]。
(2)特殊服务模式。大型传统搜索引擎包揽了绝大部分市场份额,新兴的传统搜索引擎从数据量和服务范围上都难以望其项背。故而这些新的传统搜索引擎在已有的搜索技术基础上,创新搜索服务模式,以其独特的搜索体验吸引用户使用。
①可视型服务模式。传统搜索引擎让用户以图像的方式看到自己正在搜索的内容,就像exalead和Searchme。这种服务模式和普通搜索引擎的“网页快照”作用类似,不同的是可视化搜索服务是把网页截图作为搜索结果的主要组成部分进行重点推荐的。
②分类型服务模式。在用户开始键入关键词时,和查询相关的类别就开始显示出来。选择一个类别,用户就能够看到与本次搜索相关的信息片段。用户可以在点击具体页面链接之前快速预览这些片段选择自己正在搜索的信息。Exalead的高级搜索功能引导用户对搜索请求按“搜索对象(What?)”、“搜索范围(Where?)”和“时间段(When?)”分类,从而提供有针对性的搜索结果。
2.2 语义搜索引擎服务策略和模式
目前语义搜索主要供科研使用,仅有少数语义搜索引擎走出实验室,进入工业领域。因此语义搜索引擎的服务策略和模式也需要在实际应用中不断探索。语义搜索引擎除可应用传统搜索引擎服务策略外,也有其独特的服务方式和方法。
2.2.1 语义搜索引擎服务策略
目前大多数语义搜索引擎只针对单独类别的网络内容提供服务,语义搜索引擎基本上都是提供免费的信息搜索服务。语义搜索引擎虽然向用户提供无偿服务,但为了提高服务质量分别采取以下几种服务策略:依托语义优化服务、逐步扩大服务范围、不断深化服务层次等。
(1)依托语义优化服务。语义搜索引擎通过发掘信息中的语义提供更为精确的搜索服务。在知识搜索方面能够提供比传统搜索引擎更好的搜索结果,甚至能够帮助用户执行整个搜索过程,提供相似结果集供用户精确定位。从服务提供的能动性角度来看,语义搜索引擎的服务方式分为被动型和互动型两种。Swoogle采用了与传统搜索引擎相近的被动式搜索方式;Koru和著名的语义搜索引擎PowerSet则采取了与用户互动的服务方式,即根据用户搜索行为模式来构筑服务的策略体系,并根据用户输入的关键词片断提供针对性提示(如图1)。
图1 在Powerset中查询“Java”一词时所给出的可选型语义提示
(2)逐步扩大服务范围。语义搜索引擎目前的立足点是传统搜索引擎所不擅长的搜索领域,如语义网文档搜索、社会网络搜索、逻辑概念搜索等。而以网页搜索等传统搜索引擎擅长的领域,大型传统搜索引擎通过长期的积累和改进已经做得很好,语义搜索引擎在短时间内尚无法超越。在这种情况下,多数语义搜索引擎将服务方向定位于专业领域搜索。通过领域知识库与推理机结合的语义解析优势,语义搜索引擎迅速在垂直搜索领域占据了一席之地。部分语义搜索引擎开始介入移动搜索行业,一些语义搜索引擎还将移师传统搜索的强势领域,如电子商务搜索和网页搜索,参与搜索引擎的市场竞争。
(3)不断深化服务层次。最初绝大多数语义搜索引擎是对语义网进行简单搜索服务,或对用户搜索请求实现基本的语义化。用户使用语义搜索引擎只能搜索语义网文档或获得和查询要求更为接近的结果。随着语义搜索技术的进步,语义搜索引擎的服务层次逐渐深入搜索生命周期的各个阶段,从信息提取、预处理、索引到搜索,为用户提供深度的语义搜索服务打下了基础。
2.2.2 语义搜索引擎服务模式
语义搜索引擎高速发展的阶段正值传统搜索引擎发展的平台期,虽然语义搜索引擎暂时尚不具备传统搜索引擎的市场竞争力,但是它们却可以很容易地借鉴传统搜索引擎的成功服务模式,用相同或相似的方式提供自己的特色服务。
(1)传统型服务模式。这些来源于传统搜索引擎的服务方式可以称作传统型服务模式。语义搜索引擎所借鉴的服务方式主要是其中的两种:即简约型服务模式和专门型服务模式。
①简约型服务模式。由于用户的检索行为对信息检索系统的服务模式产生巨大的影响,因此如何在尽可能不影响用户检索体验而实现方便快捷的搜索服务,则成为语义搜索引擎的一个重要标准。许多语义搜索引擎就采取了与传统搜索引擎相一致的搜索界面,并允许用户以关键词的方式提交搜索请求,尽可能贴近用户操作习惯。
②专门型服务模式。语义搜索引擎对搜索对象的标引和信息提取等要求高于传统搜索引擎,导致其信息加工时间延长而不利于全面网络搜索。因此语义搜索引擎扬长避短,展开专门领域的垂直搜索。
(2)创新型服务模式。语义提取和运用是语义搜索引擎的独到之处,因此也有很多语义搜索引擎以此为契机,摒弃了传统搜索引擎简化单一的服务模式,以用户的搜索行为和搜索服务特色为基础,推出了创新的搜索服务模式。即精确应答服务模式、刻面搜索服务模式和查询引导型服务模式等。
①精确应答服务模式。除直接搜索语义网文档之外,语义搜索引擎还能够根据某一个查询需求获得相关的本体数据,可以通过输入关键字与某一个分类,某一个语义关联或者实例信息匹配,并将相关的部分本体文件以片断的形式反馈给用户,这种简洁的搜索结果就是用户提出的问题的答案。这类的典型代表包括Swoogle,Falcons,Sindice和Watson。
②刻面搜索服务模式。为了更好地发挥语义搜索对用户搜索过程的指导作用,语义搜索引擎在用户接口方面做出了很大改动,采取了更为复杂但符合用户使用习惯或具有针对性的搜索界面。其中著名的当属刻面搜索(faceted search),这种搜索方式不但可以集成分词过滤或多种搜索条件,而且还可以针对不同的搜索结果类型分开显示[10]。
③查询引导型服务模式。语义搜索引擎在实现查询提问的歧义消除方面拥有独到的优势。在有了更好的语义匹配作保障的情况下,通过引导用户逐步细化查询可以更准确地呈现搜索结果。koru采用了独特的横向三页面模式(如图2所示),按照建立适当查询、浏览文档列表、深入阅读所选文档这一网络用户检索习惯的步骤逐级引导用户[11]。
图2 在Koru中查询“美国航空公司安全(American airlines security)”时的截图
3 结语
搜索引擎作为网络信息检索的主要工具,在用户服务方面的表现是至关重要的。传统搜索引擎和语义搜索引擎的发展阶段不同,立足点不同,对数据处理的方式也不同。最终导致它们在服务对象、服务内容、服务策略、服务模式等方面的差别。传统搜索引擎服务对象和服务内容广泛,用户认可程度高;语义搜索引擎服务对象和服务内容较窄,而指向性强。传统搜索引擎通过长期的搜索实践和总结,制定了符合大多数用户使用习惯的服务策略和服务模式;语义搜索引擎借鉴传统搜索引擎的同时也采取更符合语义搜索的服务策略和服务模式。总体说来,不管是传统搜索引擎还是语义搜索引擎,它们都将依据自身情况和索引对象,不断调整和改善用户服务,使得搜索变得更加轻松自如。
标签:搜索引擎论文; 谷歌搜索引擎论文; 目录搜索引擎论文; 搜索引擎推广论文; 语义分析论文; 用户需求论文; 策略模式论文; 信息发展论文; 语义网论文;