分类搜索引擎的系统构建与应用分析_搜索引擎论文

分类搜索引擎的系统构建与应用分析_搜索引擎论文

分类搜索引擎的体系构建及其使用方法探析,本文主要内容关键词为:探析论文,使用方法论文,体系论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G254文献标识码:A文章编号:1007-7634(2009)04-0567-04

在浩瀚无序的网络世界查找特定信息,无疑需要借助网络资源整序及其查询工具。搜索引擎是打开网络之门的钥匙,是发掘和利用网络资源最有效的工具。资源整序技术和查询方式不同,决定了搜索引擎的不同类型。依据整序和查询的原理与工作方式,我们可以把搜索引擎分为全文搜索引擎和分类搜索引擎两种类型。

分类搜索引擎采用网站登录/收录方式,依据主旨、用户对象及网络资源状况构建分类体系,把收集到的本地的网站页面进行人工编辑,层层类分,形成纵向隶属、横向关联的网站目录数据库。用户依据类目体系及其规则分类检索,逐类浏览,直至获得所需资源。

1 分类搜索引擎的产生和发展

英国软件工程师Martijn Koster第一个提出了人工描述网页并编制网页索引数据库的构想,他于1993年11月30日创建了AliWeb(Archie LikeIn-dexing In TheWeb)。AliWeb数据库由网站管理员提交的网站列表和站内各个网页的简介构成。与“蜘蛛”程序生成的索引(spider index)不同,AliWeb只能查找进入数据库的文件,而不能对文件的具体内容进行检索。由于管理等方面的原因,向AliWeb提交网站列表和网页简介的管理员缺乏热情,而数据库的空乏又使用户逐渐对它失去了兴趣,“无鸡便无蛋,无蛋便无鸡”的结果,使它无疾而终。在AliWeb之前,尚无人涉足人工索引和分类浏览检索,MartijnKoster人工描述网页,建立索引数据库摒弃无用结果的方法,至今被广泛采用,最终诱发了分类导航网站和分类搜索引擎的诞生。

1994年,对分类搜索引擎而言有着划时代的意义,该年的1月,美国得克萨斯大学推出了第一个可供检索的网络分类目录——EINet Galaxy。1995年4月,Galaxy由一个研究项目演变为商业实体;1997年,Galaxy被著名的网络安全公司Cyber Guard收购;1998年9月,Cyber Guar把Galaxy卖给美国健康网(AHN.COM);1999年5月,Fox/News公司介入Galaxy;2000年5月,几经变故的Galaxy,终于成为以galaxy.com而为今人注目的、以分类目录搜索而著名的自主独立的公司。

Yahoo!(www.yahoo.com)是美国斯坦福大学的两名博士生不经意间创造出来的奇迹,它开创了分类目录导航搜索的新时代,1994年2月,大卫·费罗(David Filo)和杨致远(Jerry Yang)把他们平时搜集的与个人兴趣和学习相关的网络资源在校园网上建立了一个网络资源指南。他们花费大量时间编制资源列表,当最终由于列表太长而难以处理时,只得把资源列表分割为若干相关的单元归入若干大类,大类内容过于庞大而不便查找和管理时,又在大类下划分子类,子类下再依次划分更小的类目。这时,支持今天Yahoo!的核心理念诞生了。

Yahoo!作为著名的分类搜索网站,很长一个时期内几乎成了“搜索”的代名词,它的分类体系和搜索模式对互联网的发展产生了巨大而深刻的影响。1998年9月7日,Google问世以前,Yahoo!一直稳坐网络搜索的第一把交椅。这一时期,目录浏览式搜索风光无限,诸如www.About.com,www.Look smart.com等颇具代表性的分类搜索网站应运而生,分类搜索成为当时网络搜索的主流[1]。

1998年2月,搜狐(www.sohu.com)推出了第一个大型中文分类搜索引擎,这是一个土生土长的完全“中国化”的搜索引擎,它的诞生对中文网络搜索有着非凡的意义。

搜狐推出分类搜索引擎,使中国网民拥有了查找中文网络资源的工具。2000年6月,百度正式推出中文搜索引擎。2000年9月,Google提供中文搜索以前,搜狐是唯一能与雅虎中国抗衡的中文分类搜索引擎,占据着中文搜索的半壁江山。由于搜狐的本土优势,它的分类体系、立类原则和类目设置更符合中国网民的检索习惯,也为国内分类搜索网站树立了典范。

1998年6月5日,第一个ODP(Open Directory Project即“开放式分类目录搜索系统”)www.Gnuhoo.com问世,这是分类搜索引擎革命性变革的转折点。

Gnuhoo由美国加州Sun Microsystems公司的计算机程序师Rich Skrenta和Bob Truel创制。1998年11月17日更名为Newhoo的Gnuhoo被网景收购,正式将系统命名为ODP,并将网站改名为Dmoz.org。2004年6月,ODP索引网页达到440万,分为590,000类,志愿者编辑已多达63,000人。Gnuhoo创立之初仅收录英文网站,2003年7月已有67个语种,英文网站占75%,NetscapeOpen Directory,Lycos,Hotbot,Dogpile,Thunderstone等20多家搜索引擎和分类指南网站都曾经或正在使用ODP的数据库。

2000年9月14日,网易公司在国内率先推出了ODP(http://dir.so.163.com),在功能齐全的分布式编辑和管理系统的支持下,网易已拥有近万名义务目录管理员,创建了一个拥有多达一万个类目、超过25万条活跃站点信息,日增加新站点信息500——1000条,日访问量超过500万次的专业权威的目录查询体系。2004年7月2日,网易与Google达成战略合作协议,将在其ODP系统中采用Google的专有搜索技术,网易ODP与Google的强强联合,将为网民提供最完美的搜索体验[2]。

2 分类体系的构建及其特点

由于分类搜索引擎的索引内容与范围以及用户群体不同,在类目划分、类目设置、类目序列及其检索方式上,亦有着各自的差异,在分类体系的构建上既各有特色,又具有本质的共性特征。

2.1 类目划分强调易用性

类目划分是构建分类体系的基础,划分的原则和标准决定着分类体系的性质和功能。体系分类法坚持划分的学科系统性原则,在同一个等级上采用唯一的标准划分类目,形成上下位类层层隶属、同位类相互排斥的能够揭示事物发展规律及其内在联系的严密的体系结构。而网络分类体系类目的划分,首先考虑的是尽可能地减少点击次数和直观揭示,为突出类目体系的通俗性和易用性,不惜以牺牲系统性为代价,在同一划分过程中采用多个不同的划分标准,造成类系内涵交叉,类列外延重叠。以此形成的体系结构,尽管比较“时尚”,也确实方便易用,但在方法论上缺乏科学认识的意义。

例如,在Yahoo!大类“Entertainment(娱乐)”的二级类目“Movies and Film(电影)”、搜狐“文学”大类等类目的划分中,分别采用了题材、载体、体裁、类型、时代、地区等标准进行划分,若按照每一次划分必须采用同一个标准的严格的体系分类原则,这些类目需要进行多次划分,形成较多级次的类系。又如,Yahoo!对其大类“Reference”的二级类目“Libraries(图书馆)”,搜狐对其大类“公司企业”等类目采用了多重列类法,分别按性质与国家等区分图书馆,按经营内容与地域区分公司企业。诸如此类的类目划分方法,打破了传统的分类规则,在同一类目层面上揭示和反映隶属关系的概念和事物,对同一类目进行多角度的揭示和反映,无疑更符合网民的要求,更能突出非类体系的易用性[3]。

2.2 类目设置以实用性为主

体系分类法(如DDC和《中国法》)以学科立类为主,强调体现类目的系统性,而网络分类则以主题立类为主,注重类目的实用性。国外的分类搜索引擎(如yahoo!等)大都按主题立类,追求的是直观与实用,很少考虑类目的系统性,这样的类目体系称之为“可浏览式主题索引(subject index)”;国内的分类搜索引擎(如搜狐等)多采用以主题立类为主、学科立类为辅、主题与学科相结合的立类方法,其分类体系兼具学科的系统性和主题的直接性特点。

网络分类体系按主题立类的实用性是显而易见的,它打破了体系分类法严格的隶属关系,不受学科系统性约束,常常把一些在学科分类中必然处于较低级位的类目,提升为基本大类或二级类目,把基本大类或上位概念类目分拆降列于较低位类,更有一些在学科分类中根本不可能立类的主题,也堂而皇之地跻身于二三级类目之中。

如在yahoo!的14个大类中,只有“Science(自然科学)”,“Social Science(社会科学)”和“Arts & Humanities(艺术与人文科学)”与DDC的一级类目相同或相近,大类“News & Media(新闻与媒体)”在DDC中位于二级类目,大类“Reference(参考资料)”中的内容分散在DDC的若干二至五级类目之中。又如,搜狐大类“公司与企业”在《中国法》中为三级类目(F27),“生活与服务”为四级类目(TS 97),在《中国法》中属于基本大类的哲学、生物科学和航空航天等在搜狐中降列于二级和三级类目,像“留言板/BBS/论坛”、“打工文学”、“大学BBS”等二三级类目,在《中国法》中原本是不可能立类的,如今也赫然在搜狐中占有一席之地。

网络分类体系以实用性为主的立类原则,把热门主题或点击率高的类目置于显著位置,吸引了网民的关注,方便了浏览与检索。但也正是由于实用性的立类原则,造成了不同搜索引擎分类体系的差异,给网民熟悉和利用分类搜索引擎带来一定的困难。

2.3 类目序列以检索频次与检索习惯为主要依据

类目序列即序类,是指同位类的排列。在体系分类法中,同位类的序列坚持逻辑次序原则,或按自然进化顺序(低级—高级),或依复杂性及数量渐增(简单—复杂、少—多),或按时空顺序(先—后、近—远)等排列,而网络分类则着重考虑网民的检索习惯,按检索频次或字顺排列。如yahoo!首举“Business & Economy(贸易与经济)”,后列“Reference(参考资料)”,搜狐从“娱乐与休闲”到“国家与地区”无不明显地体现着重要性递减的原则。yahoo!的“Regional(地区)”、搜狐的“国家与地区”、“公司与企业”的二级类目等具有地域性和不便区分先后次序的类目均采用字顺序列。

在同位类的序列中,网络分类体系首先列举检索频次高的类目,突出重要主题,迎合了网民的检索习惯与检索偏好,但也不可避免地削弱了类列次序的逻辑性。网络永远是一个无法把握的动态世界,网民的检索习惯与检索偏好无不处于变化之中,类目的检索频次也无不随之发生改变,极易造成分类体系的动荡。任何分类体系都需要相对稳定,尤其是网络分类体系,更需要客观地分析和把握网络资源及网民兴趣的变化,着重提高分类的科学性、立类的系统性和序类的合理性,在不断满足网络检索需求的同时,力求分类体系的相对稳定[4]。

3 分类搜索方法与途径

分类搜索引擎常用于族性检索,适合查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。

3.1 逐级浏览渐近目标

分类逐级浏览是分类搜索引擎最基本的检索功能,它不用考虑关键词准确与否,无需构建检索式,使用方法简单,符合人们的思维和查询习惯。分类逐级浏览检索首先要熟悉分类体系,确定所需资料的大类归属,“即类以求”、“顺藤摸瓜”,逐步缩小查找范围,直至达到检索目的。

如在yahoo!查找“New York Times”(《纽约时报》),首先确定它属于“News & Media(新闻与媒体)”大类,按照其类目结构,在其下位类中,依次Newspapers(报纸)—By Region(按区查找)—U.S.States(美国)—New York(纽约)—Complete List(完全列表)逐级浏览,New York Times按字顺排列在Complete List之中,一检即得。我们还可从其地域特征,按“Regional—U.S.States—New York—News and Media—Complete List@”的路径得到同样结果。

了解分类体系及其类目涵义,准确判断查询目标在分类体系中的类目归属,是有效利用分类搜索引擎的前提,由于搜索引擎没有统一的分类标准,类目的隶属关系不尽合理,横向关系交叉、重复,分类深度不一,类名缺乏准确性等固有弊端,期望普通用户都能熟悉庞大的类目体系及其复杂多变的结构,准确把握检索路径是不现实的。为此,分类搜索引擎大多采用智能搜索技术,提供关键词检索功能[5]。

3.2 使用关键词检索目录数据库

关键词检索与逐级分类浏览是相辅相成的,是分类搜索引擎不可分割的两种功能。较为成熟和知名的分类搜索引擎(如Yahoo!搜狐等)都提供“Directory”、“目录搜索”的关键词检索途径,在各级类目可以随时使用关键词检索功能,对其分类数据库进行检索。

在Yahoo!分类检索首页(http://dir.yahoo.com)和各级类目检索页面分别有“the Directory(在目录中检索)”和“just this category(仅在此类中检索)”检索选项。搜狐分类检索首页(http://www.sogou.com/dir/)及各级类目检索页面的关键词检索,均默认为分类数据库检索。

例如在Yahoo!中查找有关在中国旅游的资料或信息,在分类检索首页的检索框输入“Travel+China”或“Travel in China”,选择“the Directory”检索,结果首先序列“RELATED DIRECTORY CATEGORIES(相关类目)”的全部22条检索路径,然后分页显示数据库中与关键词匹配的570个网站列表。查找境外中国古典诗词的资料,通常从“Arts & Humanities(艺术与人文科学)”大类入手逐级查找,但其“Literature(文学)”类目下子目过多,难以选择最佳浏览路径,此时点选举“just this category”,用关键词“classical站[6]。

又如在搜狐中,如果仅从“国家与地区”或“教育/培训”两个常用路径查找有关图书馆的网站,肯定会造成许多专业和特殊类型图书馆的漏检,如果以“图书馆”为关键词在分类数据库中检索,就会发现,相关网站还分散在“科学/技术>工程技术”、“社会科学>报刊/杂志>CSSCI文献源”、“社会科学>汉学研究>参考资料”、“社会科学>信息管理>开发/服务>数字图书馆”、“卫生与健康>资料/文献>图书馆”等路径的相关类目之中,而这些路径和类目对于非专业人士来说是难以预料的。由于受对分类体系熟悉程度的限制,我们在检索前不可能预料所有相关的类目及其路径,这时如果使用关键词直接在目录数据库中检索,便可以提高检索效率,快速获得全部相关网站的结果列表。然而,关键词检索又受分类数据库人工标引及其规范化自然语言的制约,关键词的确切与否决定着检索结果的查准率,因此,如何选择关键词,运用布尔逻辑符与熟悉分类体系及其类目结构一样,是每个分类搜索引擎的使用者必须面对的问题。

分类搜索引擎坚持以人工收录、标引和摘要网络资源的独特优势是全文搜索引擎无法替代的,它方便、实用的主题目录,具有特色的分类体系,扼要的网站简介以及永远鲜活有效的链接,无不体现出智慧光彩和人文关怀,使完全依赖自动程序的全文搜索引擎难以望其项背。当然,由于分类体系主要是由人工构建的,分类搜索引擎难免存在诸如分类标准不统一、反映网站信息不及时、运营成本过高等固有弊端,也正是因为这些弊端,使它至今仍甩不掉“第一代搜索引擎”的标签。分类搜索引擎的发展和走向成熟,还需借鉴和采用自动分类、自动标引、自动文摘、智能检索等技术,在保持传统特色和优势的基础上提高自动化、智能化水平,提供更为全面、更加强大的功能与服务。

标签:;  ;  ;  ;  ;  ;  ;  

分类搜索引擎的系统构建与应用分析_搜索引擎论文
下载Doc文档

猜你喜欢