网络信息组织对传统信息组织的借鉴_搜索引擎论文

网络信息组织对传统信息组织的借鉴,本文主要内容关键词为:组织论文,信息论文,传统论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G252.6 [文献标识码]A [文章编号]005-6610(2003)04-0002-06

1 引言

信息组织是采用各种方法和手段使信息有序化的过程。它通过揭示信息间内在的逻辑关系,对信息进行加工、整理、提炼,使之系统化、浓缩化,从而达到便于信息传递和交流的目的。传统信息组织,主要是指对文献信息的组织,即使在采用计算机技术后,所处理的信息对象仍主要是文献信息,并进行人工著录、分类、标引,组织形式大多通过手工编制的目录、索引、文摘等。在网络环境下,信息资源多以数据库、信息库的形式存在,电子信息占主导地位,信息组织的对象逐渐多样化,范围也随之扩大,它不再停留在对文献特征的描述,而是深入到知识单元、信息单元。

从本质上讲,网络信息组织是对网络中的节点(服务器)中的各种格式的文件和数据库(或信息库)中的各个信息单元(如数据项)的组织。具体地讲,网络信息组织有两层含义,一是某一特定网络服务器(网站)的信息组织;二是对整个网络信息(网站集合)的组织。前者是网络局部(节点)的信息组织,后者是网络全局的信息组织。前者的工作主要由各节点的网站开发和维护人员来完成,后者由专门的信息服务公司,通过搜索引擎来完成。两者对图书情报部门的信息组织均有借鉴意义。本文主要以后者为研究对象,即整个网络的信息组织。

传统信息组织主要包括分类法、主题法、索引法、文摘法等。与传统分类法相比,网络信息组织在立类与列类、分类标识与分类对象的对应关系、分类标引过程、分类标引等方面存在明显的区别;与传统主题法相比,网络信息组织在搜索引擎对主题检索的支持以及元数据的产生和运用等方面存在很大区别;与传统索引法相比,在索引对象、索引类型、索引生成以及使用目的等方面存在许多不同;与传统文摘法比较,在编制方式、编制速度、编制质量以及与主题法的结合程度等方面也存在着差别。

比较和分析网络信息组织与传统信息组织有利于展现两者的优缺点,从而为网络信息组织继承和发展传统信息组织提供了借鉴,促进网络信息组织的进一步改进和完善。

本文以此为出发点,深刻认识这两种各有千秋的信息组织方法,提供理论和方法上的依据,并以此为切入点,从四个方面来论述网络信息组织方法与传统信息组织方法之间的相互借鉴关系,以使两者相得益彰、共同发展,从而在实际工作中利用相关成果改进现有工作,以满足现代信息用户的需求。

2 借鉴体系分类法完善信息资源分类体系

从体系分类法的角度看,网络信息资源分类体系确实存在着一些低级错误,改正这些错误将有利于网络信息资源分类的科学化和规范化,有利于提高查全率和查准率,尤其是提高查准率。

2.1 类目设置缺乏规律性和层次的不平衡性

在网络信息分类中,其类目设置往往同时采用多个标准,运用每个标准设类时缺少完整性,有时甚至在同一层次上列出不同等级的类目,致使同位类设置显得混乱,缺乏规律性,增加了用户通过浏览查找信息的难度。因而,需借鉴体系分类法的立类原则,一般采用同一标准,类目级别往往不能混淆。此外,有些网络信息的类目划分只有两三层,有些则多达十多层,类目层次显得不均衡,应当在现有基础上作适当调整,尽量使同位类下的层次保持均衡。

2.2 类目划分缺少一致性

不同搜索引擎的类目划分都有自己的体系,相互之间缺乏一致性。比如,Sohu将“留学与移民”放在“工商经济”类,“网易”在文学类下列出“人文历史和宗教”类,Yahoo将“音乐”放在“综合参考”下予以重复反映,这些做法明显欠妥。理想地,各个搜索引擎的类目划分应当大体相仿,使用户有章可循。

2.3 依据缺少提示

目前,用户在使用浏览性检索工具时,不能直接找到所需类名,必须逐级翻阅查找。有时为了找到一个类目,需要读取十多个页面,颇为费时费力。为了用户查找方便,应当提供一个分类法使用说明,以便用户参考、熟悉、研究之用,并能使其快速找到所需信息。此外,可以考虑使用一些技术手段,比如,当用户把鼠标放到某一类目上时。可自动显示其下级类目。

3 借鉴分面分类法改进网络信息组织

分面分类法在对传统信息组织的优化上曾起到了很大的作用,在网络环境下,借鉴分面分类法,可对网络信息组织进行优化。实际上,现行的搜索引擎中也包含分面分类法的思想,但粗糙和不规范。比如,在“sina”搜索引擎的关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,这种“分面”非但不够完整和准确,而且更多的是具有后台意义,用户根本无法在检索时组配使用,分面分类法没有得到充分体现。具体地讲,借鉴分面分类法改善网络信息组织可从以下几个方面入手:

3.1 复分表和仿分在网络分类体系中的运用

搜索引擎在编制自己的分类表时,可以借鉴传统文献分类法中的复分表、仿分技术。但是,网络环境下的复分和仿分与传统文献分类法不同,尤其是资源类型复分表中所列出的文献形式几乎完全不同于传统文献分类法中总论复分表中的文献形式。

3.1.1 通用复分表的运用

通用复分表可以作为整个分类表各级类目组配复分的依据,也可以用于规范分类体系展开的方式,使整个分类体系更具科学性和逻辑性。网络信息分类体系的通用复分表可以包括主题通用复分表、世界地区复分表、中国地区复分表、时代表(包括国际的和中国的)、资源类型表、人物复分表等。

网络信息的主题通用复分表规定了整个类目体系展开的次序,内容可以包括综合网站、热点问题、政策法规、机构(包括管理机构、事业机构与协会、事业单位、公司企业单位)、人物、理论、事业与管理、改革研究、教育培训等。

世界地区分类表对于网络信息是必要的,因为网络都是全球性的,其中充满了大量分散的有关各个地区的信息。世界地区复分表的详尽程度要视信息资源的空间分布的密度确定。时代复分表主要根据网站的服务功能和所收集的资源特点确定。收集历史文献的网络站点或历史类专业搜索引擎最好设一个时代复分表,而对综合性的网站和搜索引擎来说,也可不用时代复分表。

网络环境下所使用的资源类型复分表中的资源类型,除了包括传统文献分类法中的期刊、报纸、杂志等文献形式外,还包括BBS与论坛、会议与活动、个人主页、新闻组、Mailing List/LISTSERV等。

通用复分表及其主要内容如表1所示。

表1 通用复分表及其主要内容

3.1.2 专类复分表的运用

在编制网络信息分类体系时,可在有关类目中编制专类复分表,作为某些类目组配细分的依据。例如,在“工业类”下的各工业部门,可以按照厂家、公司、研究机构、部属院校、杂志、名牌产品的统一顺序展开,编制成一个专类复分表,因为这几项是各工业部门都共有的(特别是在中国),可以采用统一的顺序。这就是专类复分表在网络信息分类中的运用,但是,它不需要像传统分类法中的专类复分表那样赋予统一的类号,而只需在各类中采用统一的形式。在信息加工的后台中,使信息处理人员更好地理解各类目的展开方式,更好地使用分类体系来加工整合信息资源。

3.1.3 仿分的运用

在传统分类法中,按照分类标准的规定,部分类目可以仿照已列出的类目进行细分,即类目仿分。由于网络信息分类体系以事物和主题为中心进行划分,从某种程度上说,它要求仿分更加迫切。比如,在“sohu”中,一级类目中有“国家与地区”条目,在其下的二级条目(各个国家与地区的名称)就按照一级类目的各类目进行仿分。又如,在“北京”这个二级条目下,就出现了跟一级类目一致的三级类目。在网络信息分类体系中,这种情况很多,比如,在“sohu”的“社会科学”的各社会科学类下基本上均按“学会”、“爱好者天地”、“大学系/学院”、“活动与会议”、“期刊杂志”、“研究所/中心”、“同人主页”列类。

3.2 分面叙词表的运用

一般地讲,编制分面叙词表都是针对某一学科专业领域的,这是因为不同学科专业领域的基本分面的划分是不同的,所以对于整个知识领域来说,建立一个统一的分面叙词表是非常困难的。因此,分面叙词表主要用于网上学术信息资源的组织,或者用于建立专业性搜索引擎。

网络信息分面叙词表有以下两个方面的作用:一是在信息标引的后台工作中,标引员利用分面叙词表对网页进行主题标引。一方面,有利于分面组配提高描述特定信息资源的能力,另一方面,用分面组配公式来标引网页可以实现标引的一致性,进而提高标引质量。二是在信息检索的前台工作中,可向用户提供其输入的检索词的同义词和相关词,可同时提供多个主题领域的检索词,以供用户进行自由组配,通过这种组配,可达到较高的专指度。

采用这种组配方式可使用户拥有最大程度的决定权,即由用户从系统推荐的检索词中选择合适的词语,实现自由组配,从而避免了用户构造复杂的检索式。同时,在检索过程中,通过人机对话,由用户来判断与其检索最相关的文献。

4 按照分类主题一体化的原则改造网络信息组织

所谓分类主题一体化,是指将分类检索语言与主题检索语言融为一体,从而形成一种兼有两种语言的标引和查找功能的检索语言。传统分类法系统性较强,有利于族性检索,符合人们的思维、检索习惯,且在揭示数值、声像、空间对象等实体方面有其独特优势,但分类法体系复杂,不利于用户查全。传统主题法是用语词描述知识并按一定顺序排列,在主题检索中,夹杂大量不切题和无用信息,导致查准率低,有时甚至相当低。分类法和主题法两者的结合能较好地解决这一问题。

理想的网络信息资源检索语言应当是分类主题一体化语言。例如,在搜索引擎进行关键词检索时,可选择在所有站点或仅在此目录下进行检索,而且输出关键词检索结果时,列出相应的分类检索路径。

目前这种思路在“sina”搜索引擎中得以实现。例如,如果想查找“红楼梦”的相关信息,可在搜索框内键入关键词“红楼梦”,并单击旁边的搜索按钮,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来就是关于“红楼梦”的网站的搜索结果。

有趣的是,在现行的搜索引擎中,不但体现了分类主题一体化思想,还根据实际需要在搜索结果中体现了分类、主题、文摘以及新闻服务四位一体的思想。比如,中文雅虎的搜索结果会从数据库中找出以下五个部分,按照顺序列出搜索结果:

分类类目分类

网站名称主题

网站描述文摘

相关网页主题

Yahoo!中国的相关新闻 新闻服务

但是,要实现网络信息的真正的分类主题一体化,还要做好以下三个方面的工作:

4.1 建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制。这样的知识分类体系必须坚持科学性与实用性的统一,结构要清晰,整个体系是动态的,可以采用超文本系统进行管理。

4.2 建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换。控制词表应当支持后控,以提高受控词的利用率和用户的交互能力。

4.3 建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主体的兼容。在搜索引擎生成索引数据库时形成包括分类标识和关键词标识的索引,同时分别为分类标识和关键词标识生成倒排挡,这样既加快了检索速度,又能同时以分类标识和关键词进行检索,提高查准率。

5 网络信息组织的目标——建立一套科学的网络信息分类体系

建立一套科学的网络信息分类体系,必须明确基本的分类原则。

5.1 网络信息分类的基本原则

确定网络信息分类原则必须根据网络信息的特点:

5.1.1 直接性原则

分类的层次不宜太多,不应该出现转换十多次还找不到所需信息的情况。一般来说,类目在6层以下比较符合人们的习惯。

5.1.2 数据保证原则

网络信息分类法是面向整个网络信息资源的,分类对象要明确地扩大到网络上一切可以利用的资源,让各种类型的网络信息资源都能在分类法中找到相应的位置。

5.1.3 自然性和实用性原则

网络是面向大众的,所用的类名基本上应当是自然语言,以满足广大普通用户的信息需求。同时,网络信息分类的类目要少而精,要实用,不应该仅仅为了美观等因素而设立一些用处不大的类目。

5.1.4 快捷性原则

每一类名都应有与其对应的一个快捷键或类号,以便于熟练的用户进行快速查找。传统分类法在这方面有相当杰出的成就(如类名索引等),毫无疑问,编制网络信息分类法时应当对这些成就加以研究和借鉴。

5.2 关于《网络信息分类法》的构建

传统分类体系与网络分类体系的相互借鉴和改造,使得编制一部网络信息分类法成为可能,在具体做法上,应注意以下几点:

5.2.1 以传统分类主题为基础,构建多维的分类体系

在栏目设置上,为了便于用户浏览,可以适当灵活处理,建立多维的分类模式。但这种变化必须是以传统分类主题理论体系为基础的。例如,为了突出重点,在栏目设置上可以不追求知识体系的完整性,一个子类可以隶属于多个母类(类似于主题词表的“范畴索引”),一个母类可以采用多重标准进行划分(即多重列表),少数大类(如“国家地区”)下可以涵盖各大类内容的体系,并利用超文本链接把类与类、类与信息记录之间链接起来,实现用户访问时的多重入口,自由跳转。

5.2.2 按需设类,突出重点,便于浏览

一方面,因为一般用户对事物的认识要比对学科的认识更为直观和清晰,按主题和事物划分可以降低用户浏览时的认识负担。因此,网站栏目应根据实际需要而设,并且尽可能地删除与主题无关的栏目。另一方面,类目的规范程度主要地由用户群的结构而定。

此外,为了便于用户以最快捷的方式访问到网站提供的热门栏目和信息,在栏目的设置上,可以不拘泥与原有分类体系的逻辑层次划分,而是根据信息量和访问频率提升某些重要栏目的级位,将网站最有价值的内容放到突出位置。例如,中文雅虎和搜狐在栏目设置上,“计算机和互联网”这一热门栏目就列为一级栏目,与其属概念“科学与技术”并列。

5.2.3 控制类目级别,减少栏目层次

网站的栏目设置与划分的目的是让用户以最快的方式找到想要访问的页面信息,如果严格按照传统分类体系设置栏目,很可能会将用户感兴趣的页面埋藏在5、6层页面之下,显然这会让用户失去继续浏览的兴趣。因此,在栏目设置和划分时,应将大多数栏目的层次控制在3、4层为宜,专业性强的栏目可以适当延伸。

为了控制栏目层次,栏目设置可以不局限于单一标准的逻辑划分,而是使用若干标准同时对某一上级栏目进行划分,建立若干从属于上级栏目的平行的子栏目。这样,具有不同知识结构、带着不同检索目的、使用不同分类标准的用户都可以在同一级栏目上找到所需的信息,从而满足网络用户多途径、多角度的检索特性。

5.2.4 网络信息分类法与主题词表的结合

网络信息分类法的着眼点绝非只是分类法本身,而且要顺应分类主题一体化的发展。因此,必须考虑到网络信息分类法与主题词表的结合。这个主题词表可以是编制网络信息分类法同时编制的,或者现行网络信息主题词表中较好的。主题词表中的词应能被分类体系完全囊括,而且应具有严格的对应关系。

6 结语

随着互联网的飞速发展以及用户信息需求的变化,迫切要求采用高质量的网络信息组织方法。总体上说,目前网络信息组织的实践和研究工作出现了以下发展趋势:

6.1 多媒体信息检索

基于文本方式的多媒体信息检索不仅缺乏直观性,而且还有一定的主观性,因此无法充分揭示多媒体信息的内涵,从而影响检索效果。基于内容特征的多媒体信息检索针对图像画面、声音和影像内容特征,这正是多媒体信息检索的发展方向。

现在有一小部分搜索引擎支持多媒体信息检索,比如,Alta Vista支持MP3/音频、视频等检索服务,lycos提供搜索图像和声音文件的功能。但是,这种多媒体信息检索往往停留在多媒体的形式检索上,即只给出多媒体信息的形式信息(如多媒体文件的扩展名和多媒体标题和文字解说等),并以此作为检索点。

6.2 智能搜索引擎

伴随着计算机智能技术的发展,智能信息检索(intelligent information retrieval)作为人工智能的一个独立分支得到了迅速发展。智能检索模型主要分为两大类:一类是基于机器学习的大范围信息检索系统;一类是智能化的用户个性化信息检索系统。前者以提高信息检索系统质量为主要目的,以满足用户从关键词检索到知识检索的需要,后者则以推动信息服务个性化为主要目的。

6.3 搜索引擎进一步细分

目前出现了元搜索引擎、搜索引擎之搜索引擎等新的搜索引擎类型。

元搜索引擎不同于独立的搜索引擎,它没有自己的数据库,而是将用户的检索请求进行转换处理后,提交给预先选定的独立搜索引擎,并将所有查询结果以统一的格式呈现出来,弥补了独立搜索引擎搜索不全的缺点,提高了检索的全面性,如metacrawler等。目前,中文元搜索引擎数目很少。

搜索引擎之搜索引擎不同于元搜索引擎,它的目的不是检取最终信息,而是检索可利用的工具信息,相当于传统文献信息组织中的目录之目录。它对搜索引擎站点进行分类管理,并对所收录的各家搜索引擎站点的覆盖范围、更新频率、检索效率等进行评价,给用户选择利用合适的搜索引擎提供有价值的参考。“Sina”的“搜索首页>引擎世界”就是一个搜索引擎之搜索引擎。此外,中文网站.http://www.hailyan.com也提供这种功能。

搜索引擎的发展将对人们信息利用能力产生不可估量的影响,图书情报界的同仁更会以自己的成果造福于信息用户。

标签:;  ;  ;  

网络信息组织对传统信息组织的借鉴_搜索引擎论文
下载Doc文档

猜你喜欢