近五年来网络信息分类组织研究的现状及其展望,本文主要内容关键词为:五年论文,现状论文,组织论文,信息论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
从1998年—2002年,国人关于网络信息分类组织的研究如日中天。据笔者不完全统计,这5年间关于这一领域里的研究性文章就有165篇之多。那么,其研究现状如何?都达成了哪些共识?又有什么分歧?路该如何走?这些很值得我们去认真地加以总结和探讨。为条理其见,现分为7个方面简述如下。
1 关于网络信息、网络信息用户、网络信息技术环境特点的研究
单独研究这一方面的文章并不多见,但涉及这方面研究内容的文章却不少。据笔者粗略统计,至少有20篇以上。其中代表作有:文献[1]、文献[2]、文献[3]等。文献[1]专门研究了网络信息资源的特点,那就是:数量巨大,增长迅速;内容丰富,形式多样;变化频繁,价值不一;结构复杂,分布广泛。文献[2]和文献[3]都大同小异地论述了网络信息、网络信息用户、网络信息技术环境的特点,特别是文献[2]论述得更加详细而系统。关于网络信息特点的论述,与文献[1]有异曲同工之妙,这里不再赘述。关于网络信息用户的特点是:用户范围宽广,文化程度不一,检索需求多样。关于网络信息技术环境的特点是:计算机技术、网络技术、通信技术、数字技术、多媒体技术、WWW技术、超文本技术、人工智能技术、自然语言理解技术、自动索引技术、数据库技术等多种现代技术集中于一身。这些研究成果极大地提高了我们对网络信息分类检索工具的标引对
象、使用对象、所处环境的认识,为编制高质量的网络信息分类法打下了认识基础。
2 关于网络信息分类法与传统文献分类法的比较研究
众多学者善于采用比较分析法来研究网络信息分类问题,因此涉及这方面的研究性文章还是比较多的。据笔者粗略统计,至少有24篇以上。其中代表作有:文献[4]、文献[5]、文献[6]、文献[7]等。其研究内容主要集中在立类、序类、类目划分、类目关系、类目注释、类目命名、检索效率、用户满意度等方面。多数学者比较分析后发现:网络信息分类法是以主题立类为主,突出反映生活性类目,以类目的使用频率、重要性和字顺来排列类目,在同一个划分等级上采用了多种标准,采取重复列类和多重列类法来显示类目之间的关系,很少使用说明和注释,类名措词多使用自然语言,设置多个分类体系和镜像类目,检索途径多,效率高,多数能做到及时维护,得到广大用户的青睐,满意度高;而传统的文献分类法则是以学科立类为主,突出反映学科性类目,以类目之间的逻辑关系为序类原则,在同一个划分等级上基本上只采用一种标准,采用“参见”和“宜入”的方式来显示类目之间的关系,使用说明和注释较多,类名措词多使用人工语言,只有一种分类体系并且为单线排列,检索途径少,更新周期长。总之,二者存在着简单与复杂、灵活与死板、新颖与陈化、非线性与线性、不规范与规范、多媒体与单媒体、动态与静态、开放与封闭、网民使用与标引人员使用等的区别。其主要原因就在于二者所处理的分类对象、所处的技术环境、面对的用户、编辑人员等的不同。这些研究成果为我们借鉴二者各自的特点、编表的理论、方法和技术提供了便利,从而为编制高质量的网络信息分类法打下了理论基础。
3 关于传统分类法应用于网络信息分类组织的研究
众多学者都非常关心传统分类法的命运,因此涉及这一方面的研究性文章为数不少。据笔者粗略统计,至少在28篇以上。其中代表作有:文献[8]、文献[9]、文献[10]、文献[11]等。这些文章从不同角度和不同程度上论述了传统分类法应用于网络信息分类组织的可行性、不适应性及其现代化改造。多数文章认为,传统分类法特别是《中图法》特点突出,科学性强,具有广泛的用户基础,符合广大用户的检索习惯。具体一点就是:它有一个较理想的知识分类体系,能够科学地组织人类知识的载体——文献和网站;它有一个能够系统组织和揭示各学科门类知识的等级结构,符合广大用户的认知习惯和检索习惯;它有一个既能满足知识体系展示和扩充需要,又兼顾组织文献信息和网络信息需要的标识系统;它有一个能够描述各学科门类知识、规范化的术语系统;它有一个较完善的体系结构及配套辅助设置(如类目索引、使用手册、各种版本等)。它的不适应性也是很明显的,那就是;结构庞大,缺乏简明性;划分太细,缺乏实用性;操作复杂,缺乏易用性;体系僵化,缺乏灵活性;单线排列,缺乏多维性。对此许多文章提出了具体的改造方案、基本思路和对策。如改细密分类体系为粗略分类体系,减少类目的数量和层次,使其简明;改单纯分类体系为分类主题一体化,增加主题性类目,突出生活性类目,适应网民的查询特点和需要;改静态的线性结构为动态的网状结构,采用交叉列类、多重列类、分面分析技术和超文本链接技术等,实现跳跃式浏览,增加检索入口;改进分类法的说明和注释,帮助用户快速切换到相关的类目;改进分类法的标引规则和界面等。虽然上述研究成果有助于传统分类法特别是《中图法》自身的调整和改造,使之适应于网络信息分类组织的需要,但也为更好地编制网络信息分类法打下了方法基础。
4 关于现代技术应用于网络信息分类组织的研究
只有少数文章作为中心主题加以论述,多数文章只是涉及这一问题。据笔者的粗略统计,共有14篇。其中代表作有:文献[12]、文献[13]、文献[14]等。文献[12]专门阐述了超文本技术在网络信息分类组织中的应用问题,即:超文本技术可以改进主题之间多维关系的揭示,通过链接的方式,重复反映具有相关关系和交叉关系的类目;可以从多个角度组织信息资源,利用链接的特点,从不同属性、不同角度设置类目;可以进行输排,亦即多表列类,根据需要,建立多个引用次序的类目体系;可以设置镜像类目,根据需要,通过设置镜像类目的方式,对某些重点类目或热点类目加以突出反映;可以动态组织分类体系,根据需要及时增添类目或删改类目,即可以动态设置类目和动态揭示类目之间的关系;用于联结不同的检索系统,包括类目索引、叙词表及其他分类体系,增加检索入口;联结说明与规则系统,通过链接,将分类体系与相应的说明文字、帮助系统等联结起来。目前各种网络信息分类体系特别是各大门户网站自编的分类体系,之所以实用、易用、灵活、动态、立体,不能不说是与广泛应用超文本技术有关。
文献[13]专题论述了分面分类技术在网络信息分类组织中的应用问题。该文又细分为3个小专题,即:一是复分技术的应用。文章提出可为网络信息分类体系配置下列通用复分表:主题通用复分表、世界地区复分表、中国地区复分表、国际时代复分表、中国时代复分表、资源类型复分表、人物复分表。必要时可在有关类目中编制专类复分表,如在“医疗与健康”类下的西医各科,可按统一的次序展开为:机构团体、医院、医界人物、药品、期刊、会议与活动。必要时可按已列出的类目仿照细分,如“中等教育”中“题库”可仿“各科考试”进行细分,因为它们都是按“语文、数学、政治、几何、物理、化学、英语、生物、历史、地理、其他”进行细分的。二是分面叙词表的应用。对后台工作来说,可以实现标引的一致性,提高标引质量;对前台工作来说,可以实现自由组配,提高检索的专指度。三是分面分类用于可视化检索。文章提出,为了使用户能从多个角度进行检索,可以在检索界面上设置主题分面、书目形式面、时间分面和地域分面,然后再按等级列举式展开,各子分面之间可以相互组配。总之,分面分类技术是大有可为的。
文献[14]专题论述了分类主题一体化在网络信息分类组织中的应用。具体体现在:一是搜索引擎。现在越来越多的分类检索开始加上关键词索引,而越来越多的主题检索也带有分类索引,由此可见,分类语言与主题语言的完全兼容,是网络检索系统发挥最佳整体效应的必由之路。二是网络目录。它是按主题归类,将网络信息资源组成主题树体系,而这种主题树方式是将信息资源经过甄别,分门别类地按照某种事先确定的概念体系结构加以组织,建立主题类目和子类目。三是指示数据库。这种方式是分编人员遵循一定的分类主题规范和著录格式,将存储有关网上一次信息的网址以及相关信息的描述信息,对其进行描述并加以组织。四是元数据。元数据(metadata)在本质上具有电子在版著录的功能,它可以揭示各类型电子文献的内容及其他特征,进而达到网络资源的组织、分类、索引等目的。五是后控制词表。它实际上是分类号、规范词与自由词一体化机读整合的一种转换型词表,因此,它必须有统一规范的分类主题一体化词表对其予以支持。六是联机数据库检索系统。使用这种检索系统查询时,先选择大致类目或主题,然后再输入词语进行检索,还可加上地理、时间、文种等限制,使检索更专指。总之,分类主题一体化是网络信息检索系统提高检索效率的语言保证,是一种有效的网络信息组织方法。
当然还有其他技术的应用研究,如自然语言理解技术、自动分类技术、数字化技术、人工智能技术、网格技术、推送(push)技术等等。所有这些研究成果都为编制高质量的网络信息分类法奠定了坚实的技术基础。
5 关于中文网络信息分类体系特点、问题及其改进的研究
由于中文网络信息分类体系是伴随着中文搜索引擎产生而诞生的新生事物,较之传统文献分类体系具有很强的吸引力,当然也有缺憾。因此,对这一分类体系的研究就成为热点。据不完全统计,5年来关于这一课题的研究性文章就有48篇之多。其中代表性的文章有:文献[15]、文献[16]、文献[17]、文献[18]、文献[19]等。这些文章都从不同角度和不同程度论述了中文网络信息分类体系的特点、问题及其改进。其特点是:①体系结构简明,便于网民操作;②主题聚类为主,便于网民理解;③突出生活性类目,贴近网民生活;④多角度重复列类,增加检索途径;⑤采用多元划分,减少点击次数;⑥类名措词时尚,具有吸引力;⑦建立主从分类体系,提供多种选择;⑧采用超文本链接技术,实现任意跳转;⑨系统及时得到维护,随时增、删、改;⑩实现界面友好,检索方便快捷。其问题是:①体系过于简单,知识覆盖不全;②归类不够科学,类目界限模糊;③划分不够严密,设类随意性大;④序类缺乏逻辑性,检索无规律可循;⑤类名措词失范,影响检索效率;⑥体系变化太大,缺乏相对稳定;⑦整个体例不统一,缺乏一致性;⑧界面广告太多,过于商业化。其改进措施是:①全面覆盖知识领域,保持大类相对稳定;②严密划分类目体系,明确类目隶属关系;③科学编排同位类,遵循逻辑序类方法;④适当规范类目名称,编好后控制词表;⑤净化用户界面,建立帮助系统;⑥引进多种技术,创制统一大法;⑦体现网站特色,建立多种体系;⑧制订标引规则,作好后台工作。当然也有人从本质属性、体系类型、层次结构、标引能力、检索功能、理论基础、方法技术等方面来研究中文网络信息分类体系的。所有这些研究成果对于编制高质量的网络信息分类法都具有现实的借鉴意义。
6 关于统一的中文网络信息分类法编制的研究
由于中文网络信息分类法编制的研究,是这一领域研究的重点,因此关于这一方面的研究性文章屡见不鲜。据不完全统计,至少在20篇以上。其代表作有:文献[20]、文献[21]、文献[22]、文献[23]、文献[24]等。这些文章不约而同的为编制统一大法而精心设计了具体方案,提出了编制原则,研究了具体问题。如文献[20]提出了改进网络信息检索工具分类检索性能的方式方法,即:①选用主题分类法模式,主题概念的隶属采用多种属分关系;②分类体系应体现网络导航、文献数据库服务、直接信息服务相结合;③将专题检索内容纳入总的分类体系;④一级类目的设置数量可多些,并采用类组列类方式;⑤类目的细分控制在5级左右;⑥选用普通用户检索需要又能表达网络信息主题内容的名词作类名;⑦采用自然语言接口,或者说为分类体系配备一套索引;⑧在相关类下设立专门链接点,并设立专类反映重要数据库;⑨多设一些与质量高的专业检索工具的友谊链接,满足专业检索要求;⑩地区类目应双重标引;(11)多加注释;(12)精心设计分类浏览界面等。如文献[21]研究了事关编制质量的一些具体问题,即:聚类标准、大类设置、展开层次、类目的种类、类目名称、划分标准、重点类目、类目设置的规律性、交叉关系的处理、类目的排列、类目的注释和说明、用户界面等。又如文献[22]和文献[23]分别提出了编制原则。前文提出了以科学性、易用性、针对性和动态性为原则;后文提出了以科学性、兼容性和通用性为原则。两文都精心设计了一个分类大纲。再如文献[24]也提出了以科学性、逻辑性、实用性、通用性、易用性等为原则,并提出了中文网络信息分类法由四部分组成,即:简表、主表、索引和使用指南。简表一般由1—4级类目构成,主表由全部类目构成。索引包括:①本表与其他分类体系的对应,用于不同分类体系的转换。②英译名称索引,从英查汉或从汉查英。使用指南是分类体系的详细说明。当然还有很多相关的研究,如编制指导思想、编制队伍组成、设计方案选优、自动编表、质量评价指标等等。所有这些研究成果都为编制高质量的网络信息分类法奠定了扎实的基础。
7 关于网络信息分类工具发展趋向的研究
单独研究这一问题的文章有如风毛麟角,但涉及这一问题的文章并不少见。据不完全统计,至少在10篇以上。其中代表作有:文献[25]、文献[26]、文献[27]等。文献[25]阐述了网络信息分类系统八大发展趋向,即:编制机构协作化(即指网络公司与图书馆协作、馆际协作、通过链接方式协作)、内容范围专业化、类目体系多维化、类目层次缩简化、类目显示直观化(主要体现在:类下说明扩大化、类目反映提前化、类目显示导航化)、同位类排列规范化、类名语言自然化、标引技术自动化。文献[26]则阐述了网络搜索工具的九大发展趋向,即:从单一搜索工具向综合性网站发展、从单一性向多元化发展、从综合性向专业性发展、向系列化方向发展(即指各种版本,如普及版、专业版、声音版、图像版、手语版等)、从全球性向地区性转移、搜索途径更加丰富、检索语言向自然语言发展、搜索规则趋于统一、具有智能特征。文献[27]则指出了网络信息分类组织中出现的三种新趋势,即:分类标准的选择和使用更加清晰、通用面的分布趋于标准化、对屏幕显示技术的研究和运用更趋成熟等。当然还有从情报检索语言的角度、从自动标引和自动维护的角度、从人工智能搜索的角度、从数字化的角度等来描述网络信息分类工具发展趋向的。所有这些研究成果都为网络信息分类组织的优化和发展指明了方向。
8 共识与分歧及其展望
通过5年来的研究,笔者认为,至少在以下几个方面达成了共识:①网络信息分类法所面向的对象、所处的技术环境,与传统的文献分类法迥异。②网络信息分类法与传统文献分类法各有千秋,互补性强。③中文网络信息分类体系具有许多特点,也存在着严重的问题,应当改进。就笔者管见所及,通过5年来的研究,虽达成了如上述共识,但也存在着严重的分歧,主要是:①一种意见认为,传统的文献分类法具备一定的网络适用性[28];另外一种意见则认为,网络环境下的传统文献分类法存在着一定的不适应性[29]。②一种意见认为,建立统一的网络信息分类法有着重要的现实意义[30];另外一种意见则认为,统一这条路是走不通的[31]。③一种意见认为,制定网络信息分类表的原则之一是以科学分类为依据[32];另外一种意见认为,作为检索工具的分类法其实用性是第一位的[33]。
笔者认为,连标引物理意义上的文献都困难重重的传统文献分类法,是不可能适应瞬息万变的海量信息的。这也就是各种自编的网络信息分类法应运而生的根本原因所在。历史上的现象有时是雷同的。曾几何时,在中国文献分类法的历史长河中出现过著家蜂起、群法争霸的辉煌局面,20世纪上半叶我国务图书馆和学者个人自编的分类法多达90余部;但到下半叶特别是20世纪末,这种各自为政的局面已经结束,随之而来的则是《中图法》一统天下(全国96%以上的图书情报机构用它来处理文献)。自从1996年我国第一批中文搜索引擎分类体系诞生起,至今已发展到200多个,目前各大门户网站仍在不断地自编和完善只供该网站使用的分类搜索工具。但九九归一,编制统一的中文网络信息分类法已是大势所趋,已成为历史发展的必然。因为各种自编的分类体系已经到了非改不可的时候了,不但有碍于网络信息资源共享,也有碍于国家的信息化进程。
那么,未来的网络信息分类法应该是什么模式呢?笔者认为,它应该是集传统分类法、主题法、现代搜索引擎分类体系各自优点于一身的综合化和一体化的分类法。历史告诉我们,后产生的分类检索工具往往是对之前产生的分类检索工具优点的综合。我们所说的网络信息分类法也不例外。这种新型分类法的优点是:①分类与主题的有机结合。通过学科聚类与事物聚类的结合、号码标识与词语标识的结合、逻辑序类与字顺序类的结合,真正实现分类系统与主题系统的完全一体化。②体系与分面的有机结合。通过先组式检索语言与后组式检索语言的结合、等级列举式与分面组配式的结合、不变概念代码与可变概念体系的结合,真正实现体系的稳定性与系统的动态性的有机结合。③人工语言与自然语言的有机结合。通过分类号与叙词的结合、叙词与自然语言词语的结合,真正实现分类检索、主题检索、自然语言检索的一体化。④具有开放性。该分类法的分类体系可不断地吐故纳新,得到及时维护,及时除去陈化的类目和死链,及时补充新颖的概念和事物,通过后台工作,真正实现与时俱进。这种新型分类法的功能是:①可实现全自动分类。这种分类法采用自动切分词软件,对网页进行分词处理,并自动提取关键词,再通过相似度分析,将网页信息归入到所采用的分类体系中去。②可实现词语控制。这种分类法采用分类、主题、自然语言一体化词表(即分类知识库)进行词语控制,以便提高检全率和检准率。③可实现多途径检索。这种分类法提供了从分类号、主题词、自然语言词汇等多种检索入口。④可实现全文检索。这种分类法可把网站上的所有网页全部抓取下来,并自动生成关键词和分类索引库,从而实现全文检索。⑤可实现智能化检索。这种分类法是集现代技术于一身的分类检索工具,具有较高的智能化水平,网民可根据需要进行任意的跳转、切换、扩检、缩检、二次检索等,达到最大的满意度。