信息分类检索的技术演进及模式,本文主要内容关键词为:模式论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 信息分类检索的基本原理
信息分类检索是指从学科和专业角度根据信息集合有序化的分类体系进行信息输出的族性检索方式。根据信息分类检索的概念可以描述信息分类检索的过程(见图1),分析出信息分类检索的构成要素:分类检索语言、信息检索系统的分类功能、信息的分类标引、信息用户的分类素养等。
图1 信息分类检索过程
1.1 分类检索语言
信息检索语言就是信息组织与检索所使用的语言,根据信息内容属性进行类分形成的分类体系,使信息资源的存储和检索具有统一的分类标识系统。分类检索语言的主要表现形式是分类法,是将表达各种信息资源的概念按照学科、专业性质进行分类和系统排列所形成的体系。
1.2 信息检索系统的分类功能
信息检索系统是指信息的存储和检索的系统,主要包括两层含义:一是从信息采集到检索全过程的服务体系;二是用户检索信息时所使用的检索工具。信息分类检索就需要信息检索系统具有分类输入、检索、存储、输出等基本分类功能。
1.3 信息的分类标引
信息的分类标引是对信息资源的分类组织,主要包括人工分类标引和自动分类标引。分类标引需要准确、一致、充分、适用地揭示信息资源的主题,弄清信息的内容特征,掌握分类表的使用方法,同时须按照分类标引的特点和要求,制订详细的分类标引规则。
1.4 信息用户的分类素养
用户进行信息分类检索首先要具备基本的信息分类素养,了解分类法的编制原理,熟识信息检索系统的分类体系,能够结合具体的分类检索系统运用其各种分类检索的实现模式,最终通过分类检索获取所需信息。
2 信息分类检索的技术演进
信息分类标引及用户分类检索素养的改进是由分类检索语言及其系统决定的,因此,信息分类检索的技术演进主要体现在分类检索语言及系统的不断变革上,从其构成要素层面进行剖析,主要包括以下几个方面。
2.1 分类检索工具日新月异
分类检索工具就是各种分类法,根据其历史沿革及出版形态可以划分为三种类型:传统分类法、网络分类法和自由分类法(见表1)。传统文献分类法是一个相对的概念,一般指用于组织、整理纸质载体形态文献的分类法[1]。网络分类法表现为两种形式:一种是现有传统分类法的网络版;另一种是网络自编的分类法。自由分类法是大众自发的用自由词对网络信息标识和共享的体系。
通过表1可以看出,分类检索工具不断推陈出新,主要表现在:一是分类检索工具的不断修订,如《杜威十进分类法》每隔6-10年修订一次[2];二是分类检索工具出版形态的变革,如2000年7月发布了世界上第一部网络版分类法Web Dewey[3];三是旧的分类检索工具逐渐退出历史舞台,如《七略》、四部分类法等;四是新的分类检索工具不断涌现,如网络分类目录、Tag、Folksonomy等先后出现。
表1 古今中外具有代表性的信息分类法
2.2 分类检索对象逐步扩大
分类是指人们把事物、事件以及有关世界的事实根据其本质属性和显著特征划成类和种,使之各有归属,同种类型的事物集中在一起,不同类型的事物区分开。分类的对象也就是分类检索所搜寻的对象。纵观人类分类活动的历史不难看出,其对象的范围不断扩大,从“文字”、“图书”到“文献”、“信息”(见图2)。
图2 信息分类检索对象的演变
《周易集解》引《九家易》说:“事大,大结其绳;事小,小结其绳。结之多少,随物众寡”,文字起源于结绳。从某种意义上说这就是人类对现实世界的一种分类记忆[4]。各种文字字符的出现成就了人类对世界认知的分类积累,通过对文字字符内涵的分类及其之间关系的不断揭示,文字及其所涵盖的内容成为人类不断分类获取信息的对象。
图书大量出现后,图书分类成为世人方便、快捷地获取信息的一个技术基础,因此我国古代社会先后就出现了《七略》、“四部分类”等图书分类法,国外也先后出现了“十进分类法”、《冒号分类法》、《书目分类法》等。图书成为分类检索的主要对象。
随着人类社会的发展,文明的积累不再局限于图书,各种文献载体百花齐放,于是就出现了“专利分类法”、“档案分类法”等以文件作为分类对象的分类体系。世界著名的传统纸本检索工具《化学文摘》、《工程索引》等,以科技论文、专利等文献为收录对象,并提供分类检索的途径。分类检索的对象由图书扩展为各种载体形态的文献。
20世纪计算机、互联网技术的不断发展,各种网页、图像、音频、视频等数字化信息资源进入人们的视野。其数量巨大、更新及时、变化频繁、呈爆炸式增长,使人们获取有用信息的难度越来越大。这就要求信息分类法动态跟踪信息载体形态的变化,及时变更类目体系,以包容检索对象不断扩大的趋势。
2.3 分类检索需求的多维发展
从检索对象“文字-图书-文献-信息”的演变,人们的信息需求及信息检索系统的分类功能呈现出专业化、多维度的发展势头。网络环境下,信息检索需求的多维发展集中表现在四个方面。
一是信息载体的多样化。依据不同的标准可以将信息分成不同的形态。数字技术把不同载体、不同形式的信息接入互联网,使得人们可以浏览文本、图形、图像、声音等多种形式的信息。
二是信息内涵的交叉化。学科交叉发展,使知识内容在具体的环境中体现出不同的含义,而且不断翻新。信息分类体系在反映知识内涵时也呈现出这一特征。在分类体系的类目设置上进行多维展开与多元划分,采用多重列类、重复反映的方式来增加检索途径,不完全拘泥于原有的逻辑等级层次,把信息量大、访问频率高的类目突出列类,从不同的角度满足用户的信息需求。
三是信息爆炸促使用户需求向专业化、个性化的方向发展。据中国互联网络信息中心(CNNIC)《中国互联网络发展状况统计报告》(2008年1月)指出,我国网民2007年以平均每天20万人的速度增长,一年增加了7300万,年增长率为53.3%。这些信息用户由于年龄、学历、专业背景等差异,用户的认知特征、知识储备及结构各不相同,对同一概念、同一事物的理解不尽相同,对知识体系的了解也不同,因此,信息检索的视角及方法也呈现出很大的差异性[5]。
四是信息技术的变革为信息提供及用户需求的多维性提供了实现的可能。即使是传统分类法也出现了仿分、复分、组配等多维分类技术。网络环境下,根据信息分类检索需求,使用超文本链接技术,以类目或相关信息为节点,通过链接的方式,进行节点之间的连接,按照分类体系展开的等级和层次系统地展示分类体系,根据类目之间的关系和用户的需要灵活、多维地揭示信息,最大限度地发挥其信息组织和检索的作用。
2.4 分类检索模式的2.0趋势
分类检索语言在分类检索模式中起核心作用并决定其发展趋势。传统分类法及网络分类法的分类体系是由专业人士根据用户需求进行构建的。Web2.0环境下出现的自由分类法,如大众分类(Tag或Folksonomy)、社会性书签(Social Bookmark)、RSS订阅等,体现了信息分类检索向以用户为中心、注重用户参与、共享共建的发展趋势[6](见图3)。
图3 自由分类法的构建模型
用户用关键词或用概括、分析的表述性词语对其的阅读信息内容进行标引,最后将用户使用频次较高的关键词上升为类目,类目逐渐积累形成体系,这个体系成为对系统内文档进行分类的工具。通过这样一个过程,实现了分类体系的自由构建。自由分类体系具有以下特点:一是将人工语言和自然语言进行了有机结合,呈现出鲜明的后组式特征,向语义标引方向迈出了一步,有利于用户定位符合语义信息的节点;二是采用自然语言来命名类目,直接用词语作为信息标引和检索的标识,降低了使用者的进入门槛;三是分类体系既来源于用户又被用户所使用,用户在制造、浏览、共享信息内容的同时,也开始了信息分类组织。这种由分类专家、网站和用户共同构建的分类体系,体现出的这些互动性、个性化与集体参与的特征,表现了很强的2.0色彩,由此决定的分类检索模式也具有明显的2.0趋势。
3 信息分类检索的模式简析
信息分类检索构成要素的自由组合及其技术演进,形成了各具特色的信息分类检索模式。信息分类检索模式是信息检索活动内在机制的描述,它是信息分类检索原理的具体体现,主要有以下几种模式。
3.1 出版物导航模式
出版物导航是将图书、期刊等出版物按照名称的字母顺序或学科分类体系组织、存储起来形成信息集合,通过分类体系的层级关系从信息集合中检索出所需出版物,然后再浏览出版物内容信息的一种检索方式。最常见的有图书馆的“文献分类索取”、中国知网(CNKI)的“期刊导航”、维普资讯的“期刊导航”、ScienceDirect的“Browse”以及SpringerLink的“内容类型”等。
出版物导航按照技术构成可分为传统图书馆的文献查找、数字出版物导航,按照分类标准可以分为出版物学科分类导航、出版物首字母导航。传统图书馆文献查找的分类标准主要是学科属性,查找的对象主要是图书、期刊等传统文献资源。数字出版物导航是传统出版物分类检索的数字化,分类标准不仅有学科属性还有出版物名称首字母,分类体系及其检索路径也实现了可视化。
3.2 信息分类导航模式
分类导航是指将论文、专利、网页等信息资源按照系统的分类体系组织、存储起来形成信息集合,并通过分类体系一级类目、二级类目、乃至N级类目之间的所属关系进行逐层浏览,从信息集合中找出所需信息的一种检索方式。分类导航无需输入任何文字,只要根据信息检索系统提供的分类体系,层层点击进入,便会查找到您所需的信息资源。最常见的有传统文献信息检索工具(如化学文摘、工程索引等)的“分类检索”、部分门户网站提供的“目录搜索引擎”、中国知网(CNKI)的“专辑导航”、中国知识产权网(CNIPR)专利数据库的“分类检索”以及一些外文数据库的学科分类导航等。
学科分类导航也可以称之为学科浏览,是出版物导航在信息领域内的革新,突出表现在:一是分类检索对象由出版物演变成包括科技论文、专利文献等在内的各种文献信息;二是分类检索工具在网络检索平台上更加可视化、网络化,操作更加简便易行;三是分类检索需求的多维满足,如CNIPR的专利分类检索,可以自由选择上下位类目,通过类目对应的表达式获取检索结果;四是学科分类导航的直接检索结果为各种文献信息,出版物导航的直接检索结果为出版物,间接检索结果为各种文献信息。
3.3 学科分类检索模式
这种模式是利用系统的分类体系,选定一个或多个不同层级的类目对检索活动进行学科或专业范围的限定,再利用主题语言检索方式在限定范围内检索出所需信息的一种检索方式。最常见的有维普资讯的“分类检索”、部分搜索引擎的“分类产品”等。
维普分类检索通过在分类表中选择类目,将选中的类目添加到右边“所选分类”方框中,然后在下面检索框选择检索入口、输入检索词进行关键词检索。其实质是运用所选分类对关键词检索做一个学科或专业范围的限制,是分类检索语言和主题检索语言相融合的一种实现模式,本质上说还是一种关键词检索。
3.4 分类号检索模式
分类号是以信息类型的形式赋予信息内容并用以固定和反映信息排列顺序的一组代码。分类号检索是以分类号作为检索词从信息集合中找出所需信息的一种检索方式。CNKI的“中图分类号”、维普的“分类号”、CNIPR的“分类号”等检索途径都是分类号检索模式的具体体现。
分类号检索模式是从传统图书馆图书“分类索取”及传统检索工具的“分类检索”途径发展而来的。网络环境下,分类号成为信息检索系统内的一个标引、检索的字段。同学科分类检索模式的“所选分类”一样,分类号成为一个限定选择项。这种检索模式将分类检索语言和主题检索语言有机地融合在一起,本质上说是一种关键词检索,只是这个关键词必须是信息检索系统内对应的分类号。
3.5 分类词典检索模式
分类词典就是将主题词按照一种便于检索的方式编排起来,形成主题词表或主题词词典。分类词典一般按照字顺或学科等级进行编排,字顺编排就是按主题词首字母在字母表中的次序,学科等级编排就是族首词按字母表顺序、每个族首词之下逐级划分出下位词。分类词典检索就是利用主题词的这种编排结构进行的一种词语分类检索模式,是“分类—主题”一体化的结果[7]。常见的有INSPEC的“叙词表”检索、EI-Village的“Thesaurus”检索等。
通过分类词典检验检索词是否是标准受控词,如果检索词不是系统的受控词,系统把与其相关的上位概念词、下位概念词和相关概念词等受控词调出,以提供标准受控词检索途径。分类词典检索是利用主题词的聚类特征对主题词进行分类转换以提高检索效果,与学科分类检索模式有很大的相似性,区别在于前者的限定是用规范的主题词,后者是用学科类目。
3.6 分类检索2.0模式
传统分类检索的分类标引是由专业人员来完成,如图书馆的图书分类,分类输出由用户来操作。Web2.0环境下,为了满足用户多维需求的发展,信息的分类标引工作也转移到用户手中,出现了分类检索从信息标引、输入到输出的开放、互动与共享,这种模式就可以称之为分类检索2.0[8]。常见的有部分网站的Tags、RSS订阅以及EI Village的“Tags+Groups”等。
在Engineering Village中,标签是一种由用户自行定义的分类检索方式,使用者可对特定的文献新增或编辑标签,也可以将此标签与特定或不特定的其他用户分享。依照字母顺序、文献量、新颖程度显示所有“标签”,当标签以较大字体或黑体呈现时,表示被该标签标定的文献量较多。点击标签,便可以获取与此对应的信息。此种模式渊源于学科分类导航,但抛弃了规范的分类体系,用自由词代替类目,体现出了浓郁的人性化色彩[9]。用户通过标签可以共享彼此之间的价值信息,揭示微内容以及由自己组织与利用信息上具有较强优势。
4 结束语
信息分类检索是获取信息资源的一个途径。用户通过分类浏览来确定其不明确的信息需求,依据类目的等级和并列关系,扩大或缩小检索范围,对信息需求进行准确定位,提高检全率和检准率。同时,借助高度规范的类目名称或代码标识来揭示信息,通过层层罗列的方式展示类目体系,掌握知识的全貌和内在的逻辑关系。
在信息资源获取上,信息分类检索仍然具有重要的作用,因此,信息分类检索的组成要素在技术革命的推动下不断向前演进,其要素的自由组合和技术发展也催生出了各式各样的信息分类检索模式。但是,信息分类检索并没有发挥其最大的功用,在具体的实践中存在着诸多的问题。针对这些问题,需要从改造传统分类法、规范自由分类法、促进分类主题一体化等方面下手,促使信息分类检索在网络环境下,更好地满足用户的多维需求,将其功能发挥到极致。
收稿日期:2009-07-08