网络信息资源分类组织研究进展,本文主要内容关键词为:研究进展论文,信息资源论文,组织论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
我国图书情报学界对分类法在网络信息资源组织中应用的研究,一方面因为分类法在信息 网络中应用基础和统治地位受到很大的挑战,另一方面因为网络信息资源实际上并未得到充 分揭示和有效组织,网络用户的信息检索仍有困难而且效率不高。此外,由于计算机等现代 信息技术在我国推广应用不够,图情与计算机的结合互动不够,分类法机编、机读化的实际 应用也就比较薄弱了。有关研究内容和成果主要集中在以下几个方面。
1 网络信息环境的变革背景
1.1 网络信息资源的特点
网络信息资源的内容和形式都十分丰富,是集文字、图像、声音视频于一体的多媒体信息 。由于采用电子数据形式表示,计算机自动化和网络化使数据分布广泛而分散,超文本组织 方式使数据难以规范和结构化,网络信息的内容特征抽取变得复杂,用户对应用界面的要求 也提高了。具体地说,网络信息资源的基本特点是[1,2,3,4]:
1.1.1 种类繁多而庞杂
在因特网开放式环境下,信息被自由地上传下载,网络信息资源从数量到内容到表现形式 都随因特网发展而有突破性增长,呈现出多类型、多媒体、多语种、跨地理、可共享等特征 。
1.1.2 随机灵活而无序 因特网采用数字化存储技术和超文本、超媒体链接技术,构建网络信息的超大规模数据库 、多媒体表达和分布式体系结构,允许自由地进行网络信息资源的上传下载。网络信息的发 布、更新和淘汰都能根据实际需要及时地加以调整,同时也造成信息变化过快、分布分散的 无序性。
1.1.3 质量优劣相杂
网络信息资源包括网上电子出版物、动态信息、联机数据库、软件资源以及其他信息如个 人主页、BBS、E-mail等。从宏观上看,由于因特网上的信息没有统一的控制,信息质量参 差不齐,信息无序、不规范。但从某个局部,如某个网页、数据库来看,是有控制的,相对 集中而有序和规范的。
1.2 网络用户的特点
网络信息服务深入全社会,网络用户的范围十分广泛,他们所处社会角色、所受教育程度 、所属学科专业领域各不相同,造成上网目的不同,对网络信息服务的要求和利用方式也不 同了。
2 传统分类法用于网络信息资源组织的优势及其功能
2.1 网络环境对信息检索语言的要求
新的信息环境必然引起信息检索系统的变革,同时对检索系统重要组成部分的信息检索语 言提出了新要求[4]。首先,由于信息载体电子化、数据库机读化,检索语言由以分类语言 为主变为以叙词语言为主,由单一的检索语言变为多种检索语言并用或混用;其次,信息资 源网络的开放,使检索语言的使用对象由原先的图书情报专业标引人员和检索人员,扩大到 专业不同、层次不一的广大终端用户。传统分类法存在的更新滞后、标引难度大、使用者智 力负担过重等弊端,在联机环境中明显地暴露出来。这决定了网络信息分类法要有更强的易 用性。第三,超文本、超媒体、全文检索技术以及计算机网络技术的发展,使检索语言的联 机显示、多数据库查询中的词汇兼容互换、自然语言检索接口和自动标引等问题,成为 检索语言应着重研究和解决的。我们应该看到,将图书馆分类系统应用于网络资源组织,对 传统分类体系而言,是一种挑战。
2.2 传统分类法的优势
传统图书馆分类法即体系分类法,将知识的学科范畴属性层层划分,以代码为标识对信息 分门别类地予以揭示和组织成系统。它能较全面和客观地反映知识全貌及其内在的逻辑联系 ,它的知识系统性和标识语言的通用性及族性检索能力和扩/缩检功能,是其他情报检索语 言所不具备也无法取代的。从现有的各种联机数据库、光盘检索系统与网络查询工具的结构 与功能看,分类法采用划分范畴的树状结构组织与揭示信息,提供按学科专业或范畴领域检 索信息资源的途径,具有良好的稳定性。因此,它不仅适用于文本信息,而且能解决非文本 、超文本信息等揭示与组织问题。
2.3 网络信息环境下分类法的功能
近年来,各国图书情报工作者逐步建立了一批以图书馆分类法为工具的网络信息资源检索 系统。对新环境下传统分类法功能的分析研究,就是从探讨这些系统的类型、特点入手的[5 ]。这类系统从学科角度揭示网络信息资源,是组织网上学术性文献的主要工具。传统分类 法要在网络环境下找到自己的合适位置,关键是要在语言特性和信息环境要求之间找到结合 点[3]。就目前国际上传统分类法的研究动态和发展前景来看,传统分类法在网络信息环境 下的角色主要是[1-3,6]:
2.3.1 排架依据。纸质印刷型文献还将继续存在,书刊依然需要依分类法排架。
2.3.2 联机浏览检索工具。自80年代起,计算机分类检索的研究和应用表现出纵深发展 的趋势,不仅是分类法的简单应用,而且力图利用分类法的特点,通过与其他检索手段的结 合,使分类法在计算机环境中的独特作用得到发挥,如批处理、交互检索、与主题词对照检 索等[7]。在现有的OPAC中,已有一些系统增加了“浏览周围书架”的功能,对通过任何途 径查到的条目,均可以由此进入分类系统,扩大或缩小检索范围。
2.3.3 组织非文本信息。在网络信息资源中,一般的文献数据库多采用关键词等主题法 作为信息组织与揭示的主要手段。这是因为以关键词为标识能直接专指地表达各类文献的主 题概念,比较适用于文本信息的组织。但对于一些非文本信息,如数值、图形、图象、声音 和空间对象等非结构化信息,不易格式化、规范化,其内容特征难于用文字来表达。分类法 的聚 类功能及其代码标识为非文本信息资源提供了一条可行的途径,能对其进行粗分类、集中, 并结合其他方式使之有序化。
2.3.4 管理超文本系统。超文本系统是信息网络中的相关信息构成的一种非线性信息组 织方式。这种方式灵活方便,根据信息间的内在联系提供浏览和查询各类信息的不同角度, 用户在查询过程中可以随时转换到自己感兴趣的信息。但它随意性过大,需要对它进行适当 控制,这样,直接反映概念间相互关系的分类法成为一个有效的控制手段。分类法的语义关 系网络与超文本系统有某种相似之处,将它用于超文本系统,可以起到指南的作用,对用户 的检索过程和检索范围进行控制,为不同专业知识水平的用户提供查询信息的捷径。从广义 上来理解,传统分类法的等级体系结构在网络环境下无处不在,每条网上信息的发布都能看 到等级结构被用于整序。
2.3.5 浏览和组织网络信息资源。传统分类法是典型的树状结构体系,对知识的组织采 用从一般到具体、从宽到窄层层划分的方式,符合人们认识事物的基本思维方式。学科的等 级结构体系使用户在计算机检索中可查询上、下位类,可按类号索引显示和检索所需的主题 内容,从而查找相关信息内容。
2.3.6 组织网络信息资源的通用工具。传统分类法以号码作标识,其等级体系反映了概 念间内在的逻辑关系,每个概念在这个类目体系中都有相对固定的位置,不会因所用语种的 不同发生变化,可以作为不同信息系统之间、不同受控词表之间的转换语言或中介语言。此 外,分类法的等级体系具有很大的伸缩性、适合不同使用单位选择应用。故分类法在现有的 检索语言中最有可能成为国际通用的语言,成为网络信息组织的通用工具。
2.3.7 另外,分类法在信息网络中的应用,将促进分类主题一体化的发展;分类法的类 目知识框架,可以用作专家系统中知识表达的基础,起到过滤和评价网络信息的作用。
3 传统分类法的局限及其改造应用的方向和途径
3.1 传统分类法的局限
现实的情况是,传统分类法在网络信息组织中的应用是很有限的。例如,现有利用《中图 法》的只有CERNET的“网络指南针”和“超星”数字图书馆等极少数网站。而几乎所有的书 目数据库检索系统中,都采用主题语言。据统计,其中有86%以上的书目数据库采用主题词 表进行标引和查找[8];网络搜索引擎借助计算机机器人软件,通过关键词匹配,搜集、组 织 和检索网络信息;网络主题目录利用自创的分类体系组织和检索网络信息。这些都说明,传 统分类法自身功能上存在局限。
概括地说,传统分类法更新慢、体系变更难度大、类目关系表达能力不足、类目名称专指 性差、分类规则和技术不易掌握等,都阻碍了分类法在计算机和网络环境中的应用。分类法 要充分发挥其独到的作用,必将有一个艰难的改造过程。
3.2 分类法改造发展的原则
3.2.1 现有网络检索工具分析评价
因特网上的检索工具,按工作原理的不同,可分为三大类:专题指南、搜索引擎和元搜索 引擎。其中,专题指南拥有自己的专题等级类目,典型的如Yahoo!,Sohu的分类目录等,实 际上已成为目前类分网络信息的新的分类法。通过对它们的分类原理及其体系结构进行分析 ,找到优势与不足,可以作为改造传统分类法或建立新的网络信息分类体系的借鉴和参考[2 ,5,9-13]。
专题指南采用宽泛的主题领域建立类目体系,用户对此进行笼统或较为笼统的主题浏览和 检索,类目动态性、灵活性强,从而有很高的适应性和实用性;多向成族的类目,由计算机 技术和超文本链接技术实现自由跳转;与计算机检索软件完美结合,提高了检索速度和准确 性;有友好的用户界面和帮助信息。
尽管成就引人瞩目,但专题指南的分类体系主要由非图书情报专业人员编制,缺少情报检 索语言理论的指导和吸收检索语言研究的成果,在知识体系的建构和展示等方面也有不足, 主 要是:类目大纲设置不科学、不严密,类目体系不一致,类目层次深浅不一,类目按字顺排 列或随意排列割裂了类目之间的逻辑联系,类名不准确不规范、缺少注释,未使用分类代码 。如此,造成检索信息不够专深、交叉分散、类目质量低而误导用户,都使检索效率降低。
3.2.2 分类法改造发展的原则
了解了现有网络分类检索工具存在的问题,我们就能结合传统分类法的优势,确立分类法 改造发展的原则。总的原则是,建立网上信息的知识分类系统,必须面向网络信息资源、面 向网络技术环境、面向网络用户,突出其实用性和易用性,充分借鉴网上现有分类体系的经 验和传统分类法的理论、技术和成果[2]。具体来说,包括[10,14]:数据保证原则,指分 类体系应能覆盖因特网上丰富、全面、完整的信息数据;实用性原则,指类目体系符合网络 信息资源的实际分布状况和更新动态;自然性原则,指分类体系面向广大普通用户,类名应 基本采用自然语言,必须充分研究现有大型网络分类检索工具所用类名;直接性原则,指分 类的层次不宜太多,跳转的次数不应超过4-5次;快捷原则,指应使每一个类名对应一个快 捷键或一个类号,以便熟练用户快速查找。
图书馆文献标引和检索的各项要求,推动了图书分类法理论的进步,继而催发了分类法的 修改。那么,分类法的修改就应当考虑社会进步、理论成熟、用户需求等内外因素,正视分 类法的稳定性和可变性间客观存在的界限。分类法可变性的力度只能局限在与用户标引文献 、组织文献的要求相匹配的范围内[15]。
3.2.3 分类法的发展方向和改造方法
传统图书馆分类法要发展适用于网络信息资源的揭示和组织,在基础理论和实践研究中, 其改造发展的方向概括为4点:
①机编化、机读化。[6-7,16-17]计算机已经普及到一般图书馆,情报检索计算机化也将 普遍实现。情报语言要在计算机检索中充分发挥作用,必须有分类词表的机读版,这是分类 法进入网络的必要前提。分类法电子化不仅会直接影响到分类法在网络环境中的使用能力, 同时也关系到分类理论和技术的探讨。如DDC电子化的目标,就是使DDC由面向图书馆的系统 变为面向各种信息环境的通用型的知识组织工具,这种发展思路是与当前的信息环境相适应 的。其他的如UDC、LCC等也都实现了机读化、机管化。在我国,北京图书馆出版社于2000年 6月正式出版《中图法》电子版,它具有印刷版所不及的灵活多样,全文多维检索和显示浏 览功能,分单机版和网络版,备有编目接口,实现文献、信息的计算机辅助标引[40]。《中 国分类主题词表》尽管有机读版,但在实际应用方面与真正的分类表检索存在差距,它主要 是分类号-主题词的对应以及一些频率统计,对分类表本身结构及关系未有反映。
②分类主题一体化。[1-2,6,17-19]分类语言和主题语言孰优孰劣的争论,归结为提出分 类主题一体化的理论和发展模式,成为情报检索语言发展的重要趋势之一。在网络环境下, 多种检索途径的要求更加突出,单纯使用分类或词语的方法组织知识都满足不了网络信息查 询的需要,理想的模式是“分类主题一体化”,在采用分类体系进行系统显示的同时,一般 还提供著者、题名、类名或关键词、标题词等多种形式对知识进行揭示和组织,从而为不同 层次和需求的用户,分别提供分类的、主题的、分类-主题的信息查询功能。这样,有利于 加强分类浏览和主题浏览之间的联系,增强两者之间自由切换的能力,便于从主题的角度充 分利用分类系统。现有的网络检索工具,大都以搜索引擎为主,辅以分类目录,使强大的检 索功能与科学的分类体系相结合,发挥两者的优势。国内的进展主要反映在将《中国分类主 题词表》机读化,纳入计算机检索系统使计算机辅助文献分类主题标引一体化成为现实,通 过主题词-分类号的对应来改进分类检索效率。
③分面组配化。众多研究者一致认为,分面组配化是一条改进体系分类法的出路,因为分 面分类法的特性更加适合于计算机处理,分面分类号与深度类名词汇互相连接,在分类检索 途径和主题检索途径都能更有效地利用;同时,分面分类法容量相当大,只有它能与世界上 主题检索的发展趋势融合起来[7]。国外大型分类法如BC2、UDC等都把其分面改造作为生存 的关键,DDC21版明确“把分面化作为修订的方向和分类法增强主题检索能力的手段”。《 中国分类主题词表》仍是一部低层次的对照型词表,今后的改进应向分面叙词表方向发展; 从《中图法》的发展趋势看,它会逐步增加其后组配功能,向分面分类表靠近[5]。现有的 网络分类目录如Yahoo!,在数字化信息的组织中成功地应用分面分析的思想,建立起一套 完整、全面、等级层次鲜明的主题目录以提高信息组织的质量[11],它根据上下文组合信息 内容,利用冒号作为统一分隔符标记信息内容,通过“開”提供和跳换类目体系中不同的路 径分支入口,但是,由于当前组配分类理论尚不完善,组配分类法应用在图书情报工作领域 仍有一定的局限性,所以最好结合体系法与组配法的长处,形成混合型分类语言,其中融入 大量组配因素,将会大大提高分类法的兼容性[20]。在计算机检索技术的应用和支持下,分 类表转换和超文本链接使分面分类有可能得以实现。不过,如果主类号组配技术被广泛应用 ,一个分类号在末端失去等级性,对扩/缩检功能可能有一定影响[21]。
④易用化。情报检索过程中,终端用户将从各方面直接介入,因此,情报检索语言必须以 终端用户、而不仅仅是以标引人员作为词表使用对象来考虑。在网络环境下,用户获取信息 的方便性和易用性越来越受重视[2]。从用户的观点看,分类法必须是直观和透明的,在类 目 设置、类表显示和类目的使用上,包括词汇的选择,都要考虑用户的要求,提供友好的用户 界面和及时的帮助,并能根据用户类型和用户需求的变化不断作出调整。特别是类目注释说 明和界面显示形式,都直接与类表的使用效果相联系。方便用户历来是DDC修订的出发点之 一[16]。DDC21版对易用性的实施更加充分,如在充实注释的同时简化注释结构,着重对收 录范围、索引术语、显示形式进行改进,还十分注意通过合理方法减少类表变动幅度,为用 户改用新版提供了便利。视窗DDC(DFW)的用户界面更是有根本性变化,操作平台由DOS平台 升为Windows平台,提供4个固定视图、11个功能明确的窗口和窗口间的拖放交互功能,不仅 增强了DDC的易用性,还有力地支持DDC的分面化。改进的具体方法是:标准化和兼容化,包 括中文分类法的统一,MARC分类数据格式的规范,类表间的兼容转换,分类主题一体化,多 语种的联合。计算机化,包括分类表的机编、机读、机管,以计算机为基础的自动化技术、 专家智能系统、超文本技术、自然语言处理技术的应用。国际化,中文分类法应用面的扩展 ,包括联机数据库和因特网信息检索工具,借鉴和吸收国际大型分类法修订、发展的成功经 验。合作化,包括国内图书情报界的合作,与国外同行的交流,与相关计算机、哲学、心理 学等学科专家的联合,用户反馈的调查。
3.3 分类法应用模式的设计与实验
陈树年认为,建立相对统一的中文搜索引擎知识分类体系,是必要且可行的[2]。综合性分 类法趋向统一是信息资源共享趋势的结果。尽管从哲学和科学上对人类知识的体系还有不同 的认识,但对知识领域的划分是基本一致的。故而,他提出一个适用于面向一般用户的综合 性中文搜索引擎的分类大纲,包括22个大类,分别是:哲学与宗教,人文与社会科学,社会 文化,文学与艺术,教育与人才,体育与健身,生活与休闲娱乐,旅游与服务业,医学与健 康,经济与金融,政治,法律,军事,历史与地理,自然科学,农业科学,工程技术,计算 机与网络,新闻与媒体,图书馆与参考资料,国家与地区,综合网站等,并在类目下对各类 涉及的知识活动领域作出注释。他还指出,以学术和技术为主的搜索引擎、专业搜索引擎, 最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网络信息资源的揭示和 组织,因为其科学的体系和严密的结构是非专业人员所不能独立完成的。如CERNET使用《中 图法》作为网站收藏的分类工具。
由于汉语的特殊性,计算机自动化技术在处理中文文献的自动分词、文献主题分析、概念 提取等问题时,尚无成熟的办法,中文自动分类标引仍停留在实验阶段。我国现有的几个图 书馆自动化集成系统都没有实现文献的自动分类。得以广泛应用的,是计算机辅助分类系统 。“HOPE计算机辅助标引系统”,是一个在PC计算机、中文Windows环境下开发的实用系统 ,彻底实现了《中国分类主题词表》的电子化,具有方便的词表浏览和双标引功能,分类主 题一体化检索功能。交互式使用方式适应性强,能处理多主题文献分别标引相对应的分类号 ,满足排架和检索的不同要求[22]。
上海博物馆藏品检索系统,采用支持C/S模式INFORMIX关系数据库产品,分类语言、叙词语 言的互补性及非受控语言和受控语言实用性集于一体,充分体现了检索语言整体化的思想[8 ]。该系统采用计算机辅助分面主题标引,收集到各分面的词汇;采用后控技术对各分面的 词汇分别进行语义联系,建成6个词族表;为每个词族表设计代码系统——分类号,采用分 类体系。基于此,系统的检索功能,包括提问词的菜单全选择式输入功能、下位扩检功能、 同义词规范及扩检功能、逻辑式的自动构造功能,以及由于INFORMIX支持SQL语言而容易实 现多种一致条件匹配功能。经实践操作,认为分类语言对实现下位扩检或上位扩检是极有利 的,分面标引和分面词表在计算机信息系统中具有一定的作用[8]。
4 小结
目前,网络信息资源分类组织的研究,都从网络环境的变化和要求出发,分析传统分类法 在网络环境下的适应性,对比现有网络信息检索工具的优劣所在,提出传统分类法的改进必 要性和方向,或者探讨建立新的网络信息分类体系。总的来说,理论研究多而实用性设计和 实验太少。有多篇文章呼吁,我们的图书情报研究者、工作人员应正视自己在网络新环境中 的适应性和重要作用,加快步伐和计算机等相关学科的专家一起,建立中文网络信息资源分 类揭示与组织的应用系统。
研究者一致认为,传统图书馆分类法应对自身体系结构、类名术语等方面作出不同程度的 修订和调整。因此,分类表的计算机化和分面组配化是传统分类法改造发展的必然路向。由 于认识到现有条件的相对落后,如在计算机自动化技术方面,研究者积极引进和借鉴国外大 型分类法如DDC、UDC等的发展经验,从中找到适合我国国情、适合中文环境的启示和做法。
张琪玉指出我国情报语言向21世纪前进的方向时,认为情报检索语言当前改进的主要方向 是 它的易用性,包括综合性体系分类法的分面组配化、自然语言接口和对应转换词典的编制、 与国际接轨的问题、分类表的超文本立体网络化、分类法与主题法彻底的一体化,用户对各 种语言使用过程的研究等。从中可以预见,未来的情报语言是人工语言与自然语言的融合, 是分类-主题一体化的高级阶段。分类法仍将是一种在检索系统中对知识或主题概念进行控 制的工具,是情报语言学现有理论和方法在网络条件下的利用和发展[17]。