数字图书馆的知识组织,本文主要内容关键词为:数字图书馆论文,组织论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250
通俗地说,知识组织是指对知识客体所进行的诸如整理、加工、引导、提示、控制等一系列组织化过程及其方法[1]。数字图书馆对社会文献流进行组织,其目的是为了组织客观知识,其实质是为了满足客观知识主观化的需要。数字图书馆馆藏中的数字化文献可以以记录知识的任何形式出现,也可以是任何类型文献(如期刊、图书、数据集、消息、实验记录、财经报告、航空图或浪漫电影等)与任何格式(如文本、静态图像、动态图像、声音夹片等)的组合。当我们从“图书秩序”走向“数字秩序”时,人工制品类型和机构的变化,与知识生产、保护和消费相关的法律体系的变化,无疑都将会对书目控制产生影响,我们将面对许多关于如何在数字秩序中组织知识的问题[2]。本文拟对数字图书馆的知识组织作初步论述。
1 数字图书馆知识组织的原则
1.1 科学性原则
在数字图书馆知识组织中,知识被视为一种网状结构,由众多结点(即知识因子)和结点间联系(即知识关联)两要素组成。知识因子是组成知识的最细微成分,一个概念、一种事物都可以成为组成知识的一个因子;知识关联是为若干个知识因子间建立起的联系[3]。知识组织是针对知识因子的有序化和知识关联的网络化原则进行的。这正如孙家正部长指出的:“数字图书馆作为一项高新技术工程,一定要按科学规律办,以科学态度办”[4]。
1.2 系统性原则
数字图书馆的信息资源由现实馆藏和虚拟馆藏两部分组成。现实馆藏是指本馆所拥有的数字化信息资源,虚拟馆藏是指本馆读者借助于计算机系统、通信网络等设备可以广泛利用(如检索、传输等)的网上电子信息资源的总和。只有系统地、连续地从馆内与馆外、国内与国外收集和积累各种数字信息资源,才能不断充实和发展数字图书馆的现实馆藏和虚拟馆藏,发挥信息资源的效用。尤其是本馆特色资源的采集,更应力求保持系统、连贯和完整,决不能时断时续、支离破碎、不成系统[5]。
1.3 标准化原则
传统图书馆在信息资源建设过程中所采用的软件系统差异很大,如ILAS系统、息洋图书馆集成系统、文津图书馆管理系统等;而各馆的数据库建设也各自为政,其标准和格式都不一致,导致开发的数据库无法在网上实现共享。因此,数字图书馆的知识组织必须按标准化原则进行,解决数据的标准化问题。这里所说的标准化包括硬件、软件和书目数据的标准化,计算机的通用性、兼容性、可扩展性和联网能力,软件的有效性、可靠性、开发性,著录格式与编目规则的通用性与可转换性,以及通信协议标准化、安全保障技术标准化等,其中数据格式的标准化、描述语言的标准化和标引语言的标准化是其中的主要内容。我们必须用国内、国际标准来有效地组织数字图书馆信息资源。
1.4 共享性原则
由于每个数字图书馆不可能拥有世界上所有的信息资源,共享其他数字图书馆的信息资源就很有必要。只有通过多个图书馆间的协同发展,形成一个互为补充、互为利用、互为推动的文献信息资源保障体系,并且提供网上文献信息服务,文献信息网络才能充分发挥作用[6]。美国所有图书馆的书刊资源已实现了全国的网络共享,这主要是通过OCLC和RLIN两大联机联合目录系统实现的。OCLC目前拥有25000多个成员馆,遍及世界上63个国家和地区,有多种语言的书目记录3700万条,反映6亿条馆藏记录;RLIN拥有57个成员馆的2700万条书目记录[7]。这些联机联合编目数据库的共建与共享已成为美国图书馆网的资源基础。
1.5 效益性原则
数字图书馆知识组织的效益性包括社会效益和经济效益两个主要方面。社会效益是指数字图书馆运行所产生的有益于社会进步的效果,具体表现在数字图书馆信息资源的完整性、及时性,数字图书馆给读者或用户所带来的方便与满意程度,数字图书馆对社会发展所起促进作用等方面。经济效益主要是指数字图书馆对科技进步,宏观决策以及对相关产业的发展所起的作用[8]。
1.6 特色性原则
数字图书馆的知识组织应从网络整体出发进行资源的合理配置,把数字图书馆建设纳入到整个地区、国家和全球信息网络中去,加强各馆富有特色的数字化文献信息资源的开发,建立起各具特色的数字图书馆。只有能反映并提供馆藏特色资源的数字图书馆才能拥有众多的用户和求得自身的长远发展。如美国国会图书馆所启动的“美国的记忆计划”,就是对美国的历史文献材料(如名人手迹、手稿、早期书刊、图片、照片、绘画、地图、早期电影、录音录像、服装等)进行数字化,并按主题收藏在国家数字图书馆中。
1.7 安全性原则
由于目前计算机病毒、计算机黑客、软件炸弹与信息威慑、信息垃圾相当严重,给数字图书馆的安全性提出了挑战,因此,在数字图书馆知识组织中必须认真考虑和妥善处理信息的安全问题。这就要求我们采取一些必要的安全保障措施来保证数字图书馆网络与信息资源的安全与正常运行。常采用的保护措施有:防火墙技术、VPN(虚拟专用网)技术、加密技术、网络病毒防治技术、访问控制技术、跟踪检测技术等。
2 数字图书馆知识组织的方式
目前数字图书馆使用较为广泛的知识组织方式有4种:文件方式、数据库方式、主题树方式和超媒体方式。
2.1 文件方式
文件是一个具有符号名的一组相关的逻辑记录的集合。一个文件可以包括数据、程序或字符,是计算机保存处理结果的基本单位。以文件方式组织数字图书馆信息资源有以下优点[9]:
● 实现简单方便。计算机有一整套文件处理的理论与技术,在数字图书馆知识组织中可以充分利用这些现成的技术和方法,极大地降低知识组织的难度和成本;
● 能存储非结构化信息。数字图书馆可以以文件的形式保存各种图形、图像、图表、音频、视频等非结构化信息。
但随着数字图书馆的发展和信息资源的泛滥,以文件方式来组织知识有其难以克服的缺陷:
● 文件大小和数量的冲突。如果文件大小随着信息量的增加而同步增长,势必使知识组织过程中网络传输负载越来越大;而如果将文件大小限制在适合网络传输的限度内,又会大大增加文件的数量,使文件系统的管理越来越复杂,从而降低网络信息资源的利用率,也即降低了知识组织的效率;
● 对结构化信息的组织与管理软弱无力。文件系统只涉及信息的简单逻辑结构,当信息结构较为复杂时,就难以实现有效的控制和管理,从而降低知识组织的效率。
2.2 数据库方式
数据库是在计算机存储设备上合理存放的相互关联的数据集合。数据是形式化的信息,是一系列信息的组合形式。信息是有意义的数据,是经过收集、记录、处理和存储的可供检索的事实与数据。知识是人们在改造世界的实践中所获得的认识和经验的总和,是人类特有的信息,是信息的一部分[10]。数据、信息、知识三者之间的这种关系决定了数据库成为知识组织的方式之一,它的主要特点是:
● 能高速处理大量结构化和非结构化数据。如今的关系数据库在DBMS(数据库管理系统)中增加了对图形、图像、声音、超文本等多媒体数据的存储、管理、存取和处理功能,实现了从数据管理到对象管理的扩展,增加了知识管理的能力;面向对象数据库比传统数据库包含更多的数据语义信息,对复杂数据对象的表达能力更强[11];
● 以信息项作为数据的最小存取单位。数据库技术既可以存取数据库中某一个或某一组数据字段,也可以存取一个或一组记录,还可以根据用户需求灵活地改变查询结果集的大小,从而降低网络数据传输的负载。
但是,目前的数据库技术不能提供数据信息之间的知识关联,从而引发了人们对关系知识库、面向对象知识库、专家系统知识库的研究。可以预测,今后这些知识库的研究成果将广泛应用于数字图书馆的知识组织中。
2.3 主题树方式
主题树是一种网络信息资源的组织方式。它实际是提供一种界面机制,用户通过这个界面只与网络信息资源的主题目录进行交流,并通过主题目录间接地连结并使用多个实际的数据资源[12]。利用主题树方式组织知识有如下优点:
● 主题树提供了一个基于树浏览方式的简单易用的网络信息检索与利用界面;
● 信息检索由用户按照规定的分类体系逐步查询,目的性强,查准率高;
● 树型目录结构具有良好的可扩充性和严密的系统性。
但是,利用主题树组织知识必须事先建立一套完整的主题目录分类体系,该体系的科学性、合理性直接影响和决定了用户利用信息资源的效果;然而为保证主题树结构的清晰性和资源的可用性,主题目录体系结构又不宜过于复杂,每一类目下的信息索引条目也不宜过多,这就与体系的完整性产生了冲突。
2.4 超媒体方式
超媒体技术是超文本技术与多媒体技术相结合的产物,它将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库或知识库中自由航行,找到所需要的任何媒体的信息或知识。超媒体方式在组织知识上的优点表现在:
● 具有联想式的信息组织方式。超媒体采用非线性的由节点和链组成的网状结构组织块状信息,类似于人类的联想记忆结构,用户可以在网络中主动浏览和航行;
● 具有图、文、声并茂的信息服务功能。超媒体技术把数字、文本、声音、图形、视频等有机地整合,方便地描述和建立各媒体信息之间的语义关系,能满足人们自然交流信息的过程。但是由于采用浏览的方式进行信息搜索,当超媒体网络过于庞大时,用户很难迅速而准确地定位于真正需要的信息节点上,这是超媒体方式在知识组织中的主要缺陷。
3 数字图书馆知识组织的工具
在人类的知识结构中,学科与领域的分层类聚所形成的等级并列模式,与负载和浓缩知识内容的概念所形成的节点与网络模式,是人们日常使用与表达知识的两种基本操作。分类法以公共知识的层次聚类为基础,主题法以公共知识的概念网络为基础,都分别模拟了上面的两种操作,成为近代两大类型的知识组织工具[13]。
3.1 分类法
分类法是将表示各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号(分类号)作为文献主题标识的一类情报检索语言。分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从知识分类检索文献的途径。知识分类包括事物分类和学科分类。将事物和学科概念纳入知识分类体系,因而是对知识进行系统组织的最合理的方法和利用人类知识的最有效方法。
分类法有体系分类法和组配分类法两种类型。体系分类法依据的是“概念划分与概括”原理,具有如下优势[14]:
● 具有按学科或专业集中地、系统地揭示文献情报内容的功能,可使检索者鸟瞰一个学科或专业文献的全貌,并可触类旁通,十分方便和有效地掌握和利用一个学科或专业范围的知识;
● 对于从学科或专业出发的泛指性检索课题,可达到较高的检全率,检索速度也较快;
● 满足专指性检索要求的能力随其类目的深入细分程度而定。
但体系分类法也存在一些缺陷:
● 由于它按学科、专业性来建立事物概念分类体系,因此导致从不同学科论述同一事物的文献未集中在一起,当要对某一事物进行全面检索时容易产生漏检;
● 它的层层划分、层层隶属的原则不符合事物多向成类或概念多向成族的实际,产生“集中与分散”的矛盾;
● 缺乏按任意特征进行组配检索的能力;
● 不易查找一些比较细小的概念或新学科新事物概念。
组配分类法依据“概念分析与综合”原理,是对体系分类法的进一步发展,它具有以下优点:
● 对于已有的和还在不断出现的文献主题概念的包罗能力和及时反映能力强;
● 可以达到比体系分类法更高的专指度;
● 符合事物多向成类的实际,达到按任何一个特征(事物属性、主题因素)集中文献,或从任何一个角度检索文献;
● 能比较自由地扩大或缩小检索范围,还能进行精确的组配检索。
但是,组配分类法也存在局限性,集中体现在检索性能与它的使用方式密切相关:当它作后组式使用时,就能发挥其优势;当在分面类号离散条件下,它所隐含的分类体系便无法实现;当它作先组散组式使用时,一部分优点就会丧失。
不管是体系分类法还是组配分类法,它们都是按照知识组织的原则构建的,即用类目名称(文献主题概念)表示知识因子,用等级体系以及参照、注释、互见、交替等方法来直接显示类目之间的知识关联,用学科区分及分类号的层次序列作为组织知识集合的基本方式,因而成为知识组织的工具之一。
3.2 主题法
主题法即主题检索语言,是以自然语言的语词经过规范处理后直接作为文献主题标识,并按字顺排列,结合参照体系和其他方法来间接地显示概念之间的关系,提供从事物名称检索文献的途径。它包括标题法、单元词法、叙词法、关键词法、自由标引法及其他自然语言检索法。标题法和叙词法是主题法系统中两种主要的情报检索语言,具有如下共同的特点[15]:
● 按文献所论述的主题集中文献;
● 用规范化的人们日常使用的名词术语来表达文献所论述的事物;
● 用参照系统等间接显示主题之间的关系;
● 用字顺序列直接提供主题检索途径。
从这些特征中我们可以得出一个结论:主题法也是按照知识组织的原则来建立的,即用主题词表示知识因子,用参照系统来表示知识关联,用语词标识系统作为组织知识的基本方式,因而成为知识组织的工具之一。
收稿日期:2000-09-18