数字图书馆的知识组织策略_数字图书馆论文

数字图书馆的知识组织策略_数字图书馆论文

数字图书馆知识组织策略,本文主要内容关键词为:数字图书馆论文,策略论文,组织论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在数字图书馆建设中,怎样科学、合理、方便地组织各种数字信息与知识,是有待我们探索的现实问题。本文就数字图书馆知识组织的具体策略问题作初步论述。

1 数字图书馆与传统图书馆知识组织的异同

1.1 数字图书馆与传统图书馆知识组织的相同之处

1.1.1 知识内容的组织方法

数字图书馆和传统图书馆都可利用下列方法来组织知识内容:

●知识聚类。它是将知识按一定的聚类标准分门别类地加以类集和序化的过程,包括以学科聚类、以主题概念聚类,以人聚类、以用聚类、以时空聚类五种类型[1]。

●知识分类。它是将客观知识按其逻辑关系组织成有序,是客观知识的逻辑结构的重现。图书分类法就是知识分类的一种实用方法,它是以客观知识内容的相关性为依据而建立的有序化结构。

●引用组织。在客观知识中,各种知识间的逻辑关联性可以通过知识生产者联系起来。知识生产者引用了别人的知识(或观点),他所创造的知识又被别人所引用,这样通过知识生产和传播过程的引用关系,就可以揭示引用的知识与被引用的知识之间的相互联系[2]。

●文摘组织。它是对文献资料中的知识内容进行归纳概括,并将不重要的知识去掉,保留重要的知识内容。在文摘组织过程中,需要改变知识的表述符号量,但不改变知识内容。

●情报分析研究。它是根据各种方法,从情报资料包含的知识内容中挑选出真实有用的部分,甚至是根据概念的虚实和判断的真假,重新进行推理,创造出未知的新知识的一种知识组织方法。

1.1.2 常用工具

●分类法。长期以来,分类法成为图书馆知识组织的两大工具之一。分类法是将表示各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号(分类号)作为文献主题标识的一类情报检索语言。分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从知识分类检索文献的途径[3]。分类法有体系分类法和组配分类法两种类型。体系分类法依据的是“概念划分与概括”原理,如《中国图书馆分类法》;组配分类法依据“概念分析与综合”原理,《冒号分类法》。不管是体系分类法还是组配分类法,它们都是按照知识组织的原则构建的,即用类目名称(文献主题概念)表示知识因子,用等级体系以及参照、注释、互见、交替等方法来直接显示类目之间的知识关联,用学科区分及分类号的层次序列作为组织知识集合的基本方式。

●主题法。主题法成为图书馆知识组织的另一种主要工具。主题法是以自然语言的语词经过规范处理后直接作为文献主题标识,并按字顺排列,结合参照体系和其他方法来间接地显示概念之间的关系,提供从事物名称检索文献的途径。主题法的主要特点是按事物集中文献,用参照系统等方法间接显示概念或事物之间的关系,提供事物名称的字顺检索途径。它包括标题法、单元词法、叙词法、关键词法、自由标引法及其他自然语言检索法。主题法用主题词表示知识因子,用参照系统来表示知识关联,用语词标识系统作为组织知识的基本方式。

1.2 数字图书馆与传统图书馆知识组织的不同之处

1.2.1 知识组织方式

(1)传统图书馆知识组织方式

●文献。传统图书馆对知识进行的研究是以文献为基本单位的,知识组织的方法基本上是情报检索语言中的体系分类法、标题法、单元词法、关键词法和叙词法,并在这些方法的基础上编制出各种目录、索引、文摘。这些方法对文献内容进行概念逻辑划分,将成千上万的文献按其标识排成一个有序的系统,向人们提供手工检索或半自动检索。毋庸置疑,这种以文献为基础的知识组织方式和知识组织系统,在克服知识信息的猛烈增长和无序累积方面发挥了巨大作用。然而,以文献为基础的图书馆知识组织系统是低效率的,它是一种静态的、列举式的结构,不能展示人类知识创造的动态逻辑过程,也不能按人们创造过程的特点来提供知识和信息,还不能正确反映系统的知识累积量、存贮量和人们从系统的知识获取量。因此,用文献间接表示、组织知识虽然带来了方便,却不能真实地描述和表达知识[4]。

●数据。以数据单元为基础的图书馆知识组织系统,可以向用户直接提供他们所需的信息或情报,无需再查原始文献。数据信息系统所存贮的数据非常广泛,既包含传统的数字形式,又包括各种事实、概念、图表、化学结构式、物理参数、产品名称、标准、食谱等等。英国学者布鲁克斯(B.C.Brookes)提出的“认识地图”(又称认知地图、知识地图)实际上是通过相互引证的文献之间的内部联系来绘制的,即首先分析相互引证的文献,查明是什么思想、观点和理论被后继论文引用;如果被引事项可以用一个简单的陈述来表示,则该陈述可以分解为有限数量的概念(即数据),然后按其联系绘制成环形网状图,即“认识地图”。布鲁克斯指出,当“认识地图”逐渐扩大并趋于稳定时,便可以作为数据库实现纯情报检索。因此,以数据单元为基础的知识组织系统扩展了以文献为基础的知识组织系统功能,在知识组织理论上向前迈进了一步。

(2)数字图书馆知识组织方式[5]

●文件。文件是一个具有符号名的一组相关的逻辑记录的集合。一个文件可以包括数据、程序或字符,是计算机保存处理结果的基本单位。以文件方式来进行数字图书馆知识组织具有简单方便、能存储非结构化信息等优点,但也存在文件大小和数量的冲突、对结构化信息的组织与管理软弱无力的重大缺陷。

●数据库。数据库是在计算机存储设备上合理存放的相互关联的数据集合。它具有高速处理大量结构化和非结构化数据、以信息项作为数据的最小存取单位的优势,但是目前数据库技术不能提供数据信息之间的知识关联。

●主题树。主题树是一种网络信息资源的组织方式,它实际是提供一种界面机制,用户通过这个界面只与网络信息资源的主题目录进行交流,并通过主题目录间接地连接并使用多个实际的数据资源。利用主题树方式组织知识具有基于树浏览方式的检索界面、能按分类体系逐步查询、具有良好的可扩充性和严密的系统性的特点,但是利用主题树组织知识必须事先建立一套完整的主题目录分类体系。

●超媒体。超媒体技术是超文本技术与多媒体技术相结合的产物,它将文字、表格、声音、图形、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构在各种信息库或知识库中自由航行,找到所需要的任何媒体的信息或知识。超媒体方式具有联想式的信息组织方式、具有图、文、声并茂的信息服务功能等优点,但是由于采用浏览的方式进行信息搜索,当超媒体网络过于庞大时,用户很难迅速而准确地定位于真正需要的信息节点上。

●知识库。知识库是以一致的形式存储知识的机构。知识库中的知识是高度结构化的符号数据。数据库和知识库有如下的不同:[6]

数据库

知识库

存储大量数据,少量完整性条件 存储大量事实,规则及大量完整性约束

结构简单,数据类型少 结构复杂,数据类型多

规则性,精确,频繁修改

不规则性,不大精确,不常修改

一般人员可更新

专家更新

即席查询90%规则存取

模式修改少 经常性修改模式

表示事实,管理事实

表示规则和事实,管理事实,完整性约束、规则

推理能力差,不支持专门的推理规则 推理能力强,支持专门的推理规则

不支持受控制的搜索

支持受控制的搜索

历史数据,静态

动态数据,既有历史的又有现在的

从上表可以看出知识库具有比数据库更强的知识组织功能。数字图书馆可以采用组织数据库或者各种表及文件的方法来组织知识库,如顺序文件、索引文件、多重链接表文件、倒排文件及散列文件等[7]。知识库系统将从组织结构上支持数字图书馆知识组织。

1.2.2 数字图书馆知识组织的特殊工具

(1)自然语言

自然语言是指用文献作者或文摘、提要的作者原来使用的语言,其中包括关键词、自由词和出现在文献题名、摘要或正文中的语词[8]。自然语言不同于分类检索语言、主题检索语言和代码检索语言等人工语言,它的检索用词普遍取自文献本身(题名、摘要、各级小标题、全文),个别由标引人员自主赋予(即自由标引)。相对于使用人工语言来说,使用自然语言的优点是:①输入成本低②全库内容检索;③不存在人为索引错误;④对新检索词不存在延迟;⑤能够高性能地精确地检索单个词语、人名、组织等;⑥能够彻底地为高级检索提供潜能[9]。但自然语言由于不受规范化的控制,不能反映概念语词之间的一一对应关系,也不能反映概念关系的隐含性,因而无法排除多词一义、一词多义含糊的现象,往往使得主题内容相同的文献可能因标引人员的不同或同一标引人员标引时间的不同,而造成主题词前后不一致,由此影响标引的一致性;另外,由于一个概念可以用几个不同的词汇来表达,使得相关文献不能相对集中,检索时容易漏检。因此,在实际操作中,通常对自然语言采取一些辅助措施(如使用后控词表),以弥补其缺陷。

(2)元数据

元数据是关于数据的数据。一方面,元数据是数据的抽象,是用来描述和规定数据特征、相互关系以及相应操作的数据的集合;另一方面,元数据也是一种比普通数据更高层面的数据。它具有三个基本特征[10]:①元数据是一种编码体系,它能根据某种标准来对文献中的词及其他元素进行编码,从而揭示、描述文献的这些基本元素。②元数据不仅可以描述数字化信息的内容特征,而且可以描述数字化信息的基本属性,使得数字化信息得以被有效传播、交流和利用。③元数据为数字化信息资源建立了一种机器可理解框架。元数据具有五项功能,即数字资源的描述功能(或者说发现功能)、整合功能、控制功能、代理功能和保存功能。在网络信息资源组织方面,元数据具有描述、定位、搜寻、评估、选择的作用[11]。

(3)元知识

元知识是“关于知识的知识”。有人把知识分为零级知识(即关于问题求解的常识性知识和原理性知识,表现为思维过程所用的事实、定理、方法、实验对象和操作等)、一级知识(即由于零级知识对求解复杂的问题常常失灵而出现的具有鲜明个性的启发性知识)、二级知识(即在思维过程中如何有效地运用零级知识和一级知识的有关知识)和更高级知识[12],人们常说的知识就对应于零级知识和一级知识,元知识就对应于二级知识及更高级知识。元知识可用来描述一类知识或知识集合的内容、结构和一般特征,还可以从一个知识集合中选用知识。元知识一般分为两类:一类是关于我们知道的知识,这类元知识刻划了已知知识的内容、结构和一般特征;另一类是关于如何运用知识的元知识。元知识是思维的核心,元知识的使用贯穿思维活动的始终。没有元知识,人们无法描述知识、选用知识和认识知识。因此,元知识将有助于我们从更高层次和更广空间来进行数字图书馆的知识组织。

2 数字图书馆知识组织策略

明确数字图书馆与传统图书馆知识组织的异同,有助于我们更好地进行数字图书馆的知识组织。笔者认为,今后我们可以采取如下策略来组织数字图书馆知识。

2.1 采用分类主题一体化的知识组织模式

分类主题一体化应成为目前数字图书馆知识组织的适用模式,它通过采用分类主题一体化语言来组织知识。分类主题一体化语言是由分类法与主题法有机结合而成的一种标引语言。它是在一个语言系统中包括分类表和叙词表两个主要部分,并对两部分的概念、标识、参照、索引实施统一控制,从而同时满足分类标引和主题标引的需要;也可以是由原来独立的一种或几种分类语言与一种或几种主题语言合成的语言对应系统,以实现分类语言与主题语言的标识互换。至今已出现了分面叙词表、分类表与叙词表对应表、分类法及其叙词表式索引、集成词表四种类型的分类主题一体化语言。《中国分类主题词表》属于“分类表与叙词表对应表”类,自1994年出版以来,由于本身操作上的困难使其得不到广泛应用。

但随着信息技术特别是检索技术的发展,我们应该利用分类主题一体化方式来进行数字图书馆的知识组织。因为分类主题一体化实现了分类语言与主题语言的结构整合和性能互补,具有如下优点:①标引人员可以用它同时完成分类标引与主题标引,两种数据可以互相转换,节省了人力、物力和时间;②用户可以在一个检索系统中进行主题字顺检索和分类检索,既方便了用户,又提高了检索效率;③在先编分面分类表,再编字顺叙词表的情况下,可以保证编表选词的全面性和均衡性,有助词间关系显示的完整性和准确性;④依据人工拟定的分类表或分类表数据,可以由计算机自动生成字顺叙词表,提高编表的速度与质量;⑤有助于建立一个统一机构来负责一体化语言的编制与管理[13]。目前已有一些机构(包括数字图书馆)开始利用基于分类主题一体化知识组织模式的雏形——搜索引擎来组织网络信息。

搜索引擎的分类体系虽然有较好的适应性和实用性,但是它在知识体系的建构和展示等方面仍有不少缺陷,这体现在:①现有中文搜索引擎分类大纲的设置不够科学,主要是知识领域不全和知识体系不严密;②类目之间逻辑性差,常有隶属关系混乱的情况;③类名用语不准确且缺少注释,难以判断礤外延;④类目按字顺排列或随意排列,割裂了类自之间的逻辑联系,不利于查询;⑤类目划分缺少规范,无规律可循,个别搜索引擎的分类体系动态性过强,影响其稳定性;⑥不同中文搜索引擎大类设置与划分、类名的表述与外延、类目的排列等都各不相同,不利于知识组织与信息交流[4]。因此,利用搜索引擎来组织知识只能是初级模式或者说简单模式。

目前数字图书馆实际可行的知识组织模式是用分类主题一体化的方式对知识进行组织。它应该包括三个部分:①一个结构简明的知识分类体系,通过该知识分类系统,实现对信息知识领域的宏观控制;②一个智能化的控制词表,实现对作者语言与用户语言的控制和转换;③建立分类体系与控制词表的系统联系,将标引语言进而也将作者语言和用户语言纳入分类体系,来实现自然语言检索。

2.2 利用无数据来组织数字图书馆知识

虽然元知识可以最大限度地满足数字图书馆知识组织的要求,但是元知识的广泛利用还有待知识工程(包括人工智能)的发展和普及。而人工智能的许多方面仍处在探索阶段,距离实际的推广应用还有一段时间。运用元数据来组织数字图书馆知识是目前较好的选择,这体现在知识发现、知识保存两方面。

2.2.1 知识发现

为解决网络信息资源的无序性与分散性问题,许多人对网络资源进行了手工编目与加工,并着重在资源的选择性、文献与权限等方面给某些网址和数据集增添了许多有价值的摘要说明。通过人工追加的元数据而非机器抽取的关键词,用户可以构造更确切的查询式来对相关度较高的结果集进行检索,从而得到比用关键词等检索方式更精确的检索结果[15]。

互联网搜索计划(The Intemet Scout Project)中的艾萨克项目(Project Isaac)主要负责分布式元数据馆藏的建立、维护、索引与检索,现已取得了一定的进展[16]。它利用国际标准化协议,如浅层目录访问协议(LDAP)和公共索引协议(CIP)来把地区性分布式元数据馆藏连接成一个虚拟的元数据馆藏。通过这个虚拟的元数据馆藏,用户可以查询在不同地点的多个馆藏信息,并得到单一的"选中列表"或结果集。这时用户就可仔细观察元数据记录,或者访问实际网络资源。

主题服务中的资源组织与发现项目(ROADS)作为英国电子图书馆计划的基础项目,能够为某些领域(如医学、化学)专家提供一种人工获得高质量信息数据库的知识发现机制。每个ROADS数据库由一系列元数据模块组成,每个模块代表不同的信息资源。国际互联网匿名文件传输协议存档模块(IAFA Template)被用来作为所有ROADS数据库的元数据标准,所有ROADS数据库通过它实现相互兼容。ROADS还可由最高网关无缝访问所有子网关,从而提供全面、准确、高质量的信息与知识[17]。

2.2.2 知识保存

如今我们面临着字信息与知识的长期保存问题,而数字信息与知识的长期保存都与元数据的创建和维护有关。数字档案馆中的大学研究图书馆合作模型(CURL Exemplars in Digital Archives,Cedars)研究项目为开放式存档信息系统(OAIS)建立了一个参考模型,并被视为国际标准草案。OAIS参考模型运用信息对象类目分类法(Taxonomy of Information Object Classes)标识和区分了用来支持数字信息与知识保存的不同种类的元数据,并把每种信息与知识和它的元数据作为一个“信息包”(Information Package)捆绑在一起。一个信息包由“内容信息”(Content Information)和“保存描述信息”(Preservation Description Information)两部分组成[18]。内容信息聚集了各种保存数字资源或数据对象,保存描述信息则聚集了各种描述元数据。

为利用元数据来长期保存数字信息与知识,网络化欧洲存贮图书馆(NEDLIB)定义了一种电子出版物存贮系统(DSEP)[19]。它由摄入、存档、保存、数据管理、访问和系统管理六大模块组成,各模块分别利用不同种元数据来共同完成对数字信息与知识的长期保存。摄入模块接收提交信息包(Submission Information Package,SIP),SIP用来收集图书馆或其它部门递交的出版物信息。通过核实出版物和建立元数据后,SIP就转变成存档信息包(Archival Information Package,AIP)进入存档模块,而元数据被送到数据管理模块;存档模块存贮AIP和比特流(bit streams),并按要求把AIP传送到访问模块;保存模块负责保存策略——迁移和仿真的执行,并把产生的保存型元数据反馈给数据管理模块;数据管理模块为系统管理模块存贮了监控存贮系统的元数据;访问模块通过传播信息包(Dissemination Information Package,DIP)实现对电子出版物及其相关元数据的利用;系统管理模块监控DSEP系统的存档程序。

2.3 采用专家系统泉组织数字图书馆知识

专家系统是一种智能计算机程序,它用一定的知识和推理进程去解释通常需要人的知识和经验才能解决的复杂问题。专家系统由知识库,推理机制、知识获取和用户界面组成。知识库包括与该专家系统所面对的问题相关的事实和启发式知识:经验和诀窍。推理机制包括知识库管理系统和推理机,前者自动地控制,扩展更新知识库中的知识,它根据推理过程的需求去搜索适用的知识,能对知识库中的知识作正确的解释;后者在问题求解过程中生成并控制推理的进程,使用知识库中的知识。知识获取功能帮助用户获取相关专家的知识,使之结构化为知识库和推理机适用的知识。用户界面即专家系统的解释接口[20]。与现行各类知识组织系统比较,专家系统在知识组织上有下述典型特征:①专家系统不需要存入全部实际的数据元素,而以某种更为基本的方式存贮必需的数据元素和刻划数据元素的规则,在需要时可以通过学习和推理机制实现知识和信息的重构;②专家系统按款目意义而非给定的序列公式或参数组织知识库,从而能准确表示用户提问和准确输出那些完全满足意义查询的数据;③专家系统具有阅读和理解能力,能自动而非人工输入新增加的数据;④专家系统以自然语言来实现人机接口,并以很强的交返形式启发用户准确表达自己的知识需求,具有很强的系统易用性。专家系统的这些性能决定了它在知识组织方面比以往任何其他方法都显得灵活和先进。

对自然语言的理解,专家系统需要如下知识:①语音知识:用于组成词、句的语音成份的识别,包括音位、音素等内容;②词素知识:关于词汇、词的结构、词素成份的知识,用于词的分析和生成,词典的构造等过程;③句法知识:与组词成句的结构形式有关,用于对句子的语法结构的判断、分析与生成;④语义知识:词、短语和句子的意义,用于语义结构的分析;⑤语用知识:关于语言在不同语境中使用,以及语境对语义的影响的知识,用于对语境的描述和按语境判断语义的过程;⑥外界知识:与语言表达有关的外界知识分为常识和领域知识,也包括对其他人信念、目的等认知结构的了解,是语言理解的基础[21]。在专家系统中,这些知识主要通过知识表示与知识获取来得到组织。

2.3.1 知识表示

知识表示就是关于如何描述事物所作的一组约定,是知识的符号化过程。从专家系统用户的角度来看,只有具有可理解性、可访问性和解释性的知识表示才是合理的。一般说来,知识表示方法可分为两类:说明式方法和过程型方法。

说明式方法的主要优点是:形式简单;新事实易于加进系统,且不改变其他事实或局部过程,利于知识获取。它又可分为如下几种[22]:

●逻辑表示,即使用常数、变量、函数、谓词、逻辑联结词和量词等概念,把事实表示成某种逻辑(一阶或高阶逻辑、多值逻辑、模态逻辑、模糊逻辑等)中的逻辑公式,把知识库看成是逻辑公司的集合。

●语义网络,是由表示实体、概念、情况等的结点和表示结点间关系的弧或链组成。用语义网络表示知识,可对领域问题进行明显的、结构的语义学描述,尤其是表示分类层次结构。

●框架,是关于一个事物的详细的知识和经验的汇总,它由一组槽组成,每个槽描述事物的一个方面。

●产生式规则,是一种前因后果式表达模型,由两个部分构成,前一部分称之为条件,如状态、前提、原因等;后一部分称为结果,如活动、结论、后果等。

过程型方法的主要优点是:便于表达如何处理问题的知识;能够表述不适合说明式方法表达的知识,如缺省推理和概率推理等;易于表达怎样高效处理问题的启发式知识。脚本就是其中一种方法,它是描述特定范围内一串原型事件的结构,通常由进入条件、脚本结果、道具、角色、场景五部分组成。尽管脚本不适用于表示各种知识,但对表达预先构思好的特定知识是有效的。

2.3.2 知识获取

知识获取是把用于解答专门领域的问题的知识从拥有这种知识的知识源取出并转换为一特定计算机表示,或从经验中抽取知识并将其转换为一特定的计算机表示[23]。在数字图书馆知识组织中,知识获取的主要步骤依次是:[24]

●问题识别。这一阶段的主要任务是明确专家系统在数字图书馆知识组织中的作用,概括地了解完成相应任务所需要的各种知识,可以通过对话方式、口述备忘录、观察专家工作过程及其他合适的辅助工具系统。在这里有三方面的工作:其一是要把数字图书馆知识组织问题通过输入输出进行确定化;其二是确定人工智能的必要性;其三是对所用的知识源进行判别,以选择最为合适的知识。

●概念化。这一阶段要尽可能仔细地分析专家系统所要解决知识组织问题的性质,以建立一个适宜的问题求解过程模型。即把数字图书馆知识组织专家解决问题的过程和推理过程明确起来,把概念与重要概念的关系明确起来,并为有关专家模型、用户模型提供有关概念,加速抽取目标知识的过程。

●形式化。这个阶段是把由概念化阶段中所明确的概念、重要概念、部分问题等用专家系统构筑工具的框架形式表示出来,根据模型的情况选择合适的人工智能方式,对框架内的知识进行结构化。形式化过程需要考虑假设空间、过程模型、数据的特征等三个问题。为明确假设空间,必须将概念形式化,再将这些概念连接起来。

●实现。这阶段是将形式化的知识映射到为此问题选定的工具表示框架中,即把形式化的知识通过知识表示框架变换为计算机上推理实现的某种形式。

●测试。在已构成了原型知识库的基础上,必须对知识库进行修改、再构造,其中包括重新设计形式化概念、表示方法或实现系统的精练。它有两种方式,一种是静态测试,主要检验知识库构造的整体性;一种是动态测试,主要检验知识库的一致性。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆的知识组织策略_数字图书馆论文
下载Doc文档

猜你喜欢