基于数字档案馆的知识组织_语义网络论文

基于数字档案馆的知识组织_语义网络论文

基于数字档案馆的知识组织,本文主要内容关键词为:档案馆论文,组织论文,数字论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

作为网络时代档案馆的新形态,数字档案馆是采用现代信息技术进行档案数字资源的采集、加工、组织、存储、检索和提供利用的网络信息系统。①数字档案馆如何科学有效地进行数字资源组织,如何深入揭示档案数字资源库中的知识单元并对其进行合理组织以便用户快速存取,为用户提供快速、准确的知识服务,是数字档案馆建设中面临的重大问题。良好的知识组织方式是数字档案馆真正发挥效用的必要条件之一。当前,数字档案知识组织的模式主要有分类目录组织、主题组织法、全文索引组织、知识网络组织等。本文对数字档案馆中馆藏档案的数字化、数字资源组织与几种主要的知识组织模式在数字档案馆中的应用进行了初步探讨。

一、知识组织:数字档案馆的新课题

传统档案馆的日常业务是围绕档案实体的组织与管理展开的。档案实体组织管理包括档案的收集、整理、鉴定、立卷、建档、分类、编目、标引、保护等方面工作。对档案实体进行科学的组织管理是档案馆赖以开展服务,挖掘、实现档案价值的基础。档案实体组织主要通过对档案实体的主要特征进行揭示,如全宗名称、案卷名、文件名、档案来源、档案主题等。实体组织的主体——案卷是具有密切联系的若干文件的组合体。有关某一问题或某项工作活动以及其他方面相互密切联系的一系列案卷组成的全宗,则比较具体地反映工作活动的来龙去脉。全宗是档案馆馆藏的基本单位。档案实体组织的最终目的是为了便于存取与管理档案实体。

档案信息组织与档案实体组织两者之间密切联系。如果说档案实体组织主要从档案的外部特征与内部特征来组织档案实体,那么档案信息组织则是通过各种方法从档案的内容特征来组织档案,档案信息组织的结果是形成档案目录与馆藏档案指南以及相应的档案信息数据库,目的是便于用户查找与利用档案。档案信息组织是以档案的分类、编目、著录、标引工作为基础的。其中档案著录对档案的内容与形式特征进行分析、选择和记录,档案标引则对档案文件或案卷进行主题分析,把自然语言转换成规范化检索语言标识,主要是分类号与主题词,以便将其纳入一定的检索系统,组成一个有序的档案记录集合,形成目录数据库。标引按检索体系分为分类标引与主题标引,档案标引应尽可以准确、深入地揭示档案的内容特征。

数字档案馆知识组织是为了便于用户快速定位并获得所需知识,为用户提供便捷的知识服务。知识组织的前提是知识的发现、揭示与描述。数字档案馆的知识组织建立在档案信息的有序组织基础之上。档案信息组织主要着眼于揭示档案个体的内容特征,而档案知识组织则是以知识单元(又称为知识元,知识因子)为单位的组织形式,不但要科学地组织个体知识单元,更要描述、表达与展示知识单元之间的内在联系,在内容揭示的深度与广度方面远远超过信息组织。数字档案馆的知识组织首先要解决档案馆文献的数字化与知识单元的标引问题。作为知识的载体,档案是经鉴定值得永久保存和收藏的文件,是直接记述和反映社会生产、生活的文件材料,一个机关的归档文件材料能够全面地、真实地反映本单位的工作面貌,因此,档案文献内部蕴含的知识之间是密切相关的。如何揭示与反映这些知识之间的密切联系是数字档案馆知识组织的主要任务之一。目前数字档案馆的知识揭示按其方式与深度可以分为分类标引、主题标引、基于全文数据的关键词标引、知识网络描述(知识地图)等四种类型。

二、做好数字档案馆知识组织的基础工作

数字档案馆是传统档案馆的延伸,是档案馆在网络环境下存在与发展的新形态,这既是时代变革背景下社会需求的反映,也是传统的实体档案馆自身不断发展的必然结果。数字档案馆的管理与服务是以实体档案馆丰富的馆藏与扎实的基础工作为前提,以数字化馆藏档案作为其资源主体。数字档案馆知识组织是传统档案实体组织与档案信息组织的深化与高级形式,是以后者为基础的。实现数字档案馆在知识与语义层面的有效组织,必须作好充分准备工作。

1、馆藏档案的数字化

馆藏档案的数字化是数字档案馆知识组织的基础性工作。知识组织使用智能化的知识发现与组织系统对数字资源进行统计、分析、进行数据挖掘与知识重组,并将其纳入已有的知识组织体系之中。大量基础性的数字档案资源及其组织体系是构造数字档案馆知识系统的“活水之源”。馆藏资源的数字化加工是我国许多建设中的数字档案馆工程的首要的、基础性工作之一。②

在进行馆藏资源数字化的过程中,应遵循以下原则:①重点选择自身的特色馆藏;②将价值较高的馆藏档案进行数字化,尤其要重点选择那些具有文物价值与历史价值的珍贵的原始档案;③优先考虑使用频率高的文献信息进行数字化;④根据读者临时需要对某些馆藏档案进行数字化。档案数字化并不只是简单进行档案扫描后交电子文件存档,而应该尽可能做好档案的著录与标引工作,对其内容进行深度揭示。有条件的档案馆可对馆藏档案进行扫描与OCR识别,对档案内容进行文本化处理,建立起档案全文数据库。

2、对数字化馆藏资源进行深度标引

数字档案馆知识组织的前提是进行知识的识别、选择、提取与描述。对数字档案资源库中知识的识别与提取主要通过知识标引来实现。标引是对数字档案的内容特征进行分析、选择与记录的过程。标引人员在对档案文档进行主题分析的基础上,依据一定的分类体系、词表或规范进行。标引者通常应掌握主题分析的方法和规律,熟悉分类表或词表的结构特点、使用方法、标引规则。标引的结果是符合档案内容特征的分类标识与主题标识。标引按照计算机设备的依赖程度,可以分为手工标引、机器辅助标引与自动标引等三种类型。对于数字资源的标引必须采用成熟的元数据标准。对于档案全文数据库,一般要通过计算机自动进行关键词统计、分析,在此基础上实现关键词标引,形成关键词全文索引库。全文索引用档案文本中的语词对档案文档进行全面标引,提高了档案检索的查全率与查准率。对数字化档案进行标引要注意充分利用档案馆现有的工作成果,如档案现有的检索工具以及相应的档案目录数据库,避免重复劳动与从零开始。

3、加强档案全文数据库的建设

档案全文数据库是数字档案馆提供档案全文服务的基础性资源。档案全文数据库的数据来源包括两部分。一部分是以电子文件形式入馆的电子档案,另一部分是对馆藏档案进行扫描与OCR识别后的档案全文文本。全文数据库除了提供档案目录检索之外,主要提供基于全文索引库的全文检索服务。全文索引是以档案全文文本中的语词作标引词的标引方式,是一种由计算机完成的,以数字文档的全部文本作为索引对象的自动标引过程,其标引结果为全文索引库。在自动标引过程中,标引系统根据已有工具如词典、词表、词频特征、句法或结构特征等,使用特定算法对数字化的档案文本进行词法分析,识别出词与非词,内容词与功能词,并采集词的相关信息(如词的出处),最后根据词的词频确定文档的标引用词,在此基础上形成相应的文档集的倒排文档。目前这是一种较为理想的自动索引模式,比较适合检索效率要求较高的档案信息检索的需要。

4、注重数字档案馆中隐性知识的收集与组织,构建档案知识库

要从海量档案数字资源库中发现、获取新知识,仅仅依靠档案本身是不够的,必须依靠人的智能与大量的相关背景知识,而通常数字档案馆并不提供这些相关知识,因此应考虑建立档案知识库。档案知识库除了收录档案中所揭示的事实数据之外,还必须注重相关专家、学者与研究人员的隐性知识的收集,将其外在化(即显性化)后,纳入知识库系统。

开发档案知识库,一般采用以下途径:一是将人工智能技术引入已有的数据库系统,特别是关系型数据库系统,利用数据仓库与知识挖掘技术,建立起档案知识库系统;另一种途径是直接从知识表示着手,建立统一的知识库模型,选择相应的推理机制,构建统一的知识库系统。在实现技术上,可以借鉴某些数据库技术,特别是底层数据结构、数据存储组织与查询优化技术等。知识库系统包括知识库系统和知识库管理系统,其中知识库管理系统主要由推理机模块、知识获取与学习模块、知识库管理维护模块与用户接口等四部分组成。档案知识库的建设是一项复杂浩大的工程,需要保证足够的资金、人力与技术等。实践中,一般可以先选择某个相对独立的领域如“明清户籍制度”建立规模与复杂度较小的知识库,取得建设经验后再逐步对其进行扩展与完善。

三、数字档案馆知识组织模式

知识组织的目的是对知识单元按照一定规则进行有序化组织,便于用户存检。数字档案馆知识组织方法与其所使用的工具是分不开的,特定的组织方法往往依赖特定的知识组织工具。知识组织方法多种多样,按组织的形式可以分为基于知识单元的知识组织与基于知识内在联系的知识组织;按知识的不同形态可以分为显性知识的组织与隐性知识的组织;按知识组织的语言学原理可以分为语法组织、语义组织与语用组织方法等。③在实践中,数字档案馆常用的知识组织模式有分类组织模式、主题组织模式、全文索引模式、知识网络组织模式等等。其中分类组织、主题组织、全文索引法是比较成熟的传统信息组织模式,经改造与优化后可以方便地应用于数字档案馆知识组织;知识网络是当前知识组织研究领域的热点方法,已经在数字图书馆与Web资源管理中得到应用,取得了良好的效果。

1、分类组织

数字档案馆的知识分类是指根据特定的分类体系将数字档案馆的知识单元归入相应的类目之下,并形成分类目录。为了科学合理地进行档案知识分类,应首先编制或选用一个合适的档案分类法。数字档案馆由于馆藏资源和网络用户的特殊性,一般不适合采用传统的档案分类法体系,而面向社会大众服务的门户网站的分类目录体系由于分类不精准、类名设置随意、类目等级混乱等原因也不宜在数字档案馆中简单套用。不同类型的专门数字档案馆应该根据自己的数字馆藏与资源特色,在对已有专门档案分类法进行适当的修改、调整的基础上形成适合自身需要的档案分类法。档案分类法类目与分类等级的设置应根据馆藏数字资源的数量与类型作相应的调整,对于数量较多的专题档案应尽可能细分;档案分类体系的设置应根据馆藏数字资源的具体情况予以确定。利用分类目录服务,数字档案馆用户可以快速找到自身所需要的专门档案,也便于用户进行族性检索与浏览。但用户很难快速熟悉与掌握数字档案馆特定的分类体系,不易把握有关数字资源在分类体系中的路径;在自动分类技术尚不完全成熟的情况下,分类体系的维护与分类标引工作还不能完全离开人工参与,这势必增加数字档案馆工作人员的劳动时间成本。

2、主题组织

主题组织以主题标引为基础。主题标引对档案内容进行主题分析后,用若干主题词对档案的知识内容进行标注与揭示。主题标引分两步,一是从档案中分析、提取有关某一主题的知识,二是将得出的主题概念按照主题词表标出主题词。④主题标引的单位可以是一份文件、一个案卷或一个全宗。标引分为手式标引与自动标引。自动标引是在对文档中的关键词进行词频统计分析的基础上,按照某种规则自动抽取某一关键词并对其进行规范化处理后形成该文档的主题词组。标引的结果是形成相关的主题标引记录。主题索引就是对标引得出的所有主题词进行索引,形成主题词索引数据库。主题索引将同一主题的相关文档进行聚类,便于族性检索,其缺点是手工标引成本高,主题揭示不充分;自动标引主要基于词频的统计分析,有时难以准确进行主题揭示与描述。⑤网络环境下主题索引法渐渐被改良后的关键词索引法所替代。

3、全文索引组织

档案全文数据库与全文索引是档案全文检索的基础。建立档案全文数据库首先要对档案进行数字化加工,对档案实体进行文本化,再按照一定的规则对档案文本中的关键词进行分析、选择、抽取、索引,建立倒排文档,形成全文索引数据库,供用户进行检索查询。全文检索匹配模型通常采用布尔检索模型、向量空间(VSM:Vector Space Model)模型与概率模型等,其中比较成熟、应用较为广泛的是向量空间模型。基于关键词检索的档案全文检索系统实现了在语词层面全面检索档案文本,扩展了档案检索的检索项,实现了简化检索过程,降低了检索难度;但由于全文检索匹配的对象是文档中无语义内涵的字符串,因此无法对文档中的内容即主题概念进行匹配,需要对其进行优化与改造。全文自动索引组织方式对范围较小并且内容相对稳定的档案文本信息的检索较为成功。全文索引能够深入到文献所包含的最小信息单元——语词层面,因而能对数字档案的文本内容进行充分、完备地揭示。检索时,只要输入相应的关键词,即可找到包含该关键词的所有文档,但利用这种索引方式实现内容检索、知识检索还存在明显不足。

4、知识网络组织

知识网络组织法是利用计算机与智能处理技术如语义网络技术、聚类技术、知识地图技术等,将数字资源中蕴含的知识联系以网络的形式予以揭示与呈现。知识网络以网络结构将知识单元之间的相互联系表现出来,克服了以往知识组织方式注重知识单元个体的不足,能帮助人们发现知识之间的隐性联系,因而颇受人们青睐。

知识组织法的典型代表是语义网络。⑥语义网络法(Semantic Network)通过绘制某领域的知识概念之间关系的网状图来描述领域知识单元(用概念结点表示)之间内在联系。语义网络是由节点和边(也称有向弧)组成的一种有向图。其中节点表示事物、对象、行为、性质、状态等;有向边表示节点之间的某种联系或关系。语义网络作为人工智能中一种表达人类记忆和理解语言的方法,有时也被称作联系网(Associative Net),这是因为它的节点都和其他节点相联系或相关。在这种网络中,代替概念的单位是节点,代替概念之间关系的则是节点间的连接弧,称为联想弧。因此这种网络又称为联想网络。它在形式上是一个带有边标记的有向图。由于所有的概念节点均通过联想弧彼此相连,因此语义网络能用于进行知识推导。语义网络分为命题语义网络、数据语义网络、语言语义网络等。其中,命题语义网络是用语义网络来表示命题的内容。以数据为中心的语义网络称为数据语义网络。进行自然语言的分析和理解的语义网络称为语言语义网络。语义网络的可视化表示形式之一是概念地图或知识结构图。

不同的知识组织模式从不同的视角根据不同的知识组织体系来组织档案知识,各有其长处与不足。在实际应用中,往往混合采用多种知识组织模式的做法,如分类主题一体化组织模式、多种模式与全文索引组织模式共同运用,传统组织模式与知识网络组织模式相辅相成,为用户提供多样化的知识存检方式,多角度为用户提供知识服务。尤其是在新的知识组织技术尚不成熟的情况下,充分利用传统的知识组织技术就显得更为重要。实践证明,混合模式能更好地满足用户不同层次的知识需求,提高用户的满意度。

作为发展中的新生事物,我国的数字档案馆建设实践尚处在初探阶段。海量数字化档案与日益增长的电子文件既为人们提供了丰富的信息资源又容易造成“信息过剩”,将人们淹没在信息海洋中。近年来,基于数字档案馆的知识组织与知识服务逐渐被提上议事日程。知识组织是数字档案馆建设中出现的新课题,是数字档案馆深入发展的必然选择,是数字档案馆充分挖掘知识资源,为社会提供知识服务的基础工作。数字档案馆的知识组织以传统档案馆工作为基础,以海量数字档案资源为依托,利用现代先进信息技术挖掘、发现、揭示与呈现数字档案库中的知识及其相互联系。数字档案馆知识组织技术是对传统信息组织技术的继承、发展与创新。传统信息组织模式中的分类组织、主题索引组织、全文索引组织仍然可以应用到数字档案馆的知识组织活动中。知识网络组织模式则可以全面揭示、描述与呈现数字档案资源库中的知识单元及其相互联系,从而实现知识导航与知识服务。科学有效的知识组织将为数字档案馆开辟广阔的发展空间。

注释:

①李国庆:《数字档案馆概论》,北京:中国档案出版社,2003年版。

②杨砚君:《档案数字化建设的实践与思考》,《黑龙江史志》2007年第8期。

③邱均平:《知识管理学》,武汉:武汉大学出版社,2006年版。

④邓绍兴、和宝荣:《档案管理学》,北京:中国人民大学出版社,1989年版。

⑤赖茂生:《知识组织理论与技术》,北京:北京大学信息管理系,2001年版。

⑥王应解:《面向主题的搜索引擎研究》,拉萨:西藏人民出版社,2006年版。

标签:;  ;  ;  ;  ;  ;  ;  

基于数字档案馆的知识组织_语义网络论文
下载Doc文档

猜你喜欢