基于数据结构的现代信息组织研究_数据结构论文

基于数据结构的现代信息组织研究,本文主要内容关键词为:数据结构论文,组织论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近几年来,研究信息组织类型的文献很多,它们从不同的角度对信息组织的类型进行了划分[1]。尚克聪认为,信息组织的基本类型有信息的序化和优化方法。信息的序化方法有语法序化法、信息语义法、语用信息序化法。语法序化法包括号码法、物名法、专门代码法、引证关系法、时序法、地序法等;语义序化法有分类法和主题法;语用序化法包括权值和逻辑序化法等;信息的优化主要包括信息的优选、浓缩、重新表述及三者的综合运用[2]。曹树金等将信息组织的类型划分为两种:其一是针对信息的内容;其二是针对信息的外表属性进行组织的方式[3]。

随着网络信息的飞速增长,关于网络信息组织原理与方法的研究颇受关注:藏国全从网络信息加工程度将网络信息组织划分为一次信息组织、二次信息组织和三次信息组织[4]。张俊从信息存储的角度,认为目前网络信息资源的组织方式有4种:文件方式、数据库方式、主题树方式和超媒体方式[5]。

陈树年认为,网络信息的知识组织模式包括使用语词组织知识和使用分类法组织知识,认为理想的知识组织模式是用“分类—主题”的方式对知识进行组织,从而为不同层次和需求的用户分别提供分类的、主题的、分类—主题的信息查询功能[6]。

马费成等指出,根据因特网信息资源的特征和构成,同时也根据人们对网络信息开发利用的需要,可以把网络信息划分为不同层次[7]。人们按照这些层次来组织和管理网上信息,其中网上一次信息组织方式主要有自由文本方式、超文本方式和主页方式。网上二次信息组织方式主要有查询器形式、指示数据库和菜单形式。如有必要,也可以对网上二次信息进行组织,形成网上三次信息,帮助用户更快捷地找到合适的搜索引擎、目录指南或指示数据库,进一步提高检索效率。

上述研究为学术界认识和了解现代信息组织的原理和技术提供了帮助。本文拟从数据结构的角度对现代信息组织的形式与内容进行初步探讨。

1 基于数据结构的现代信息组织方式

现代信息组织是对具有科学价值的文本、图像、声频、视频、影像和软件以及科学数据等多种媒体信息采用一定的方式,进行选择、著录(或称编目)、标引、存储、整序与维护,实现序化与知识增值,形成一个便于有效利用系统的过程。信息组织的基本目标之一就是构建有序化结构的信息存取系统,不论是文本检索工具,还是各类计算机信息系统,如文献数据库、事实型和数据型检索系统、主题目录、各类搜索引擎等都是为了满足有序化结构这一基本目标而存在的。笔者认为从数据结构的角度探讨现代信息组织方式可以划分为以下几种类型。

1.1 基于线性结构的信息组织

这种组织方式的结构特点是信息存取系统中任意一个单元信息只能有一个直接的居前(上位)概念和一个直接的居后(下位)概念。如果采用数轴来表示,如图1所示。

图1 基于线性结构的组织方式

信息单元A、B、C、D、E、F等在组织系统中均只有一个直接的居前概念和一个直接的居后概念。采用线性结构的信息组织系统包括各类常用文本检索与参考工具及电子存取系统,即按名称、时间、主题词等字顺,文摘号、分类号、专利号、登记号等各类代码组成的检索工具和存取系统,如字典、辞典、百科全书、文摘、索引等均采用线性组织结构组织信息单元。线性结构存取系统的优势是依靠所提供的查找方向来确保检索功能的实现。例如针对图1,如果检索对象是D,当查询到B时,可以断定D在B的后方;当查询到E时,可以断定D在E的前方。这种结构有助于用户克服查询中的盲目性,提高查找特定信息的速度与质量。传统的文本组织系统如书目索引等大多是基于线性结构的组织形式,这种结构往往提供单一的检索路径,人们在浏览或阅读知识信息时,可沿着已给定的线性结构的顺序,层次递进式地进行浏览或阅读,不容易迷失方向,有助于实现文本制作者有序传递信息的目标。这类信息组织方式对用户有很好的引导力。

1.2 基于树型结构的信息组织

树型结构是一种十分重要的数据结构形式,它广泛存在于客观世界中,如人类社会的族谱和各种社会组织结构都可用“树型”来形象表示。在计算机领域,“树”概念也得到了广泛的应用。如在数据库管理系统中,可使用“树”来描述索引结构;在编译程序中,可用树来表示源程序的语法结构。树型结构的广泛应用为人们认识事物和管理事物提供了科学和易于理解的方法。从本质上看,树型结构是以分支关系定义的层次结构,其中最为常用的方法是借用B-树和B+树来实现,而这类树的核心实现算法则是二叉树算法。树型结构组织方式的主要特点是系统中的任意一个信息单元只有一个直接的居前(上位)概念,但可以有多个居后(下位)概念。见图2。

图2 基于树型结构的组织方式

树型结构的检索工具和存取系统有等级体系分类目录、等级体系的分类索引、网络信息组织中的主题树形式。这种组织结构的特点是事先必须要规定一个某种确定的树型概念体系,以便于分门别类地将网络信息进行逐级逐层排序,用户则可以通过其层层隶属的路径查找所需信息,再通过信息线索直接连接到相应的网络信息资源。网络信息的主题树组织为用户提供了一种十分友好的界面,使用户通过此界面可以与实际的网络信息资源之间建立通信与检索机制,如搜索引擎Yahoo,Sohu,Sina等。主题树型组织的优点在于不仅为用户提供了一个简单易行的基于树浏览的网络信息检索界面,而且树型结构具有良好的可扩充性和严密的系统性,使用户可以按图索骥,逐步缩小检索范围,提高查准率。

1.3 基于网状结构的信息组织

此组织形式的基本特点是系统中每一个信息单元都可以有多个居前(上位)概念和多个居后(下位)概念,如图3所示。

图3 基于网状结构的组织方式

这一类检索工具与信息存取系统除带有“参见”和“见”关系的文本式叙词表及各类目录与索引之外,当前应用最为广泛的网状结构存取系统是利用超文本与超媒体技术所构成的各类网络信息检索工具,如搜索引擎、指引库、导航系统、虚拟图书馆等。

超文本组织是目前普遍应用于网络信息存取的基本方法,其显著特点是以每个信息单元为节点(Node),节点与节点之间采用链路(Link)相接,这些节点之间存在着各种各样的向各个方向、层次延伸的复杂的联系,它们中既有单向或双向联系;也有因果关系、从属关系或并列关系的联系等。设链者在组织这些关系时,可以把某个节点与其他节点之间的所有联系都考虑进去,也可以根据需要,有选择地选取其中的一部分,因此,对于某一节点来讲,它与外界的联系就存在一个数量、方向的问题,一般来说,节点越多为用户提供的检索途径就越多。超媒体组织则是超文本技术和多媒体技术的相互结合,采用超媒体组织法可将文字、表格、声音、图形、图像、视频等多种媒体信息以超文本方式进行序化,使用户可以通过高度链接的网络结构在各种信息库中自由航行,查找所需信息。

使用超媒体方式组织网络信息,一方面,可将网上所能获得的各种媒体资源采用超媒体技术将其有机地以网状结构编织在一起,以便用户从任一节点出发,从不同角度浏览和查询信息,这不仅符合人们联想思维的习惯,而且还可以用来方便地描述和建立各媒体之间的语义联系。其节点内容可多可少,组织信息十分灵活方便;但另一方面,它又存在着导航力弱,容易迷航的缺陷,影响在线浏览的顺利进行。为此,必须同时兼顾这两方面,既有良好的自由度(非线性信息结构中信息单元与信息单元的联系),又有良好的导航力(信息结构引导浏览者实现查询目标的能力),使它们两者的合力最大,促进在线浏览快速、有效地进行。

1.4 基于多维结构的信息组织

这是一种根据事物具有的多种属性及信息的多向成族现象构造存取系统的信息组织方式。如传统文献分类组织中的复分方法及主题组织中的组配方法都可以为某一信息源从不同角度构建不同的检索标识以组成存取系统,为信息查询提供多种途径。这也是一种为了减少信息存取过程中的“同址代码”而采取的措施。如在依笔画排列的汉语词典中,具有相同笔画数的字即为“同址词”,若干“同址代码”的信息必须进行再一次排序,否则将不利于信息组织与检索。因此在只采用某一排序方式的系统中常常会产生“同址代码”,如在分类系统中,具有相同分类号的不同信息源即具有同址代码。在文献信息管理领域,解决“同址代码”的方法主要有两种:其一是引入辅助特征进行再排序和细分,如文献分类法中辅助复分表的应用就是对具有相同学科专业主表类号的细分与再组织。其二是将简单概念组配成复杂概念,即采用少量的信息单元进行方面特征组配或限定特征组配,以形成不同的排列与组合形式来对应或揭示大量的不完全相同的信息源。如同采用1234567七个不同的音符,可以编制千万歌曲一样。

分类法的辅助复分和主题词表的概念组配以及信息存取系统中的布尔逻辑组配,其原理大致相同,均是以少量信息单元的不同排列与组合形式来揭示和组织大量的信息源,所不同的是分类法复分的是关于不同方面的属性的组合。多维结构的认识论基础是可以从不同的角度来认识一个事物,以形成不同的概念标识,如以某信息源为对象,可从著者、题名、主题内容、学科专业、语言文字、载体形式、出版时间、文献类型等角度来认识并确定不同的标识,如将上述特征标识进行不同的排列组合,即可形成对该信息源的网状描述,对于众多信息源的多维组织原理亦然。当前各类网络信息存取系统都在力求探索多维组织结构的实现。多维结构的优势是采用少量有序的特征代码的组合形式来描述和组织众多的信息源,而不是单维结构中采用单个代码标识直接对应信息单元。多维结构的信息组织为多途径检索查询打下了基础。

2 关于存取系统数据结构的思考

现代信息组织的多种结构各有利弊,如基于网状数据结构的超文本信息结构最大优点就在于它类似于人脑的思维结构方式,能充分发挥人的潜力,有利于用户进行思考和学习;但另一方面,它又存在着导航性差,容易迷航的缺陷,影响在线浏览的顺利进行。因此,现代信息组织形式必将趋向整体复合结构模式的发展,充分发挥各种数据结构的优势,实现现代信息组织管理信息资源的强大功能。

2.1 兼顾自由度与导航力

任何一种知识信息的存取形式,都具有一定的引导用户学习、实现其目标的功能,在此,我们将信息结构引导浏览者实现查询目标的能力定义为信息结构的导航力,把信息结构中信息单元与信息单元的联系定义为该节点的自由度(非线性结构)[8]。那么,优秀的信息存取结构必须兼顾自由度与导航力这两方面,既有良好的自由度,又有良好的导航力,使两者的合力处于最佳状态,促进在线浏览快速、有效地进行。

根据实际情况,充分发挥自由度的优势,譬如字典、百科知识类检索工具的超文本的网状组织结构,主要是用来存储信息或作为工具书进行查阅用的,它可以充分发挥自由度的优势;面向特定的知识领域或行业的信息组织结构,其结构要兼顾上述自由度与导航力两者,但其中有些领域,如动植物分类、乐器知识、地理知识等,可据其不同性质,侧重于发挥自由度的作用。针对不同的浏览对象,它们所用的信息结构侧重也应有所不同,面向普通用户和面向特定领域用户要有所区别;面向有经验用户和面向无经验用户亦要有所区别。总之,针对不同的服务对象、不同阶层的用户、不同知识结构和浏览视野的用户等情况,应有区别地选择各种基于数据的信息组织方式。

2.2 基于复合结构的组织方式

上述几种结构是信息组织活动中最基本的系统内部结构形式,而任何复杂的理想检索工具或信息存取系统都是由上述基本结构复合而成的,唯有如此才能充分发挥各种组织形式的优势互补。在实际的信息存取系统中,其结构都纷纷趋向多级复合结构,但同样都可以根据标识单元(或代码)之间的关系将其分解为上述基本结构类型。如《科学文摘》(SA)光盘数据库的各种索引与正文之间就是一种网状结构,而文摘正文部分的各级类目组织又呈树型结构,同级类目之下的文摘条目按线型序列,等等;现代网络信息资源的组织方式趋于多种方式的结合使用,如搜索引擎采用了上面划分的基于网状结构和线性结构的超媒体方式和数据库方式,虚拟图书馆采用了主题树方式和数据库方式。

将来各种信息组织系统必将是趋于各种数据结构复合的组织形式,发挥自由度与导航力的优势。

2.3 改进超文本,发展超空间结构

目前超文本的主要问题是信息迷航、偏离主题、增加信息资源有序化组织的难度与检索的局限性,未来的超文本的发展要改进基于超文本浏览的模式,其技术方法有建立专业性词典、建立专业性网络资源指引库、利用自动跟踪技术及时更新指引库,等等,但更为直接的是丰富超文本的多维网状数据结构即链接结构,增强超文本结构的灵活性,提高用户的认知水平,让超文本的多维数据结构真正体现知识结构的内涵。目前,超文本的网状结构的一个研究方向是开发“超空间”的数据结构,即在一个实时的、N维的空间里建立一个类似罗盘的导航结构,用来指示各个超文本段落片段的位置。在传统的技术基础上,结合应用新型技术,实现线性与非线性结合、静态与动态结合是超文本技术发展的一个重要方向。随着人工智能、认知科学、数据挖掘、多媒体、计算机技术与网络技术等学科的发展,超文本技术将消除信息迷航与偏离主题两大弊病,最终实现智能、高效、快速而灵活的信息组织。

现代信息存取系统在继承原有文献型结构的基础上,又顺应信息技术的改进发展了多种信息组织结构。在今天信息大爆炸、新媒体层出不穷及以计算机为主的信息技术革命不断发展和用户需求激增的网络环境中,研究现代信息组织系统的各种基于数据结构的组织方式对于信息资源的管理与利用有着十分重要的意义与作用。

标签:;  ;  ;  ;  ;  ;  

基于数据结构的现代信息组织研究_数据结构论文
下载Doc文档

猜你喜欢