从文本信息秩序到数字信息秩序——信息组织进展研究,本文主要内容关键词为:信息论文,秩序论文,进展论文,文本论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息组织是用户检索获取信息的基础,信息组织的方式随着信息技术的发展不断变化 ,一方面为了适应数字化的信息环境,传统的适应文本秩序的信息组织方法——分类法 和主题词表不断进行改造;另一方面数字化信息环境的形成与发展,又迫使产生新的适 应数字信息秩序的组织方式。在这一点上,主要有两个主攻方面,一是将始源于哲学应 用于人工智能领域的本体(ontology)应用于信息组织,并成为构建机器可理解的语义网 的基础。这时说信息组织,已经不是以信息资源为中心,而是将信息资源按照知识体系 进行重组进行知识组织。二是建立一个独立于Web的、新的应用平台——知识网格。网 格技术通过高性能计算环境实现全球分布资源的共享、管理、协同和控制。[1]
1 传统的信息组织工具——分类法、主题词表
分类法和主题词表是传统图书馆中最重要的知识组织工具,是数代图书馆员智慧和经 验的积累,它们的知识组织能力在两百多年的发展和应用过程中得到了充分证明和不断 的丰富。
1.1 分类法
国内的图书情报部门主要采用《中国图书馆分类法》、《中国科学院图书馆图书分类 法》和《中国人民大学图书馆图书分类法》。这3部分类法在传统图书馆中的文献分类 、建立分类著录卡片、建立分类索引工具中发挥了重要作用,并且目前仍在沿用。这3 种分类法都属于线性分类法,应用主要体现在分类排架和目录组织,即可以按学科门类 和知识体系进行浏览和检索。分类法不仅在文本秩序阶段发挥了重大的作用,传统图书 馆中专业馆员对其极为熟悉并乐于使用,而且在数字环境下,分类法为网络信息组织和 访问提供了一种解决办法。但网络数字环境中使用的分类法是经过网络工作者改造的。 这种由网站自己开发的分类表被称为自编分类表。类目是按一定的主题进行组织,并辅 之以年代、地区等分类形成分类主题树状结构目录,使用了分类表来组织知识的站点具 有以下几个优点:
一是主题分类列表可以作为一种导航工具,帮助用户通过浏览查找所需要的信息资源 。
二是分类表是等级式的,因而能够提高查全率和查准率。
三是如果一个网站所使用的是某部比较通用的分类表,那么它能够比较容易对其它使 用了相同分类表的网站实现跨数据库浏览和主题检索。
四是类目与信息记录之间通过超文本技术直接连接,可以加强交替类目、参见与注释 类目之间的横向联系,加强多重列类的纵向联系,可以揭示知识空间的多维联系。[2]
1.2 主题词表
主题词表又称为叙词表,它是一种语义词典,由术语及术语之间的各种关系组成,能 反映某学科领域的语义相关概念。ANSI Thesaurus标准(Z39.19-1980)规定有13种词汇 间关系。这13种关系完全包括了中国《汉语主题词表》“用、代、属、分、参”结构。
例如,《医学主题词表》(Medical Subject Headings,简称MeSH)是美国医学图书馆 编纂的一部大型医学专业叙词表,是手工检索IM(Index Medicus)和计算机检索Medline 的主题词文本,也是医学领域使用最广泛最具权威的词表。
MeSH的基本要素是叙词(亦称主题词),其理论依据是建立在叙词性质基础上的,在编 制上吸取了多种情报检索语言的原理和方法。首先,它保留了单元词组配的基本原理; 其次,采用组配分类法的概念组配来替代单元词法的字面组配;第三,采用标题法的预 先组配方法(即采用词组);第四,对词进行了严格规范化处理,以保证词与概念的一一 对应;第五,有完善的参照系统和独特的范畴索引、轮排索引。[3]我们可以看出MeSH 的知识组织特点:
PubMed系统是由美国家医学图书馆(NLM)下属的国家生物技术信息中心(National
Center for Biotechnology Information,NCBI)开发的、基于WWW的、用于检索
MEDLINE、PreMEDLINE数据库的检索系统。这些数据库中信息组织充分运用了主题词表 ,并提供主题词方式检索途径,查全率和查准率都很高。但是这是应用于专门开发的数 据库,如果主题词表用于组织动态的、海量的、分布的数字化信息资源,其结构和内容 滞后、普通用户难于掌握的缺陷成为信息组织的瓶颈,严重影响信息的使用,因此传统 的主题词表不能很好地适应数字环境,因此网络公司纷纷出品以关键词为入口的搜索引 擎。
2 走向数字信息秩序的新的信息组织工具——搜索引擎
搜索引擎在数字信息秩序信息组织中是利用主题法原理进行,通过在互联网上提取各 个网站的信息来建立自己的数据库,并向用户提供检索服务。对搜索引擎分析,能发现 具有下述优点:第一,检索方法简单易用,用户可根据需求自拟关键词;第二,检索入 口丰富,用户可根据自己的信息需求从多个方面进行查找;第三,检索速度快捷;第四 ,提供二次检索的机会。尽管有诸多优点,但搜索引擎的查全率太高,精度太小,往往 相关性很高的信息被信息洪水所淹没,这是网络搜索引擎的致命弱点,这主要是由搜索 引擎的信息组织技术导致的。
目前,搜索引擎基本上都采用全文检索技术,全文检索是指以文档的全部文本信息作 为检索对象的一种信息检索技术。该技术关键在于将网页中的文本以适当的形式记录到 索引库中,最常用的、也是最有效方法是文本信息的基元表示。这种全文检索系统通常 采用倒排序建立索引文件,以检索基元作为索引项,相应的记录项中包含网页的编号以 及检索基元在网页中的位置和权重。但搜索引擎大多都没有建立索引词之间的相互关系 ,没有分析文本信息中词与词之间的关系,因此导致搜索引擎的检索没有传统图书馆那 么的精准。正是由于诸多搜索引擎这种信息组织方式缺乏控制,使其信息命中率较低, 相关性也较差;另外,由于利用关键词和检索式查询,许多网络信息用户不熟悉检索式 的应用,况且许多信息用户的信息需求较为模糊,需随着信息查询的深入随时调整自己 的检索策略,这些缺点使以主题法为原理的搜索引擎难以向更深层次推广。
面对当前互联网信息的杂乱、服务的无力,知识工程领域和人工智能领域提出了对数 字环境的信息组织的新思路即知识组织,引入了新的知识组织技术。
3 知识工程领域的新兴知识组织工具——本体、主题图技术
3.1 本体
本体(ontology)是一个关于一些主题的清晰规范的说明。[4]它是一个规范的、已经得 到公认的描述,它包含术语表,术语表中的术语全是与某一学科领域相关的,术语表中 的逻辑声明全部是用来描述那些术语的含义和术语间关系的。因此,ontology提供了一 个用来表达和交流某些主题知识的词表,还包括一个关系集,关系集把握着词表中这些 术语间的联系。
(1)在ontology中的术语、主题、概念可以是自然语言和半自然语言,而并不一定是受 控的科学语言,这种方式是建立下一代互联网的前提。为了改进现有的互联网,学术界 提出了语义互联网、互联网服务和互联网智能等概念。语义互联网是对当前互联网的一 种扩展,其目标是通过使用本体和标记语言(如:XML Extensible Markup Language可 扩展标记语言、RDF-Resource Description Framework资源描述框架和DAML-The DARPA Agent Markup Language等)使互联网资源的内容能被机器理解,为用户提供智能索引、基于语义的内容检索和知识管理等智能服务。
(2)相对于MeSH来说,ontology中的知识点分布是网状的,通过本体对知识进行组织, 会随着时间流逝、学科的发展变化,学科分类变化而产生变化。因为ontology组织的知 识是动态的、跨时空、跨学科的。
(3)ontology不仅描述概念、术语,而且对概念、术语间的关系描述得更为广泛、细致 和全面,这也是ontology作为知识组织立足点最重要的特质。在ontology中可以描述的 概念间关系如下:①反义关系(antonym);②上位关系(hypernymy);③下位关系
(hyponymy);④整体-部分关系(holonymy);⑤部分-整体关系(meronymy);⑥转指关系 (metonymy);⑦近义关系(near-synonymy);⑧同义关系(synonymy);⑨动作关系
(troponymy)。而不仅是主题词表中所描述的参照、用代、隶属关系。
3.2 主题图技术
在ontology中现在应用比较广泛的是主题图(topic map)技术。主题图技术是一种新兴 的知识组织方式。在XML Topic Map(XTM)1.0规范中,主题图被定义为一系列以主题、 联系和范围组成的主题图节点组成,这些节点以符合XTM或者其它规范(HyTm)的文件形 式或者以满足XTM加工需求的内部应用的方式存在。[5]概括地说,主题图是一种用于描 述信息资源的知识结构的数据格式,它可以某一知识概念所在的资源位置,也可以表示 知识概念间的相互联系。主题图实际上在信息资源的上层构建了一个结构化的语义网, 它独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过提示概念之间 的关系,将用词指引到相关的资源。
作为一种知识组织方式,主题图技术中包括了知识组织所关注的基本的改进信息检索 的技术,并有所发展。主题图技术吸收了索引的款目、参照系统、出处的基本概念,并 把它利用于数字信息的组织上;主题图吸收了主题词表在词汇控制方面的思想,并在传 统主题词表的用、代、属、分、族、参的简单关系基础上,具有灵活定义概念间关系的 类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系将分类表中分 类的思想用在主题的类型划分上,并可以通过定义不同的范围,展现不同角度的分类利 用出处机制,将语义结构与信息资源联接起来,成为知识管理和信息资源管理的桥梁。 主题图技术吸收了传统的知识组织方法的思想,并有所发展。
4 人工智能领域对知识组织的贡献——知识网格
4.1 知识网格
知识网格是一个智能互联环境,它能使用户或虚拟角色有效地获取、发布、共享和管 理知识资源,并为用户和其他服务提供所需要的知识服务,辅助实现知识创新、协同工 作、问题解决和决策支持。它包含了反映人类认知特性的认识论和本体论;应用社会、 生态和经济学原理;采纳下一代互联网所使用的技术和标准。[6]
4.2 知识网格特征[7]
知识网格有以下五个不同于其它技术的特征:第一,人们能够通过单一语义入口获取 和管理全球分布的知识,而无需知道知识的具体位置。第二,全球分布的相关知识可以 智能地聚合,并通过后台推理与解释机制提供按需的知识服务。达到这个目标的方法之 一是知识提供者提供元知识。统一的资源管理模型将有助于实现知识服务的动态聚合。 第三,人或虚拟角色能在一个单一语义空间映射、重构和抽象的基础上共享知识及享用 推理服务,在其中相互理解没有任何障碍。第四,知识网格应能在全球范围搜索解决问 题所需的知识,并确保合适的知识闭包。第五,在知识网格环境中,知识不是静态存贮 的,它能动态演化而保持常新。这意味着知识网格中的知识服务在使用过程中可以不断 自动演化改进。
5 结语
随着信息的载体由印刷铅字变为数字比特流,资源整合的内涵也发生了变化。我们说 信息组织是对信息的整理和序化,是在文本秩序这个层面上的,那么知识组织(知识是 经过整序和提炼的信息)通过知识挖掘,利用知识关联对知识因子进行重组,完全是为 了适应纷繁复杂的数字网络环境。知识组织有别于信息组织,信息组织技术和工具不断 演变和发展以适应知识组织和知识服务的要求。通过以上研究,可以看出:
(1)当传统信息组织工具之一分类法用于数字环境时,抛弃了极为科学、严格、规范的 类目设置,并不在意同位类之间不交叉的要求,而把重点放在信息内容本身的揭示上, 通过不同的角度和入口引导普通用户找到所需的信息,从而更好地揭示内容上的参照、 交叉关系。
(2)利用传统主题词原理产生的搜索引擎,没有采用严格规范的科学用词,也没有采用 主题词中入口词规范原则,利用关键词查寻相关信息,显示了快速定位的优点,但在查 准率上显得力不从心,从而导致网络寻找新的知识组织和知识发现方法。
(3)同样以主题词表为基础的本体,继承了主题词表在规范用词上的优势,将同义词组 织成同义词集,同时扩展了主题词表原有的“用、代、属、分、参、族”等简单语义关 系,并在知识组织中,将传统主题词表的静态列举式的结构改变为展示人类知识创造的 动态逻辑过程;将主题词表一维、线性的展示知识点为本体网络的展示知识点;本体是 语义互联网的基础,基于本体构建的互联网将是机器可以理解的。
(4)而知识网格是在语义互联网的基础上,使得原本查准率不高的搜索引擎能够智能地 进行推理和回答问题,因为知识网格的主要研究利用网格、数据挖掘、推理等技术从大 量在线数据集中抽取合成知识,并从大量数据中得出结论。
人类知识原本是一个有机联系的整体,不能因为海量、分布、动态的数字形式而割裂 内部的联系,因此从文本走向数字环境的信息组织技术不断发展,使数字资源体现出人 类知识体系的整体性和关联性。
收稿日期:2004-12-01
标签:文本分类论文; 语义分析论文; 搜索引擎技术论文; 用户研究论文; 组织环境论文; 文本分析论文; 网格系统论文; 搜索引擎原理论文; 搜索引擎推广论文; 主题词论文;