网络环境下的知识组织研究,本文主要内容关键词为:组织论文,环境论文,知识论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在20世纪的最后几年,人类步入了神驰已久的网络时代。网络对我们日常生活和工作的影响日趋明显。电子商务、电子传输、网上聊天、网络查询等都给用户以充分个性发挥的空间,让人真正体会到超越时空的魅力,令许多网迷乐此不疲。但我们必须清醒地意识到,虽然上网用户急剧增长,而相对于浩如烟海的网络信息资源来说,多数人接触到的只不过是沧海一粟。有些精心设计开发的新网站,虽然凭借自身的高质量和对用户的期待具有价值,但很容易被淹没在信息海洋中,无法脱颖而出。与此同时,许多用户带着满腹疑问和满心期望面对着网络却不知该怎么出手,不知该将鼠标指向何处。这种供与需的脱节说明了网络信息管理工作的失误和滞后,也描述了我们今后为之奋斗的方向和轮廓。虽然目前网上应运而生的搜索引擎(Search Engine,又称查询机)很多,中文搜索引擎也有搜狐、天网、网易、若比邻、常青藤等多种,但他们的质量(尤其是中文搜索引擎的质量)还比较低,覆盖率和准确性都有待提高。既无法充分展示丰富多彩的网络信息资源,又不能满足用户日益增长的查询需求。
1.知识组织理论对网络信息管理的作用
虽然网络信息纷繁复杂,而且正在以惊人的速度膨胀,网络信息污染、信息虚假现象也日趋严重。但只要我们掌握了各种网络信息的本质及其内部组织机制,将其上升为普遍的规律或模式,并辅之以对特殊现象的特殊描述,那么所有的问题就都不是问题了。[1] 而要做到这一点,核心工作就是知识组织。所谓知识组织,简单来说就是对知识的本质以及知识之间的关系进行有序地揭示,即知识的序化。但这个序化过程的前提是充分考虑用户的需求以及用户吸收利用信息的模式和规律性。离开这个前提的指导,把知识单元组织得结构再有序,脉络再清晰也没有意义,因为可能没有人愿意用或者没有人会用。
2.网络环境下知识组织的任务及其内在机制
知识组织究竟有什么魔力可以使原本杂乱不羁的信息变得服服帖帖,自动排列到指定的位置呢?我们来看一下知识组织在网络信息管理中的任务是什么,他是怎样发生作用的。(如图1所示)
图1.知识组织的任务及影响因素
简单来说,网络环境下知识组织的任务就是将繁杂的网络信息按照一定的结构序化为知识库,然后将知识库提供给特定的用户,为用户排忧解难并促使知识的创新。可以看出,这是一个由网络信息源、知识库和用户组成的循环系统。而这个循环系统能否顺利地、高质量地运行以及能否不断优化、升级,取决于知识组织的内部机制是否完善。
网络知识组织的直接成果是网络知识库。这一环节的完成依赖于对信息源的准确把握和对用户的科学分析。也就是说,知识组织过程的实施是其前向资源驱动和后向利用导向共同作用的结果(如图1 箭头下方所示)。弄清了信息资源的结构机制和用户的利用机制后,就很自然地寻求到了知识组织的有效机制,很自然地生成了高质量的知识库,水到渠成。
2.1 用户网络信息利用机制
前面已经提到过,虽然只有在知识库产生后才能将其提供给用户,但知识库的产生依赖于对用户利用和吸收知识过程的先期把握,须以用户分析为先导。知识组织的方式只有与用户吸收过程中的一系列心理及思维变化模式相匹配,才能最大限度地满足用户的现有需求甚至激发他们的创新思维。
信息吸收利用就是信息资源经过信息从业人员的中介工作,在用户头脑中认同并内化的过程。[2] 这个过程是一个复杂的心理和思维变化过程。一方面,用户的信息利用是一种主观行为,自主地从信息集合中捕捉对自己有用的那一部分,个性化色彩明显。不同用户对信息提供方式、信息查询方式、人机交流模式等的心理倾向是不同的,对信息价值的感受力和洞察力也是不同的。基于对这些差异性的关注和分析,我们要尽量多角度、多层次地开发供不同用户使用的操作平台,以满足他们不同的心理偏好,增加认同感。所以,对于所有的网络信息资源,无论是有序的还是无序的,不断优化用户界面,都是勿庸置疑的发展方向。
另一方面,用户的思维模式的变化表现在他是以怎样的思路历程对接收到的信息和知识进行再现和创造。人工智能系统就是参考这种变化过程开发的。用户的感觉、神经系统和大脑皮层受到来自信息和知识的刺激后,自动搜索自己的累积知识库,理解新知识的确切含义并判断与自己知识结构相匹配的程度。以此来决定是将其视为噪音排除,还是将其吸收、再现,与已有的知识结构同化。如果新知识对用户的刺激足够大,不仅激活了累积知识库的库存,而且改变了知识库的结构,那就诱导出了新的思维方式,形成了新思想,也就完成了知识创新。创新的知识在时机成熟时,便会内涵于一组信息中,重新进入信息集合中,推动新一轮的知识组织过程。我们知道,利用知识的最终目的是为了创新知识,更新、优化人类的知识积累,为更多的人利用。知识组织一定要到位,要尽可能的与用户思维模式契合,并且足以诱发新思维。一种设想称为电视会议(或计算机会议),就是对信息和知识进行逻辑分析,将每个知识片断多维地连接。分析过程参考人的思维的连贯性和跳跃性。用户可以用联想的方式浏览和查询信息,便于启发想象力和创造力。人脑在知识交互中占主导地位,将知识记忆和推理过程结合在一起,使用户把搜集信息、加工信息和创造知识融合在一起。[3]
2.2.网络信息资源的序化机制
就是如何将网络信息源序化、组织成知识库。这里的序化是一个广泛的概念,包括对信息源进行处理的全过程(如图2所示)。
图2.知识序化的全过程
以下具体阐述其内涵。
2.2.1.筛选
这是知识序化的首要和基础工作。从浩瀚的网络海洋中,选择适合自己需要的那部分子集。取舍依据的标准通常包括学科、专题、语种、地域、类型等。注意鉴别网络资源的时效性和可靠性。虽然说要尽量搜集到所有需要的资源,但也不可为求全而乱真。目前搜索引擎的信息搜集方式主要有机器人自动搜寻方式和人工搜寻方式两种。 [ 4] 前者如ROBOTS(一种自动跟踪、浏览网页并加以标识的智能软件),能够快速而全面地自动抓取新增站点,并密切跟踪已抓取站点的更新情况,但质量难以保证;后者的速度慢,但搜集到的信息质量高。两种方式各有所长,互相补充,可以将其进行有机结合。比如说,先用机器人自动搜索方式搜寻(保证量),然后用人工方式进行筛选(保证质)。
2.2.2.挖掘
就是分析信息源子集中每个知识片断的本质含义,这种逻辑分析不仅限在语法层次,还要深入到语义和语用层次。这样才能准确标示存在于客观世界和人类头脑中相互联系、相互影响的各个事物或概念。具体地说,就是将知识单元挖掘、分解为一个或多个表达其内在本质的知识因子,形成一个个独立的节点。目前搜索引擎对知识因子的标识大多采用分类语言或简单的关键词全文标识。虽然在一定程度上表征了信息内容,但从根本上说还是停留在语法层次。没有透过外在表达抓住内在本质,就无法把握其内在作用机制和模式,信息处理的智能化和高效运作便无从谈起,信息爆炸仍旧难以有效克服。我们知道,某知识单元在不同学科领域内表达的内涵、语义未必相同,各学科间概念的相互借鉴、相互引用现象也日益频繁。这就加大了内涵揭示的难度。所以还要考察不同学科知识表达差异特征及其交叉、融合的模式,以保证对跨学科知识单元内在机制的准确把握。
2.2.3 评价
就是准确揭示各知识因子间的相互关系及其相关程度,考察知识单元的有机结构。这就将各静态的、独立的知识因子动态地、多维地组织在一起,形象而直观地揭示各语义间的网状关系。用户可以从任一节点出发,按照语义关联网的走向,用联想的方式浏览和查询信息。各语义间相关程度和相互关联的类型(因果、递进、同义、属分等)是不同的。当查询结果很多时,最好按与提问的相关程度排列,这就要求明确的判断相关性。一种常用的、有效的方法是给予权值,简单而直观。目前主要采用超文本(Hypertext )方式将相关的文本信息有机地链接在一起。超文本方式与多媒体技术结合为超媒体(Hypermedia)方式,将文字、表格、声音、图形、图像等以超文本格式组织起来,使用户可以通过高度链接的网络结构在各种信息库中自由航行,找到任何媒体所载的各种信息,真正领域多姿多彩的网络世界。网络信息管理工具不断增加和发展的一个必然结果就是更高一级的指引库,也就是将各个搜索引擎集成并加以导航的工具。把物理上分散的专业信息资源指引库逻辑链接,并提供统一的操作平台。用户只需输入一次提问,集成搜索引擎便将其提交给不同的搜索引擎处理,然后对返回结果进行整理、合并,集成为一个页面或一份报告。并提供对各备选方案可获得性、准确性、成本(包括时间和经济成本)等方面的评价,供用户参考。这就大大节省了时间,提高了效率。可见,集成化搜索引擎是今后的一个重要发展方向。 对于其具体组织方式, 有些专家提出SEST (Search Engine forSubject Tree)的数据方案,[5]就是在主题树中集成搜索引擎功能,将各个搜索引擎按主题以树的结构方式组织起来(一种搜索引擎可能分布在多个树枝上),通过浏览主题树来选择搜索引擎,供进一步查询需要。
2.2.4.描述
是将逻辑分析得到的知识因子及其关联组织成供用户使用的知识库。它以对知识因子和知识关联的内在机制的探讨为基础,但又不限于此。为方便用户,各搜索引擎允许用户通过多种途径来查询有关信息源内容特点、主题分布、子主题、年代、生产者、所在地、对象等外在特征的表述。其中最核心的一点就是提供什么样的检索途径。检索途径可以说是连接知识库和用户的接口,其模式要尽量与用户制订检索策略时的心理、思维模式相匹配,尽量的科学、易用。常用的检索方式有分类检索和关键词全文检索。大多搜索引擎兼有这两种检索方式,最为典型的例子是Infoseek,它分为按范畴层次查询的Ultrasmart和以语词查询的Ultraseek,供用户选择使用。怎样才能使两者更为有机的结合呢? 这就是聚类(Clustering)检索模型。在对知识单元进行自动标识的基础上构造出知识单元的形式化表示——知识向量,然后通过一定的聚类方法计算出各个知识单元的相关性,相关性强的知识单元集中在一起,形成一个个类。还可根据不同的聚类水平要求,形成不同聚类层次的类目体系。这样一来,主题相近、内容相关的信息就被聚在一起,支持模糊查询。聚类检索模式按主题方式标识知识单元,按类的思想组织知识,同时具备分类系统和主题系统的优点,兼顾族性检索和特性检索要求,预示了其广阔的发展前景。
收稿日期:2000—12—22