基于文献知识单元的知识组织——文献知识库建设研究,本文主要内容关键词为:文献论文,知识论文,知识库论文,单元论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
从1929年最早由英国著名分类法专家H.E.Bliss使用“知识组织”这个概念起,到1989年在德国成立了国际性学术研究机构“国际知识组织学会”(ISKO),1993年著名刊物《国际分类法》(IC)更名为《知识组织》(KO),知识组织的研究在图书情报界始终在延续,而且近来呈上升之势。从发展上看,“知识组织”是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的,图书馆学情报学是研究知识组织的传统领域,但是,至今为止对“知识组织”这个概念没有一致的定义,与传统的文献组织没有严格的界限,本文从图书馆学研究的角度,提出文献组织与知识组织的差异和联系,就现阶段知识组织状况进行分析后,进一步对文献的知识揭示与知识组织的方法进行探讨,旨在充分发挥文献中的知识作用,使其在知识创新过程中最大限度的发挥作用。
1 文献组织与知识组织
知识是人的主观世界对客观世界的反映和认识。按载体的不同,知识可区分为主现知识(或称个体知识)和客观知识(又称公共知识、社会知识)两种形态,客观知识必须依附于一定的物质载体,我们称其为文献,从图书馆学角度讨论的知识组织是对载有客观知识的文献的序化过程,是根据文献的知识属性特征来揭示和组织文献,知识表达和揭示是以文献单元为基础的,通过文献间接进行。组织的实质是文献组织,最终为用户提供的只是相关的文献线索或原始文献的集合。文献组织只能使知识实现物理空间上的序化,正如马费成教授认为的,这种组织方式“用文献为基本单元来评价、表示和组织知识,所得到的仅仅是知识组织和利用的‘物理解’,而非‘情报解’”,不能实现真正意义上的知识组织。
文献组织在图书馆界发展至今已近乎达到完美的程度。如人们创制了各种分类法、主题法,制定了各种文献的著录规则等,并实现了规范化、标准化。可是实际上,文献组织只达到了为用户利用文献获取知识提供方便的目的。用户得到文献后,必须花很多时间来阅读和选择,才能从中获取所需要的也许是很少量的知识和信息,这种方式不能直接输出用户所需要的知识和信息。显然,这种服务已远不能满足用户的需要,科技的高速发展带来知识的指数增长,人类的知识创新活动对知识信息保障体系提出了更高的要求。以往的存贮和利用知识的状态已不适应,如何更有效地组织、控制、传递知识,以提高知识的利用率,已成为当前关于知识研究的重点和方向。
我们认为,知识组织的研究来源于对分类法和叙词法的研究,但却有别于以这些理论为基础的文献组织。虽然文献组织说到底也是一种知识组织(按文献的学科、主题内容),但它是以文献为加工本位,揭示文献所载知识内容的基本特征,没有深入到文献所包含的具体知识内容,故不能称其为真正意义上的知识组织。本文研究的文献知识库的知识组织则以知识单元为加工本位,它不仅注重揭示文献单元的学科、主题内容,更注重揭示文献所载的知识单元。知识单元是不可分割来对待的信息单位。在一篇文献中往往包括一个或若干个知识单元。如果需要一个直截了当的定义,知识单元也可以定义为在知识体系中至少表达一个客体或者一个客体联系的信息单元。文献的知识单元是指表达文献知识内容的完整的属性特征及其联系。因此,从这个角度看组织是文献组织的延续和深化。
2 文献知识库
图书馆学的知识组织在文献单元层次上展开,“这种状况的存在,并不意味着人们对文献具有特殊的偏好,而是人类还没有找到知识的有效表示方式;一旦着手研究知识时,不得不退却到文献这一层次,用文献间接地表示知识”。以数据单元为基础的知识组织方式的出现和发展,很大程度上弥补了以文献为单元的知识组织方式的不足。这种组织方式向用户直接提供他们所需的知识或信息,大大提高了知识的利用率和针对性,节省了科研人员的大量时间。目前,这类数据信息系统所存贮的数据非常广泛,既包含传统的数字形式,又包括各种事实、概念、图表、化学结构式、物理参数、产品名称、标准等等。这类系统发展很快,成为当前图书馆知识组织的主流和方向。然而,这种知识组织方式在满足用户对特定知识信息(如上所举)的需求方面虽然胜于文献组织方式,但从图书馆学研究角度,它却存在着一些弊病,主要体现在:(1)知识组织不仅要提供知识信息,还要承担对科学文献进行评价的任务。以数据为基础的数据库不具备这个作用。(2)科研人员的知识生产特性无法得到反映。(3)最大的局限性恐怕还是它没有解决知识表述的模糊性和不确定性,只是相关数据的罗列。
可见,将知识组织简单化为文献标引(分类和主题)或者事实数据的排列还远不能触及到知识组织的真正内核。知识组织可以说是一个十分复杂且不成熟的领域。它必然涉及人类认知过程,需要有专家系统和人工智能研究的专家以及知识工程、语言学等多方面专家的参与。现阶段在人工智能系统尚未成功应用于领域研究的情况下,我们所进行的文献知识库研究,主要以特定学科的科技论文为知识来源。研究视点既有别于以文献为单元的知识组织,又不同于以数据为单元的知识组织,而是将二者有机地结合,扬长避短,利用语言学及计算机技术的相关成果,解决文献管理中的知识组织问题。
前文所讨论的两种知识组织方式,基本上是存入实际数据元素,检索时按简单的匹配模式输出与提问近似的实际元素,力图首先确定知识基本单位,然后其存贮着眼于对这些基本单位进行有序排列。而文献知识库的知识组织研究特征(或者说研究目标)主要体现在:
(1)系统存贮知识的方式。文献知识库的基本思想是以文献所反映的知识单元为基础存储知识,这一点与前两种组织方式不同。不同学科、不同研究对象的知识单元其构成要素不同,可以采用不同的知识表示方式。如要表示一篇科技论文中报道的一项医学实验这样一个知识单元,涉及的要素有:实验条件、实验动物、实验方法、实验结果、结论等。而临床的一项调查内容,其知识单元的要素可能主要涉及到随机对照试验样本,患者特征,包括治疗和病因等。不同结构的知识单元群构成结构化的文献知识库结构。
(2)将文献的提供与知识单元的提供联结在一起,使用户在获得知识单元的同时了解其知识的来源,这也可体现系统中具有相同知识单元的文献的关系,在输入新文献时,通过和系统文献知识单元的对比,在一定程度上判断文献知识的新颖性和文献知识成果的创新程度,为科学评价文献提供可靠的依据。因为任何文献所含的知识和信息并非都是等价的,有价值的文献数量极为有限。
(3)研究的理论基础。目前,ISKO(国际知识组织学会)正致力于知识组织的研究工作,研究表明,在过去几十年分类法和叙词法研究中所发展起来的理论基础完全可以用于各种知识组织和表示各种一般的和特殊的系统。这一点,为文献知识库研究提供了知识组织的理论基础。文献知识库虽然在组织方式上区别于以前的知识组织系统,但是理论基础还是建立在图书馆学领域理论体系中。这是因为,知识库组织要与领域知识特点相适应。文献知识库与其它的智能型知识库是有区别的。文献知识库的知识来源于文献中,知识的表述相对来说结构性较强,特别是像科技论文形式的文献。因此,知识组织应体现文献研究的特点。
(4)以自然语言实现人—机接口。目前计算机理解语言这个研究领域已有重大突破。这就是HNC(Hierarchical Network of Concept,概念层次网络)理论的创立及其应用,HNC是面向整个自然语言理解的理论框架,以语义表达为基础,对语义表达概念化、层次化和网络化,为文献信息组织向知识组织的转换创造了基本条件。如果HNC能够尽早进入实质性的应用阶段,我们的研究也将会有一个质的跨越。
3 知识单元的知识表示问题
任何知识组织方法都要建立在知识表示的基础上,知识表示是知识组织的基础与前提。所谓知识表示,就是指把知识客体表示出来,以便人们识别和理解知识。在知识表达和揭示过程中,人们建立了以文献单元为基础和以数据单元为基础的知识组织体系。现在,以智能为基础的知识组织系统正在积极的开发研究中。不同的知识组织体现知识的表示方法是不同的。对文献知识的表示,目前还停留在分类标引法和主题标引法。这两种方法都属于揭示文献主题内容的方法,两者的基本原理相同:先编制标引用词典(或称标引语言),然后把文献知识特征(形式特征与内容特征)与词典中的标引词汇之间进行相符性比较,最后把相符的词汇用其代号(分类号或主题词)表示出来。这种对文献知识内容的表示不能反映文献中的具体知识单元。
国外有代表性的知识组织研究立足于从人类创造过程利用知识的特点出发来组织知识,建立知识组织系统。英国学者B.C.布鲁克斯(B.C.Brookes)所指的知识组织,是对文献中所含的内容进行分析,找到人们创造与思考的相互影响及联系的结点,像地图一样把它们标示出来,以展示知识的有机结构,为人们直接提供创造时所需要的知识和信息。其实质是希望找到知识生产创造过程的关键数据(知识单元),然后用图来标示其联系与结构,实现知识的有序化组织。这样的系统无疑是高效率的,但这方面的研究还很不成熟,其可行性值得推敲。
我们认为,知识单元可被视为一种网状结构,那么,这种特定意义上的知识单元就是由众多结点(即知识因子)和结点间联系(即知识关联)两个要素组成的,知识因子是组成知识单元的最细微的成分,一个概念、一种事物(如“肿瘤”、“文献”等)都是组成知识单元的一个因子,也就是说,知识单元由一个或多个知识因子组成。知识关联是为若干个知识因子间建立起的联系,因为知识单元是有机联系的网状结构,而不是各个因子的散乱分布。知识关联在产生新知识、形成新文献中起重要作用,是使知识有序化的必要条件。由知识因子和知识关联的网状结构表示的知识单元,是知识组织的基本对象。针对知识的两要素进行的序化,就是知识因子的有序化和知识关联的网络化。
4 知识单元的组织方法
知识重组是对相关知识客体中的知识因子和知识关联进行结构上的重新组合,形成另一种形式的知识产品的过程。知识重组的目的,是通过对知识客体结构的重新组合,为用户克服因知识分散而造成的检索困难提供索引指南;为人们提供经过加工整序后的精炼性知识情报,为用户便于理解和吸收知识,提供评价性或解释性知识。它又包括知识因子的重组和知识关联的重组。
知识因子的重组是指将知识客体中的知识因子抽出,并对其进行形式上的归纳、选择、整理或排列,从而形成知识客体的检索指南系统的过程。这一重组过程,实际上是对知识因子在结构上的整序或浓缩的过程。在这个过程中,知识因子间的关联并未改变,没有产生新知识。文献组织工作中,往往利用知识因子的重组手段,形成文献知识的索引系统,例如,主题索引系统和分类索引系统的形成,它们的产品形式就是各种类型的二次文献,包括目录、索引、文摘、题录、书目之书目、文献指南等。
知识关联的重组是指在相关知识领域中提取大量知识因子,并对其进行分析与综合,形成新的知识关联,从而生产出更高层次上的综合的知识产品的过程。由于改变了知识因子间的原有联系,所以其结果可以提供新知识,也可以提供关于原知识的评价性或解释性知识。它所形成的产品主要是各类三次文献,如综述、述评、词典、手册、年鉴、类书、百科全书、专题讲座等。
无论是知识因子的重组还是知识关联的重组,都要遵循客观性原则,即都不能改变原知识客体的语义内容。由此可以看出,知识重组基本上属于语法组织的范畴。
5 文献知识组织中的语言学基础
开展知识组织的语言学研究,吸收和借鉴现代语言学研究成果和方法,将为新型的知识组织体系打下坚实的基础。在知识组织体系中,检索语言一直被视为关键和核心。知识交流过程是一种语言交流过程,利用语言学方法作为建立检索语言的保障,就能够减少语义失真和歧义,更好地实现检索语言在知识系统中所具备的功能,即:整体有序化功能、简要表达功能、语义匹配功能、语言转换功能。
要把知识单元群组织成有序的整体,必须建立相应的符号系统。系统中的各个知识单元之间的联系和个性特征就是通过符号系统实现的。尽管各种知识组织的符号系境形式不同,但都和自然语言一样,有词汇、语法、语用、语义特征。文献知识库的检索语言也应建立自己的符号系统。词汇绝大部分是具有检索意义的知识因子,即能够表达知识单元名词或名词性词组。
虽然以往的检索语言为实现规范化表达语义采取了各种语法和词汇控制手段,但它的特点是静态描述、静态概念,它把知识本身及检索过程分割为许多不能动态变化的独立部分和几种固定的联系方式。这种以词匹配为核心的运行方式是文献组织低效率的根本原因。词匹配割裂了文本中的逻辑语义关系,标引、检索人员素质差异导致检索与标引难于一致,造成文本内容和询问内容二者的差异。所以有人称这种规范化检索语言代表一种静态的、僵硬的思维方式,它已成为数据库建设的瓶颈。随着大量信息的电子化、网络化、知识系统的检索语言不仅要在语法、语义上,而且也要在语用上满足用户更高的要求。自然语言检索和后控词表技术结合将为用户提供最佳选择。检索语言从抽象的分类号码到能表义的词汇,从没有语义关系的线性词串到能表达语义关系的语义词。具有自然语言理解能力的新一代检索系统是检索语言的一种发展趋势,它将使知识的表达更趋于准确。
综上所述,文献组织与知识组织有着一定的区别与联系,本文提出基于文献知识单元的知识表示和知识组织方法,旨在探讨文献知识管理的新途径,新理念。上面也提到,知识组织是一个十分复杂且不成熟的领域,它是知识工程、专家系统和人工智能研究、语言学等多方面知识的综合运用。要解决文献管理中的深层知识组织问题,以至达到智能化信息服务,还需很长的路要走,目前条件下我们迫切所要作的就是为这个目标的实现作好准备。