论知识聚类,本文主要内容关键词为:知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G302
1 知识聚类的概念及其分析
“知识聚类”中的“聚类”一词,同“聚合”、“聚集”、“集中”、“集合”等概念在内涵上大同小异。从字面上理解,知识聚类就是指按类别集中知识。在汉语中,“知识聚类”和“知识分类”可视为反义词,即前者指“物以类聚”,后者指“物以类分”。知识聚类和知识分类之间也有紧密的联系:它们都是对事物进行属性区分的过程,而且往往表现为同一过程的两个方面,即知识分类的结果同时可以产生知识聚类的结果,知识聚类的结果同时可以产生知识分类的结果。正是因为知识聚类和知识分类之间存在着反向分合关系,所以很容易使人们只注意两者之间是同一过程的联系一面,而忽视两之间的区别一面。知识聚类和知识分类之间的主要区别在于:首先,知识聚类是知识因素的合集过程,而知识分类则是知识因素的分集过程,若借用化学术语表示,知识聚类就是知识因素的“聚合反应”过程,而知识分类则是知识因素的“裂变反应”过程。这一区别可分别用图1、图2表示:
真次,知识分类往往只是把不同知识加以区分,便完成其过程,一般不产生新知识,而知识聚类则不仅能够区分不同的知识,而且还可以进行不同属性知识之间的整合,其结果可以产生新知识。再次,在人们日常语言习惯中,知识分类往往是指从学科属性区分知识的门类,而知识聚类则不单指按学科属性聚类,它还有许多其他聚类标准。
知识聚类是知识组织的重要方法。从知识组织方法的发展历史看,知识的聚类组织方法是同知识的分类组织方法同时产生的,如我国古代的“四部分类法”,同时也可称之为“四部聚类法”。但是,以往人们只对知识的分类组织方法给予了足够的重视,由此产生了众多分类组织理论与分类组织工具(如各种分类法或分类表),而对知识的聚类组织方法却没有给予足够的重视,只是把知识的聚类组织方法当作知识的分类组织方法的附属方法来对待,从未对其进行单独的深入研究。因此,到目前为止,在各种文献上只见到知识分类的概念及其论述,而几乎不见知识聚类的概念及其论述。有鉴于此,笔者为了叙述的方便,对知识聚类作如下定义:知识聚类是指将知识对象按其属性类别加以集中整序或整合的过程。从这个定义中可以看出,所谓知识聚类,并不单指“同类相聚”,还包括“异类相聚”(如“异类相交”、“异类相触”等)。相同属性知识的聚类合,可称之为单相(one-phased)聚类,不同属性或不同属性联系之间的整合,可称之为多相(multi-phased)聚类或称混合聚类。
任何事物都具有多重属性,而且事物属性之间的联系也呈多种多样,因此,知识聚类的方法类型也呈多种多样。本文第3部分将对知识聚类的主要类型分别加以论述。
2 知识聚类的意义
2.1 知识聚类的分类学意义
同知识的分类组织一样,知识的聚类组织的基本职能是知识的整序。知识聚类的基本原理是“物以类聚”。所为“物以类聚”,就是事物的分门别类相聚,亦即分类相聚。通过物以类聚”,使知识得以类集,形成知识的有序集合系统。文献情报部门对文献的采集、存贮和加工整序过程,实际上就是知识的聚类组织与分类组织过程。文献流一旦汇流到文献情报部门,就意味着形成了知识的有序化存检系统。
2.2 知识聚类的物理学意义
同任何物质运动都需要有一定的势能与动能一样,知识的运动也需要有一定的势能与动能。知识聚类的过程,可以把它看作是知识势能的形成与增大过程。知识聚类量的增大,如同是水库水位增高而水能增大一样,增大了知识运动的总体能量。这对加大知识的传播利用率是极为有利的。从这个意义上说,知识聚类的过程,也就是知识能量的聚积过程。例如《四库全书总目》、《永乐大典》、《中国大百科全书》、《不例颠百科全书》等,它们的学术价值和资料价值之所以如此之大,正是因为它们通过知识聚类手段蕴藏了巨大的知识能量;同理,美国国会图书馆、不列颠图书馆、北京国家图书馆等,它们之所以享有“知识殿堂”的美誉,也是因为它们通过知识聚类手段潜藏了巨大的知识能量。
2.3 知识聚类的创造学意义
知识聚类能够把知识或知识因素加以聚集与整合,为知识或知识因素之间的相互比较、相互借鉴、相互交叉、相互渗透提供了有利条件,这对知识的研究与创新是极为有利的。许多交叉学科、横断学科以及其他知识创新成果,往往就是知识的聚类分析与整合的产物。由此可见,知识聚类绝不仅仅是对知识的积累、整序等简单性劳动,其中还包含有高智力活动的创造性劳动。
3 知识聚类的方法
知识聚类的方法,根据其聚类标准的不同,可分为多种类型。
3.1 以学科聚类
知识的学科聚类方法,是最基本的也是人们最常用的知识聚类方法,它是指以知识的学科属性为聚类标准,把不同学科的知识分别加以集中与整序,从而形成知识的学科序列系统的一种方法。知识的学科聚类,是古今中外各种文献分类法的方法论基础。目前世界上最广泛应用的《杜威十进分分类》(DDC),就把人类全部知识概括为10大学科(其中“总论”为特例,其它分类法中也均有类似特例),其学科名称与标记符号如下所示:
000 总论
100 哲学
200 宗教
300 社会科学
400 语言
500 自然科学与数学
600 技术(应用科学)
700 艺术、美术和装饰艺术
800 文学
900 地理、历史及辅助学科
自DDC创制以来,世界各国的文献分类法大都采用了与DDC相似的体例,如《美国国会图书馆分类法》(LCC),把知识归纳为20大学科;《国际十进分类法》(UDC),把知识归纳为10大学科;《书目分类法》(BC),把知识归纳为26大学科;《(前)苏联图书馆—书目分类法》,把知识归纳为21大学科;《中国图书馆分类法》,把知识归纳为22大学科,等等。这些文献分类法在知识聚类的结构方法上均采用了同一种方法,即用类目——具有某种共同属性的文献知识的集合性概念——表示各学科、子学科及其类属因子,用类目的等级体系以及参照、注释等方法来显示知识关联(类目之间的关系)。文献分类法的这种结构特点,使各学科知识形成族性序列,便于族性检索。文献分类法对知识体系的表示,虽然表现为学科分类体系,但它同时又产生了学科聚类的结果。所以,在文献分类法中,学科聚类与学科分类是互为前提、互为结果的。这就是我们把知识的分类组织方法等价为知识的聚类组织方法的根据所在。
3.2 以概念聚类
知识是由概念构成的。任何一种知识都具有特定的概念结构。以概念聚类知识,就是指用一定的概念逻辑方法来集中排列相关知识的一种方法。
任何一个概念都有内涵和外延两方面,而且两者之间具有反变关系,即内涵越多,外延越小;内涵越少,外延越大。根据这种反变关系,我们可以通过增加概念内涵的方法来缩小概念的外延,从而形成更为专指的概念;也可以通过减少概念的内涵的方法来扩大概念的外延,从而形成更为泛指的概念。利用概念的内涵与外延之间的这种反变关系,可以形成两种概念逻辑方法:一是概念的概括与划分方法,二是概念的综合与分析方法。知识的概念聚类,就分别采用了这两种概念逻辑方法。
3.2.1 以概念的概括与划分方法来聚类知识 所谓概念的概括,是指把若干个外延较窄的种概念,按照一定的标准,概括为一个外延较宽的属概念的逻辑方法;所谓概念的划分,是指把一个外延较大的属概念,按照一定的标准,划分为若干个外延较小的种概念的逻辑方法。对概念进行层层划分,就形成概念的等级体系,而把这一过程进行反向推演,便是概念的概括。因此,在同一序列概念体系中,概念的概括与划分呈现为同一过程的反向推演。这种反向推演的过程,也就是“分类”与“聚类”的统一过程,其结果形成了知识的层次聚类结构。这也就是等级列举式分类法所采用的知识聚类方法。
3.2.2 以概念的综合与分析方法来聚类知识 所谓概念的综合,是指把若干个简单概念或概念因素综合为一个复杂概念的一种逻辑方法;所谓概念的分析,是指把一个复杂概念分析为若干个简单概念或概念因素的一种逻辑方法。概念的分析,可以形成概念的多向成类;概念的综合,可以形成概念的多向组合。概念的多向成类与多向组合结构,可以形成知识的交叉网络聚类结构。知识的交叉网络聚类结构比之知识的层次聚类结构,更容易反映和容纳新概念、新知识,更容易进行概念或知识的自由组合。文献分类法中的分面组配式分类法,就是以概念的综合与分析方法来聚类知识的。如在阮冈纳赞的《冒号分类法》中,把每一事物按其不同属性表现分析成多个面(facet),每个面进一步分析为“游离焦点”(isolated focus)和“基本焦点”(basic focus),游离焦点和基本焦点可以综合成复合类(compound class),其综合类型分为倾向相、工具相、观点相、比较相、影响相和相关相6种,最后把各个面按本体、物质、动力、空间和时间这5个基本范畴的先后顺序加以区分,由此构成了知识聚类的交叉网络结构。
在以概念聚类知识的过程中,如果把所有的概念分学科层累制标记符号加以编排,就形成了分类法系统;而如果把所有的概念按其字顺加以编排,就形成了主题法系统。
3.3 以事聚类
所谓以事聚类,是指围绕某些事物或事件来集中编排相关知识的一种知识聚类方法。从一般概念逻辑上看,“事物”包含“事件”,但在知识组织活动中,人们往往把关于历史事件的知识从一般事物知识中抽出来单独加以组织,由此形成了以事件聚类知识和以事物聚类知识的两种以事聚类形式。
3.3.1 以事件聚类知识 是指围绕某一历史时期的某一事件或某些事件来集中编排相关知识的一种方法。以事件聚类知识可分为单一事件知识的聚类和多事件知识的聚类两种形式。单一事件知识的聚类,能够集中详实地记述某一事件的相关知识。如《九·一八事件》、《西安事变》、《南京大屠杀》等文献,就详细记述了这几起历史事件的前因后果。一些记录性或历史题材的影视作品,也能形象生动地记述一些重大历史事件的相关知识,如影片《南昌起义》,就集中而生动地记述了有关南昌起义的历史背景、人物、经过、结局等史实性知识。多事件知识的聚类,能够简略概述一定历史时期所发生的一些重大事件的相关知识,如《中华人民共和国大事记》(1949-1980年),就记载了共和国40年发展历程中所发生的5000多件大事;《中国经济年鉴》(1995年)除了大量的经济统计资料之外,还记载有1994年一年间我国经济生活中所发生的450多件大事,等等。
3.3.2 以事物聚类知识 是指围绕某一事物或某些事物来集中编排相关知识的一种方法。许多工具书一般都具有以事物聚类知识的功能,其中类书最为典型。
类书是辑录古籍片断、整篇或整部著作,按类目或韵部编排,以供寻检、征引相关知识的工具书。通过类书,我们可以查考事物的起源、查找典故出版、查检诗词文句、检索参考资料等。由于类书广泛辑录各类知识资料,所以被认为是以事物聚类知识的典型代表。中国古代盛行编纂类书之风,如《北堂书钞》、《艺文类聚》、《太平御览》、《册府元龟》、《永乐大典》、《古今图书集成》等。其中,在编纂体例上最具特色的是唐欧阳洵等编的《艺文类聚》。其编排体例上的特点就是首创了“事文合编”的体例。所谓“事”,就是指那些对某一事物的解释性、介绍性的知识资料;所谓“文”,是指那些与具体事物有关的诗文歌赋。《艺文类聚》全书共100卷,百余万言,分天、岁时、地、山、水、草、木、鸟、兽等46部(即事物类别),部下有子目727个,每一个类目不仅“辑事”,而且还“辑文”,“事居于前,文居于后”。堪称以事聚类知识的典范。
3.4 以用聚类
所谓以用聚类,是指按知识本身的用途或效用来集中编排相关知识的一种方法。在文献知识组织中,以用聚类要体现用户保障原则和文献保障原则。从这个意义上看,以用聚类知识,实际上就是按用户的实际需求来集中相关知识的一种方法。
文献情报部门在文献采集工作中,始终遵循以用聚类的原则。如高校图书馆的文献采集,就要考虑与学校所设专业对口的原则,同时还要考虑与用户学历层次相对应的原则;科技图书馆的文献采集,就要考虑与用户科研课题需要相对口的原则;公共图书馆的文献采集,就要考虑用户需求多样性(类型多、层次不一)的特点,同时还要考虑一些重点读者的个别需求,等等。由此形成了各文献情报部门的以用聚类的文献收藏特点。
在文献知识的分类组织中,有一个“实际效用原则”,即文献归类时要考虑本单位的专业性质和本单位专业读者的需要,要把文献归入到最大用途的类目中去。这一原则充分体现了以用聚类知识的原则精神。为了充分体现和落实“实际效用原则”,一要树立专业意识,二要树立用户意识。所谓树立专业意识,就是要把文献知识尽可能地归入到与本单位专业最密切的类目中去,以便于这部分文献知识的集中检索与利用。例如《安全生产与心理学》一书,理应归入《中图法》“X911安全心理学”,但对于心理学研究所来说,应考虑归入《中图法》“B849应用心理学”,并可用组配法组配为B849:X911。所谓树立用户意识,就是要把文献归入到本单位读者最熟悉、最需要的类目中去,例如,《筒明数理逻辑》一书,理应归入《中图法》“0141数理逻辑”,但对公共图书馆来说,广大读者最为熟悉的类目是《中图法》“B813数理逻辑”,因此,应考虑把此书归入“B813数理逻辑”(即把“B[813]数理逻辑”这一交替类目,改为使用类目)。
另外,在中国古代的四部分类法理论中,把所有图书文献按经、史、子、集四大部类及其顺序来组织编排,也体现了以用聚类知识的思想,只不过这里的“用”体现了封建统治阶级的政治立场,意旨在使图书文献按“经→史→子→集”的重要性递减顺序发挥其效用。
3.5 以人聚类
所谓以人聚类知识,是指围绕某一人物或某些人物来集中编排相关知识的一种知识聚类方法。它可分为以人物的生平事迹聚类和以人物的思想类别聚类两种类型。
3.5.1 以生平事迹聚类 是指以记述人物的生平事迹为主线来组织相关知识的一种方法。这种方法主要体现在传记类文献和非传记类文献中的人物部分。
人物传记可分为个人专传和多人群传两种类型。个人专传能够集中详实地记述某一人物的生平事迹,如《毛泽东传》、《周恩来传》等。多人群传则一般概略介绍被传人物的生平事迹,如《中国人名大辞典》、《中国文学家大辞典》、《世界著名科学家简介》等。非传记类文献中的人物部分,也能提供有关人物的相关情况,如《中国大百科全书》各卷的人物部分,就概略性地介绍了各学科主要代表人物的生平及其科学成就。
在中国古代的文献编纂活动中,以人物的生平事迹为主线来组织相关知识的方法,得到了比较广泛的应用,其中最具代表的是《册府元龟》和纪传体史书。
《册府元龟》(又名《历史君臣事迹》),由宋代王钦若等编辑,是宋代四大类书之一,但因其专门记述历代君臣事迹,故可将其视为“准传记”文献。
纪传体史书,是以人物传记为中心来叙述史实的一种史书体裁,始创于我国汉代司马迁所著《史记》。我们通常所说的“二十四史”,便是记传体史书。《史记》中的人物传记分为本纪、世家、列传3种类型。本纪是按年月次序编写的帝王简史,以记载帝王言行政绩为主要内容;世家是用来记载子孙世袭的王侯封国的历史,实际是诸侯的“本纪”;列传主要是记述将相大臣和王公贵族及各阶层代表人物的生平事迹。可见,《史记》等纪传体史书,在其编辑体例上也体现了以人物的生平事迹为中心来集中相关知识的方法。
3.5.2 以思想类别聚类 是指按人物质属的不同思想类别(或称派别)来集中相关知识的一种方法。人物思想类别的最显著表现就是各种科学学派或流派。所谓科学学派,是指拥有独树一帜的研究纲领,由领袖人物及其追随者组成的享有较高集体威望的科学共同体。在科学发展史上,出现了许许多多有形或无形的科学学派,如物理学上的剑桥学派、哥本哈根学派、费米学派等,数学上的柏林学派、布尔巴基学派等,化学上的信息学派、结构学派等。按学派类别集中知识,不仅能反映一个学派整体的科学主张、观点、方法及其成就,而且还能反映学派共同体中每个成员的科学思想及其成就。任何一个学派都是由其领袖及其追随者组成的,所以按学派类别集中知识,实际上也属于以人聚类知识的一种方式。
在文献的分类组织方法中,国内外的各种分类法都把“以人列类”作为重要的分类标准之一,其实质就是以人物的生平事迹或思想类别来集中知识的一种方式。例如在《中图法》(第4版)中,“A马列主义、毛泽东思想、邓小平理论”、“B21/26中国各代哲学”、“B502/506欧洲各时代哲学”、B51/56欧洲各国哲学”、“B712美国哲学”、“F09经济思想史”、“I211鲁迅作品及其研究”、“K81传记”等,均采用了“以人列类”的方法。
3.6 以时空聚类
任何知识都具有时空属性或结构。根据据知识的时间特性和空间特性来对相关知识加以集中编排或整合的过程,就是以时空属性聚类知识的方法。它可分为以时间属性聚类、以空间属性聚类和以时空综合属性聚类3种类型。
3.6.1 以时间属性聚类 就是根据知识产生的时间序列来集中编排或整合相关知识的方法。例如,在文献分类组织中,以时代列类和依时代复分(如《中图法》中的“依国际时代表分”和“依中国时代表分”),就属于以时间属性聚类知识的方法。
3.6.2 以空间属性聚类 就是根据知识产生的地理区域,把相关知识按域别加以集中编排或整合的方法。在文献分类组织中,以国家或地区列类和依国家或地区复分(如《中图法》中的“依中国地区表分”和“依世界地区表分”)就属于以空间属性聚类知识的方法。另外,以民族列类和依民族复分,也可视为以空间属性聚类知识的范畴,因为世界上的各个民族都有自己的历史聚集地(这个聚集地隶属于某个国家或地区),而且各民族文化也是以其历史聚集地为中心形成和发展的。
3.6.3 以时空综合聚类 就是把时间属性和空间属性综合在一起作为聚类标准的一种方法。在《中图法》中,“依世界地区表分,中国再依中国时代表分”、“依中国地区表分,再依中国时代表分”,这种复分方法就属于以时空综合聚类的方法。知识的时间属性和空间属性的综合,往往表现为一种立体网络结构,这种立体网络结构如果体现在知识的实际运用过程中,就会产生知识的整合效应,而这种整合效应正是知识创新的一种表现。知识的时空整合,主要表现为以下几种情形:
● 将时空距离相近的知识加以整合。这种整合,不仅可以实现知识的归类,反映某一学科的发展现状,还可以进行某一学科研究成果的对比研究。
● 将时间上相近、空间跨度较大的知识加以整合。这种整合可以实现不同知识成果的交叉、渗透,有利于新知识的产生。知识空间的跨度越大,知识单元之间的差异就越大,各知识单元之间的优势互补应越明显,其整合效果也就越大。
● 将时间跨度越大、空间上相近的知识加以整合。通过这种整合,可以看出某一学科、某一领域的发展脉络,预测其发展趋势,也可以找出某一事物发展的主导因素和其中的关键性问题。
● 将时间跨度和空间跨度都较大的知识加以整合。通过这种整合,可以极大地发挥各知识单元之间的“杂交”优势,使一些老的学科焕发青春,并产生出新的学科。许多新兴的交叉学科、综合学科的诞生,就是通过这一途径实现的。
知识聚类的方法类型多种多样,绝不仅限于上述6种。随着科学技术的发展和人类知识组织活动的继续深化,有可能产生出更多更新的知识聚类方法,而且现行的知识聚类方法,也必将得到进一步的完善。
知识聚类和知识分类之间,确实存在着互为前提、互为结果的反向推演关系,但两者又各有其独特的内在结构与规律,决不能互相代替。因此,我们既有必要对两者分别进行纵深研究,又有必要把两者结合起来进行综合研究。这既有利于两者各自的发展,又有利于知识组织方法的创新。
收稿日期:2000-07-17