科学情报的基本属性与情报学原理,本文主要内容关键词为:情报学论文,情报论文,属性论文,原理论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1002-1167(2002)05-0014-04
科学情报及其传播交流是情报学的基本研究对象,科学情报的属性或性质历来是情报学关注的重要课题。许多学者都曾经从不同的角度分析了科学情报的基本属性,其中最有代表性的是阿·米哈依诺夫,他列举了科学情报的12大属性〔1〕, 并对这些属性的含义及其在情报学中的作用进行了系统分析,在情报学界产生了广泛的影响。但他没有对这些属性尤其是基本属性产生的原因、机制及其在这些属性基础上形成的规律进行深入分析。
科学情报的基本属性是由科学情报产生和利用过程的特征和规律决定的,是其他类信息不具备的性质,它又反过来影响科学情报的产生、交流、传播和利用过程,从而对情报学具有奠基性意义,对这些属性及其规律的研究可以帮助我们建立情报学的基本原理,使情报学发展成为严谨科学的学科。
本文重点分析科学情报的离散分布性、有序性、相关性及其在此基础形成的规律,以期揭示情报学中具有奠基性的定律,使情报学形成自己的学科范式,促进情报学健康发展。
1 科学情报的离散分布性
科学情报的离散分布表现为科学情报的内容单元以不同的方式从不同的角度分散于各种著作或文献载体中。科学情报的离散分布具有复杂的机理,本质上是由科学自身的分化和综合决定的,与科学情报的生产、利用,科学情报的累积性、再生性、老化性以及对创造者的独立性有密切的关系。
科学情报的离散分布现象是全部科学情报活动的基石。迄今对科学情报离散分布现象研究最富盛名的成果便是我们大家熟知的布拉德福(Bradford)定律。该定律研究和揭示了相关论文在科学期刊中的集中分散现象,被公认为是情报学的基本定律,它与描述科学生产率分布的洛特卡(Lotka)定律,词频分布的齐夫(Zipf)定律, 文献增长老化的指数定律具有共同的渊源和机理。该定律在研究中创造了一种重要的方法即频次——等级排序法(frequence-rank);按某一具体事项(如文章、作者、词等信息单元)在其主体来源(如期刊、作者集合或词的集合)中的出现频次按递减顺序排列起来,就会导出布拉德福分布。这种分布不仅仅存在于文献情报领域,在许多其它领域,尤其是在社会科学领域内更是一种常见的分布现象。如城市按人口的分布、居民多少的分布,书籍按页数的分布,生物的属按其种的分布等等,只要我们将主体来源按某一具体对象出现的频次排序,就可以得到类似的分布。
布拉德福发布的特点在于我们所考察的具体对象(如文献单元)的绝大多数集中于少数主体来源。如某一主题的科学论文约三分之一集中在少数期刊上,大多数作者一生只能发表一至二篇文章,而为数不多的一些作者却成果累累,一生发表几十篇甚至数百篇文章,人们写文章时,总希望选择常用的、传递功能强的词;社会财富总是集中在少数人手中,而不多一点则为绝大多数人分享。有的研究者认为,这里存在着所谓“马太效应”,“…谁若有,就给他,并不断增加;而谁没有,则连己有的都要被夺走。”这实质上是科学情报分布中的核心趋势和集中取向,是“成功”累积的结果。〔2〕
“成功”在这里具有广泛的含义,诸如,论文的录用与发表,收入增加,杂志声誉的提高,词汇被选用等。已取得的成功越多,就越容易在此基础上获得新的成功。如高产作者写一篇论文十分容易,百万富翁增加一点收入毫无困难;声望高的杂志更容易获得高质量的稿件。这实际上是个体自身能力和特征信息的显示。在这种分布中,人控制的选择因素起着决定性作用。在这种选择作用下,当一系列同类对象被选择时,有的经常被选择,有的不常被选择,这种频度不均匀的选择结果,实际上表征着被选择对象之间个体特性方面的差异,其本身又可以反过来作为再次选择的依据。如果我们把对象受到一次选择看成一次成功,那么这种成功的累积必然导致新的成功,普赖斯及其它一些研究者尝试用数学方法模拟这一过程。布鲁克斯则用频次一等级排序和认识的对数透视效应来分析这一基本规律。
布拉德福定律的研究虽然取得了突出成果,但也存在两个明显的不足:其一,对科学情报离散分布的机理研究得还不够深入;其二,对科学情报离散分布规律的研究还停留在宏观水平上,即对期刊上发表的科学论文分散规律的研究,而在微观层次上对科学情报离散分布的研究——即在内容单元(而不是文献)和内在逻辑联系层次上的研究仍不多见,尽管埃格希和鲁索出版了《情报计量学引论》,但在论及科学情报的分散规律时,仍然是以宏观层次的文献为基础。这说明,科学情报离散分布在微观层次上的研究难度较大。
针对上述不足,本文作者曾于1998年以《科学情报离散分布的机理与模型研究》为题申报国家自然科学基金项目并获得批准,希望在微观层次上探索科学情报的离散分布规律。我们选择电子学、化学、生物学、物理学等具有代表的学科领域,利用BIOSIS、INSPEC、COMPENDEX光盘数据库输出记录,用计算机统计命中记录的文献单元和知识单元(关键词或主题词),用频次一等级排序法从不同角度和侧面比较文献单元和知识单元的集中、聚类、分散状态,绘制出文献单元和知识单元的分布曲线,并对其进行模拟,发现文献单元和知识单元都符合布拉德福定律,只是非核心部分更加分散〔3〕〔4〕。
这说明离散分布是科学情报的本质属性和规律,是情报学的基本原理。其它类型的信息如市场信息、金融信息、政治信息、文化信息等等虽然也是分散的,但却没有这样明显的集中分散趋势和规律。
2 科学情报的相关性
科学情报是在认识中所获得的,如实反映自然界、社会与思维现象和规律,并用于社会——历史实践的逻辑情报。这一定义实际上提出了科学情报的4个特征:①只有在自然界、 社会和思维的客观规律的认识过程中所获得的信息才是科学情报;②只有当信息用抽象的逻辑思维加工和概括时,才能成为科学的,而不同于人们在感性认识过程中所取得的知识或资料;③它是自然界、社会和思维的现象和规律的如实反映;④它应当不断地被用于社会历史实践并受实践的检验。而那些众所周知的事实,科学幻想作品、医学处方等不能归入科学情报的范畴〔5〕。由此可见,科学情报实际上包括关于科学事实的情报,科学假说、构想及理论的情报,归纳科学事实、假说、构想、理论及定律的某种总和的情报,反映和形成对认识和改变我们周围世界的总的途径的情报。这些情报由浅及深处于不同的级别上,每一级别都构成上一级别科学情报的基础。
科学情报必定是进入科学系统的某种知识,从这个意义上看,米哈依诺夫和布鲁克斯对“Information”的限定是一致的, 前者界定什么样的知识单元是情报,后者说明在什么情况下知识单元可以成为情报,前者强调研究科学情报的构成、特性及科学交流全过程(生产、传递、利用)的规律,后者强调研究“世界2”与“世界3”的相互作用(吸收、生产、利用情报)规律,有助于知识的组织和利用;前者着眼于宏观层次,后者深入到微观层次。显然他们的Information Science 逻辑出发点一致,基本范畴相同,只是遵循的方法,路线不同。
由于科学自身的整体性、综合性、继承性、累积性和国际性,使得科学情报在纵向和横向都有极强的相关性。在纵向,即在上述科学情报不同的级别之间存在着内在的逻辑联系;在横向,各门科学之间是一个不可分割的整体,其科学情报也自然相关联。科学情报的这种逻辑上的相关性是其它类信息(如市场信息、娱乐信息等)没有的,这对科学情报的组织、存贮、检索具有特殊的意义。
传统的各种情报标引和检索语言正是基于科学情报的相关性采用概念逻辑划分来组织和存贮科学情报的,任何一种情报标引和检索语言,无论是语词的还是符号的,都是表达一系列概括文献情报内容的概念及其相互关系的概念、标识系统,它们都是建立在概念逻辑基础上的。而概念逻辑正是一种科学思维方法,它能揭示事物的本质属性及各种事物之间的联系与区别,概念则是事物本质属性的概括。科学情报,即科学认识的成果,正是通过各种概念来加以抽象和概括的,所以文献情报的内容只有用概念才能加以科学的表达和揭示。科学情报的相关性便可以反映为概念之间的关系,对概念的内涵进行限制,外延实施划分便可组织起相互关联而有序的现代情报检索系统。
科学情报的相关性在不同的学科领域是不同的,一般来说,在自然科学和技术科学领域,其相关程度较大,而在大多数社会科学、人文科学和管理科学中相关程度较小。这是由科学的累积性决定的。科学的累积性实质上是科学情报在时间上的压缩现象,即科学知识趋向日益提高的抽象水平。这种现象导致过去各时代所创造的科学情报总量的减少,虽然这种减少与新的科学情报的指数增长相比并不明显。累积程度越大,相关性越强,尤其是象数学、物理、化学等具有发达的形式化语言和严格推理规则的科学中,许多领域都已交叉渗透、难分彼此、浑然一体,人们很难区分它是哪一个学科领域的情报。
科学情报的相关性还可实现更深层次的知识组织,这方面有代表性的便是布鲁克斯提出的“知识地图”〔6〕, 即对文献中记录的知识的逻辑内容进行分析,找到人们思考与创造的相互影响及联系的结点,然后象地图一样把它们直观地标示出来,以展示知识的有机结构,为用户提供纯情报。
绘制人类知识地图是一个极为复杂的课题,现在还没有行之有效的方法,布鲁克斯只是在小范围内进行了试验研究。他利用J ·法拉登(J.Farradane)提出的关系索引〔7〕〔8〕,把液晶方面的部分论文索引构成为一个网络图,试图展示知识创造的逻辑关系。当他正在进行这项工作时,他看到了H·斯摩尔(H.Small)的研究成果,斯摩尔对一组生物化学家之间的迅速引用进行研究,引用结果表现为这些科学家相互的强烈影响。斯摩尔试图揭示究竟是什么思想、观点使得后继论文引用。如果可以用简单的陈述来表达被引的思想和观点,而这些思想和观点又可以抽象为有限数量的概念,就可以在一个网状图中显示它们如何导致了一个重要发现。这样就得到了一个更为直接的“知识地图”。布鲁克斯认为,如果利用关系索引就可以较为准确地表达概念之间的关系,将文献网变为由知识单元直接联接的概念网,使知识体系从外部宏观结构改变为内部微观结构。这些尝试对情报学的许多课题都具有很高的理论价值和实践意义。
当代信息技术高度发展并广泛应用于信息处理,使得信息组织正朝着自动化、集成化和智能化的知识组织方式发展,由于信息和知识爆炸式地增长,沿用过去的文献组织(如分类法和主题法)和信息组织方法(如文件方式、数据库方式、主题树方式和超媒体方式)已不能解决大量资料和信息的合理利用问题。文献组织主要以文献为对象,它所要解决的是告诉人们有什么文献或知识;信息组织则不再局限于文献形式,而是将某一方面大量的、分散的、杂乱的信息经过整序、优化,形成一个便于有效利用交流的过程〔9〕。基于此, 人们发现知识组织的目标不应该再停留在简单地对知识进行存贮、整序,而应该是通过融合分析、归纳、推理等方式来实现知识挖掘和知识表示过程。专家系统中的知识库可以说集中了当前常用的知识表示方式和知识组织方式,相关性正是这类系统的灵魂。如果是科学情报系统,相关性应当成为知识表示方法和知识组织方式的基础,系统才更有效率;如果是非科学情报系统,系统的智能会发掘和生存资料之间的相关性,从而达到产生新知识的目的。可见相关性原理并未随着信息技术的应用而减弱或消失,而是在信息技术支持下发挥着更为重要的作用。
3 科学情报的有序性
科学情报的有序性来源于科学体系的有序性和人的创造过程的有序性。
科学情报的产生在许多情况下可能是随机的、无目的的,但它们一旦被生产出来并进入科学体系,成为科学结构中的一分子,便具有特殊的意义。它们可能属于科学情报的不同级别(事实、假说、构想、理论等),在科学体系结构中具有不同的功能,但都会通过科学的自组织而形成有序结构,这对于自然科学、技术科学等累积性特别强的学科尤其如此。
其它类信息不存在象科学体系一样的自组织结构系统,而是人工建造的各类信息系统,当新信息进入这些系统时,必须有人的干预和调整才能实现有序添加,否则,输入的信息越多,系统就会越混乱。当然,科学情报在科学体系中的有序性结构并不意味着它能自动生成有序的科学情报检索系统,只是表明,我们可以通过科学情报的有序结构研究科学情报的规律和组织,建设更有效率的科学情报系统。
科学情报的有序性结构既来自于科学情报创造过程的机理,也来自于科学体系自身的自组织功能。前者是主观知识结构的有序过程,后者是客观知识系统的有序结构。
20世纪70年代中期,布鲁克斯曾提出描述情报作用的基本方程式:
K[S]+△I=K[S+△S]
式中,K[S]表示原有的知识结构;K[S+△S ]表示吸收情报以后的知识结构;△I表示知识结构吸收的或增加的情报。
该方程的意义是,原有的知识结构K[S],由于吸收了情报△I, 变为K[S+△S],新的知识结构形成是由于吸收情报的结果。 二十多年来,这个以伪数学形式表达的简单方程引起了人们广泛的兴趣和普遍关注,认为该方程对描述的概念和作用是最基本的。有人甚至提出,情报学的基本问题就是解释这一方程〔10〕〔11〕。需要强调提出的是,布鲁克斯的基本方程不仅适用于主观知识结构(即波普理论中的“世界2”),同时也适合于客观知识结构(即波普意义上的“世界3”)。
无论是主观知识结构还是客观知识结构,都是开放系统,它与外界处于不断的知识、情报(还包括物质、能量)交换过程中,可以形成类似于普里高津提出的“耗散结构”〔12〕。普里高津发现,一个开放系统处于远离平衡态的非线性区时,一旦系统的某个参量的变化达到一定阈值,通过涨落,系统可能发生突变,即非平衡相变,由原来的无序混乱状态转变到一种时间、空间或功能有序的新的状态。这种有序状态需要不断地与外界交换物质和能量才能维持,并保持一定的稳定性,不因外界的微小扰动而消失。普里高津把这种在远离平衡态的非线性区形成的新的稳定的有序结构,称之为耗散结构。这种自行产生的组织性和相干性被称作自组织现象。所以这一理论又叫作非平衡系统的自组织理论。
卢泰宏教授曾用耗散结构理论研究科学情报的作用机理和有序性的形成〔13〕。根据耗散结构理论,这个开放的知识系统的熵变化为:
ds=des+dis
式中des为系统与外界交换的熵流,dis为系统内部的熵产生。 dis来源于知识系统(结构)中知识单元数目的增多,知识体系的复杂,冗余无序、知识的老化和陈旧等等。为了维护和提高知识系统的功能,要求ds<0,即必须des<0,且│des│>│dis│,也就是说, 需要由外界向系统输入足够的负熵流。输入的负熵流除了包括维持大脑活动的物质和能量外,在这里主要是知识信息。所以,科学情报对知识系统来说,是一种负熵流。〔14〕
负熵流有可能使远离平衡态的开放系统形成有序结构。一个知识系统、知识增长过程实质上是输入情报使知识结构由无序走向有序或从一种有序结构演变为另一种有序结构的过程。游离态的“知识单元”一旦实现了有序重组,就意味着新知识新情报的产生,便伴随着知识的增长和拓展,科学体系或知识结构之所以具有自组织功能和有序性,正是因为它能随着科学情报的产生、输入、输出不断形成耗散结构。
耗散结构理论同时也指出,当负熵流输入时,系统只有远离平衡态才可能形成新的有序结构,在近平衡态时,新的有序结构不可能出现。科学情报作用于不同的知识结构时,效果也不一样。用耗散结构理论解释这种相互作用,如果输入的科学情报与原有知识结构处于近平衡态,即在原有知识系统“规范”之中时,它只能有序地融入或链接到原有知识结构中,增加原有知识系统的知识量;当其与原有的知识结构处于远平衡态,即只有突破原有的“规范”才能产生新知识时,就有可能形成新的有序知识结构,导致重大的科学发现。
科学体系(知识结构)的自组织功能和科学情报的有序性使其在长期的累积中形成了一个有规则的系统。遗憾的是我们迄今还不能按知识结构自身的有序规划来组织情报,建立情报系统,而是创造另一标引和检索体系,按情报载体的外部特征或情报本身的内容特征来标引和组织情报系统。这样的系统虽然考虑到了人们利用情报和知识的特征与习惯,但却忽视了人的创造过程和科学情报本身的有序性规则。因此,建立在这种基础上的情报系统即使采用了最先进的信息技术也远未达到应有的质量和效率指标。布鲁克斯的“知识地图”正是利用情报的相关性和有序性原理来构建新型情报系统的一种有益的探索,如果这样的系统能够建造成功,情报学将会取得突破性进展,人类社会的情报危机也会得到有效遏制。
4 结语
半个多世纪以来,情报学虽然取得了众多的成果,但仍旧停留在经验水平上,其理论基础可以说还没有真正确立,目前仍然只有一些零散、简单不成熟的理论,还没有形成连贯而谨严的理论体系。与此形成鲜明对照的是以现代信息技术为基础建立起来的各类信息系统和网络发展迅速,向迈着缓慢步履的情报和知识组织理论提出了新的要求。一方面,情报学本身远未作好准备,不能对迅速发展的信息和知识组织系统提供理论方法;另一方面,情报学的研究者也仓促超越边界,扩大情报学的研究范畴,去研究许多不属于情报学或情报学目前无力解决的问题,使得人们对情报学丧失信心。我们发现,近十年来,有关情报学基础理论、原理和方法的研究少了,人们要么改换门庭,要么只在外围作些应用性工作,阻碍了学科发展。
为此,本文强调情报学研究科学情报的属性、特征、规律、组织和利用,以科学情报的构成、属性、特征为基础所形成的情报学基本原理才是支撑情报学大厦的基石。只有在这些基本原理的研究上取得突破,才能使情报学成为严谨的科学学科,情报学才真正有能力为其它类信息的组织和利用提供理论方法,就象物理学为生物学、化学和庞大的工程学科提供方法一样。盲目以拓展外延的方式来谋求情报学的发展只能适得其反。这一观点本文作者已在《情报学的进展与深化》〔15〕一文中详细论述。
本文提出,离散分布性、相关性和有序性是科学情报的本质属性,它是科学情报在产生、传播、利用中形成的规律和特征确定的。这三个基本属性对情报学具有规定性和奠基性,情报学的基本原理和规律都是在这三个基本属性基础上形成的。目前对这三个基本属性的研究还很不够,其中,研究得最多的是离散分布性及规律,但迄今仍然停留在文献层次上,模型带有浓厚的经验色彩。在内容层次上,由于没有找到科学情报的确切表示方式,只得借助关键词和主题词间接进行,因此,所取得的成果自然具有局限性。对于相关性和有序性的研究则基本上是空白,而本文的工作也仅仅是提出问题。可见,情报学还有许多工作要做,我们深信,只要我们围绕这三个基本属性及规律深入研究,大胆探索,情报学就会取得突破性进展,作为严谨的科学学科立足于学科之林。