文献计量学与分形,本文主要内容关键词为:计量学论文,文献论文,分形论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘要 本文目的在于把分形方法移植到文献计量学中。这个方法是建立在不断变更的统计数据上,采用必要分割而获得所需信息。最后指出分形方法对图书馆内统计资料的研究开辟了新途径。
关键词 文献计量学 分形
1969年普里查德(Pritchard)提出“文献计量学”这个术语,它来源于目录统计学。按照普里查德的说法,目录统计学一词是休姆于1923年首次提出的,他通过对文献数量的计算,用以阐明科学技术史的过程。普里查德提出文献计量学意指将数学和统计方法应用在文献及其它情报媒介中。到了1988年,布鲁克斯指出,文献计量学把我们紧紧限制在图书馆和这个领域的文献源方面。
本文主要对大量套录数据的统计数字进行处理,而暗示出计算机计算技巧对其施加的影响。从表面看来,套录的数据是离散的、孤立的、互不相关的、使人难以捉摸的一组数据。对解释人类社会现象中,所广泛存在的这种大量不规则的“复杂”事件,传统的数学方法已经显示出无能为力了,近来崛起的分形理论可尝试给予实质性的回答。
分形,形之分也。一般地说,分形包含着两个基本特性:其一分割;其二取极限。因此分形是一个过程,是事物从整体向局部转化,人们的认识从宏观向微观深化的过程。本文的目的是在于用分形方法解释文献计量学中的数学模型。在第一节中,指出每组离散数据都表现出自相似性,从而确定其为分形体;在第二节涨落示性数中,明确分维和涨落示性数的关系,计算分形体本身内涨落大小的特征——涨落示性数。第三节为了明确起见,用洛特卡定律为例加以说明;第四节给予哲学意义的阐述;第五节展望中,指出本方法可用于对图书馆内统计资料的研究。
一、自相似性
为了预测人类某些活动,总是试图构建模型。在文献计量学中,前辈们已经构建了许多数学模型。
在我们讨论的文献计量工作中,所有的数学模型总存在有两类实体:源和由源产生的项。若是将项按照数值大小降排列,填放在矩阵的第二行中,让其所对应的源,填放在矩阵的第一行。于是有
分形,形之分也,即分形是事物形状、形态与结构的分割。这样就把问题转化为用什么方法来“分割”整体,使得便于说明具有整体与其局部相似——自相似性。
我们采用“离散模拟”的方法,解决本节的问题。首先,设有一离散、实用的(1)式,将其分成为P组,那么有序列因子
这里T是源的总数。现在已经将整体分割为P个组,分割后的项分别为r[,0],r[,0]k,……r[,0]k[P-1]。再次,从(1)式对应关系中找出每个组所对应的项数。若是改变分割P数,反复进行n次离散模拟,便可看出序列蕴含自相似性。这个观点已在布拉福德定律、齐夫定律中获得验证。现在按照芒代尔布罗的观点:分形是其组成部分以某种方式与整体相似的形。敏达的读者可能会对本文提出质疑:前面提到“分形,形之分也”,这里却认为分形是自相似的形。这并不矛盾,前者“分形”是动词,是一个分割过程,是一个认识过程;后者“分形”是名词,是定义其基本特征。本文为了将这两个概念区别开,把后者写成“分形体”。
在这里,我们讨论的是随机分形体。在随机分形序列中都存在有序列涨落,若涨落甚小,可被序列系统吸收时,系统便可包括在我们所讨论的层次:若涨落增大超过国值,系统无法吸收时,系统应在另一个层次中讨论。这就表明,涨落除了具有上述的统计意义之外,还具有相对性的内涵,即系统的自相似性具有一定的界限,若是超过这个界限,就会破坏该系统的自相似性。但是我们如果将所用尺度再作一定的改变,自相似性又会复而出现。
二 涨落示性数
芒代尔布罗对词频分布定律作出了理论分析,把齐夫定律中的负指数确定为分维;另外,埃格希等给出等价定律,一旦这些定律(包含有布拉福德定律、齐夫定律和洛特卡定律在内)有其中一条被“解释”了,那么其它定律也就理所当然地得到了解释。于是有足够的理由用统一方法处理这些定律。
现在我们将(1)式认为是一个整体,看看这个整体的各个局部涨落情况,也就是说,看看各个局部的“分维”。为了与整个分形体的分维加以区别,我们称它为“涨落示性数”,记为D[,f]。这个指数对齐夫定律来说,表征词频在整体上的局部分布分散程度的定量描述,对洛特卡定律表征了在整体上局部著者分布分散程度和学科(或主题)相互渗透水平的定量指标。它不仅反映了事物的基本特征,也能解释许多疑难问题。例如,用纯推理确定“核心期刊”及解释格鲁斯偏移现象。注意,当分形体的分维为1时,当然这里说的是近似于1的时候,分形体的局部分维等于其涨落示性数。
现在我们讨论一下涨落示性数的计算方法。这个计算程序类似于康托尔集合的分维计算方法。取一单位线段,这条线段犹如是一根质量不均匀的棍棒。将单位线段P等分。等分后的每一小段所持有的质量除以棍棒总质量,便得到P[,1],P[,2],……P[,i]。故每小段的分维为
若将棍棒的长度看成是上述的源数,而把质量认为是上述的项数,这样就可以把每小段的分维等价于我们需要计算的涨落示性数。
三 举例
取文献〔14〕中数据作为(1)式,并且进行必要计算后列如表Ⅰ。
表中i是序号,X[,i]是每位作者撰写论文数量,Y[,i]是撰写X[,i]篇论文作者数,r[,i]是写有小于和等于X[,i]篇数的累积和,R(r[,i])是写出小于和等于X[,i]篇数共有论文的累积和。于是,将表I的数据分成2组,即P=2。采用公式(2)计算序列因子K=(1.781×Y[,1])[1/2]=38.70,代入(3)式,r[,0]=T(k-1)/(k[2]-1)=276(k-1)/(k[2]-1)≈6.95,故取(r[,0])=7。利用表Ⅰ和(4)式,经过简单计算后列成表Ⅱ。
表Ⅱ P=2的洛特卡定律
现在许算P=4的情况。这时有K=6.22和r[,0]=0.96,经过简单计算列成表Ⅲ。
表ⅢP=4的洛特卡定律
我们对表Ⅱ和表Ⅲ进行比较,表Ⅲ中第一组和第二组的r和R(r)的数之和分别是表Ⅱ中第一组r及R(r)的数,同样,表Ⅲ中第三组和第四组的r及R(r)的数之和分别是表Ⅱ中第二组的r及R(r)的数。这就证实了洛特卡定律蕴含有自相似性,故可以认为是分形体。
四 哲学意义
如前所述,文献计量学以随机性的复杂事物为研究对象。那么人们究竟怎样去认识复杂事物?人们用什么方法探索复杂性呢?从广泛意义而言,这是一个属于哲学范畴,属于认识论的问题,具有深刻的哲学意义。
事实上,人们对事物的认识是不可能一下子就可以完成的。众所周知,文献计量学中的经验定律,都是从选择“源”及其由这些源产生的“项”,而获得的两组抽象的、随机的、似乎互不相关的序列组成。例如,在本世纪初,先后由洛特卡、齐夫和布拉福德归纳出以他们的名字命名的三个定律著称于世界。显然把这两组如此的序列作为整体,以“源”和“项”的某种组合形式的比产生出差别,从而分割成局部的、各自适应的、互不相关的定律进行讨论。讨论较多的是布拉福德定律,人们习惯将布拉福德曲线分割为“核心区”、“格鲁斯偏移区”以及“中间区”,便在这些区中进行各自的研究。这就是把整体分割成局部来考察,并通过反复分割,反复认识,不断深化,直至无穷,即所谓由表及里,由浅入深的认识过程。显然这种认识事物的方法是分形认识论。
分形认识论的哲学基础是系统或整体中的每一个元素或局部都在一定程度上反映与体现着整体系统的特性与信息,俗称为自相似性。可见分形认识论是一种从整体向局部转化,从宏观向微观深化的认识过程。
物极必反,这是事物发展的必然结果,在认识论过程中也是如此。分形认识论和系统认识论构成对立的统一。系统认识论的方法是把一事物放置在一个更大的系统、更广的范畴中以全局的高度来考察与认识事物的。当人们将整体反复分割、反复认识、深化到一定程度时,找到了各个局部的共性,必使人们系统地、全局地、整体地考察事物。我们所探讨的三个定律的共性就是都有涨落示性数。于是利用它作为纽带,将这三个定律放在由源和项组成的两组序列中讨论,这就是所谓系统的观点、全局的观点、整体的观点。与分形认识论过程相反,系统认识论是从局部向整体伸展,从微观向宏观拓广的认识过程。
分形认识论和系统认识论是人们从两个不同的侧面出发来认识事物发展的过程。这两种认识论方法是相互补充,恰恰完整地构成辩证的认识论方法。
五 展望
综上所述,不难看出我们把分形方法移植到文献计量学中是可行的。因为(1)式矩阵并不是一成不变的,它随时间的流逝而不断变更,即不断地向外提供信息,不断地从外界获取有价值的数据。这就可以把(1)式看成是开放的耗散结构系统。这个系统是由“源”的“项”不断增加而形成的。“项”的增加是出于人为的随机涨落,这种涨落具有构成某一个具体的系统的性能——组织性,也具有出于某种因素使某个涨落较大,而变更“源”的顺序,重新组成新的系统的性能——相干性。不言而喻,分形方法是建立在不断变更的统计性质上。我们还可以看出,对(1)式矩阵进行必要的分割而获得所需要的信息。例如对布拉福德序列进行分割而确定核心期刊,并获得格鲁斯偏移点。
图书馆内统计资料中有很多是按某种顺序排列成“源”的数据,以及由“源”产生出来的“项”。这些都符合矩阵(1)的要求。显然,分形方法对图书馆内统计资料的研究开辟了新的途径(另有文章予以阐述)。