关于文献离散分布定律的又一点看法——试论相关期刊总量的估算,本文主要内容关键词为:定律论文,总量论文,试论论文,文献论文,看法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘要 论证了用N≈K的方法估算相关期刊总量不够科学,提出了利用小区间相关期刊中文献平均载文量的变化趋势进行预测。
关键词:相关期刊 总量估算 布拉德福定律
自从布拉德福提出文献分散定律以后,半个世纪以来,经过维克利、布鲁克斯等人的修正和补充,布氏定律在形式上更加完整,内容上更加丰富,促进了它在图书情报和文献工作中的推广应用。但是,笔者发现,在关于文献分散分布状况的研究结论中,有的尚待进一步探讨。在《关于文献离散分布规律的几点看法》(《宜春师专学报》1994年第5期)一文中,笔者曾对布氏定律谈了肤浅的看法,本文打算就相关期刊总量估算方法提出一点看法,期望同仁指正。
一、N≈K的可靠性分析
在布拉德福定律的应用方面,经常要用到某一学科相关期刊总量N这个指标,但是,N一般无法得到确切的数值,所以人们通常利用由布鲁克斯公式推出的N≈K的结论并结合作图的方法来进行估算。这种方法简单易行,然而通过下面的分析,可以发现它的科学性值得怀疑。
表1
对比表中数据,可以发现:若利用K≈N从K估算N,误差很大。产生的原因是只有当N趋向于无穷大时,对于大部分学科,相关期刊的总量N不会超过10000种。
其次,作图得到的直线斜率与关系式中的K不等价。在从布鲁克斯公式推导的过程中利用了关系式R(N)-R(N-1)=1,而这个关系式对另外一些n也成立。将期刊按被统计专业的载文量递减次序排列,设从第n[,0]。号期刊起每种期刊都只刊载一篇该专业文献,则所有大于n[,0],小于N的n都满足这个关系式,这样就能得到若干个n≈K,这些n的数值有时相差较大,从而使K也有若干个相差较大的数值。例如,根据表2中应用地球物理学期刊文献的统计数据,可得到K≈160、K≈161、…、K≈326、K≈N等一连串数值,K值逐渐增大,最大值与最小值相差一倍以上。
表2 注:生物学期刊文献分布数据取自参考文献1.
应用地球物理学和润滑期刊文献分布数据取自参考文献2.
这个结论似乎难以使人相信,一条直线怎么会有若干个不同的斜率?分析半对数坐标系的特点,当n每增大1时,在坐标横轴上,增量逐渐减少,而此时R(n)也每次增大1,在坐标纵轴上,表现为等量增长。因此,曲线呈现上翘形状,每一点处的斜率逐渐增大。前面计算出的一连串K值,包括K≈N,实际上就是这条上翘曲线上各点的斜率。它们分别根据各点的数据计算而得。
布氏曲线在核心区外是一条近似直线,与核心区外整个范围相比,载文量为1的这些期刊只是一个小范围,大范围内的曲线是由若干小范围内的曲线连接而成。当n每增大1,R(n)-R(n-1)从增大m(m≥2)突变到增大m-1时,曲线呈现下垂趋势,而当R(n)-R(n-1)不变时,曲线呈现上翘趋势,这样下垂与上翘交替出现,曲线就可能近似为一条直线,整条曲线可用R(n)=Klg(n/s)近似描述,但这并不是说这条曲线上的任何一段都可用此式近似(误差不很大)描述。直线的斜率是曲线上各点斜率的平均值,也就是作图得到的斜率。曲线上各点的斜率不相等,直线的斜率与曲线上任意一点的斜率没有确定的联系,在关系式R(N)-R(N-1)=1中的K与作图得到的直线的斜率并不等价,用作图得到的K代入关系式求N也就没有充分根据。
一些学科的期刊文献分散分布的统计数据已经证实用K值估算N值存在问题。根据表2应用地球物理学期刊文献分散分布的统计数据作图,核心区外近似直线部分(n从10到326)的平均斜率K=(1332-445)÷(lg326-lg10)=586,参数S对直线的斜率没有任何影响,即便近似直线部分因人而异,但直线的斜率不会有很大变化。根据这个结果估算该学科相关期刊总量在550种到600种之间,而统计数据仅为326种,不足期刊总量的60%。观察统计数据,发现尾部期刊(即该学科文献载文量较小的期刊)所占的比例较大,这部分期刊统计时一般容易遗漏,这说明统计是比较全面的,由此推断该学科相关期刊总量在550种以上这个结论值得怀疑。更有甚者,根据表2中生物科学期刊文献分散分布的统计数据,可得到曲线近似直线部分(n从32到99)的平均斜率在6000以上,若根据N≈K说我国生物科学相关期刊总量在6000种以上,这是难以置信的。
二、一种新的估算方法
在对数轴上,这些区间的间隔相等。再设各区内期刊相关文献的平均载文量为f[,j],f[,j]随着j的增大而减小,并且这种变化一般是非线性的。根据表2的数据得到表3,再根据表3绘制图1,图1所示的曲线呈现负指数曲线的形式。虽然生物科学期刊的曲线在横轴上点128处下降过快,这主要是由统计误差造成,我国发表的生物科学期刊论文每年近一万篇,而统计表只反映了230种期刊的七千多篇,未得到反映的大都是尾部期刊,如将尾部的f[,j]增大一些,也就是增加一些被遗漏的尾部期刊,使f[,j]如表3中括号内的数字及图1中的虚线,则R(N)会提高一些,曲线也为负指数曲线的形式。
表3
图1
根据某一学科期刊文献分布各区间平均载文量的前几组数据,可以预测估算相关期刊的总量。具体步骤是:
1、根据f[,j]在横轴上的等间隔及其变化特点,设f[,j]=e[n+bj],两边取自然对数,并令y[,j]=lnf[,j],变换成y[,j]=a+bj
2、对变量y[,j]和j进行相关系数检验,以判定两者是否存在线性关系。若相关系数接近于-1,则利用直线回归分析的方法进行y[,j]的预测,求得y[,j]和j的函数关系式;
3、将y[,j]和j的函数关系式变换成f[,j]和j的函数关系式,利用此式进行f[,j]的预测;
4、由于负指数函数在函数值较小时变化缓慢,与f[,j]的变化趋势有一定误差,并且j越大,误差越大,所以要对预测得到的f[,j]进行修正。修正的方法采用预测值乘修正系数的方法,当预测值小于5时,从大到小依次乘0.75,0.5,0.25,0,最终得到各f[,j]的预测结果;
5、求出f[,j]的预测结果小于0.5的第一个点(lg2[j,],f[,j]),在半对数坐标系中,将此点与点(lg2[(j-1),],f[,(j-1)])用直线联结起来,此直线与水平直线f[,j]=0.5相交于点(lga,0.5),则a可近似地认为是该学科相关期刊的总量,即N≈a。
当0<f[,j]<1时,期刊排序的最后一种期刊不可能占据j区间的最后一个位置,取f[,j]=0.5,可以使上述模型对多数学科相关期刊总量的估算误差不很大。
根据表3中应用地球物理学f[,j]的前五项数据,通过上述步骤,可以得到;相关系数r=-0.9963,f[,j]=e[5.01512-0.53974j].相关系数非常接近于-1,说明直线回归准确性较高。利用此函数式可得f[,6]=5.91,f[,7]=3.44,f[,8]=2.08,f[,9]=1.17,对5以下的f[,j]进行修正,得到各预测结果:5.91,2.583,1.04,0.2925。
将点(lg2[8],1.04)与点(lg2[9],0.2925)用直线联结,其与水平线f[,j]=0.5的交点为(lgA,0.5),因为lg2[8]=2.4082,lg2[9]=2.7093,2.70932.4082=03011,(1.04-0.5)÷(1.04-0.2925)=0.7224,2.4082+0.3011×0.7224=2.6257,查常用对数表,424的常用对数为2.6257,所以最终估算该学科相关期刊总量为424种。
在实际工作中,由于上述方法计算比较复杂,通常可采用作图的方法,在作图时对某些异常数据先进行修正,然后在图1中将曲线的下端按原变化趋势延伸,使其与f[,j]=0.5的水平线相交,交点的横坐标即为相关期刊总量N估计值的常用对数。例如将图1中各曲线的尾部放大成图2,从图2可知三个N分别是890、430和200,这个结论与实际情况比较相符。
图2
注:1.A.E.线纵轴比例相同
2.B.C.D.线纵轴比例相同
3.A.E.线与B.C.D.线纵轴比例不同
4.A.—生物学
B.—应用地球物理学
C.—润滑
D.—与B.C.对应的0.5水平线
E.—与A.对应的0.5水平线
利用已知的各f[,j]和预测出的各f[l,j],还可以估算该学科期刊论文在一定时期内的总数R(N),估算式为:
式中各f[,j]取统计值或其修正值,没有统计值的取预测值。m为f[,j]第一次小于0.5的区间号。利用此式估算,得到三个学科在该时间范围内期刊论文总量分别为R[,A](N)=10083,R[,B](N)=1426,R[,C](N)=430。
采用本文介绍的方法估算N和R(N),仍有一定误差,但由于这种方法首先根据统计数据确定了f[,j]的上限,并且前面几组统计数据一般说来比较准确,所以f[,j]的上限及曲线在大部分区间的形状比较容易确定,f[,j]的下限受到明确的限定,即必须大于零,并且接近于零,估算时,f[,j]已接近下限(本文取为0.5),所以可以认为N和R(N)与客观实际相差不很大。