期刊Web下载总频次的布拉德福分布研究,本文主要内容关键词为:频次论文,布拉论文,德福论文,期刊论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G350 [文献标识码]A [文章编号]1003-2797(2006)06-0038-05
网络信息计量学(Webometrics)自1997年诞生以来,不断增长的现实需求和不断增强的技术条件推动着这门年轻的学科迅速发展。但从目前情况看,有关网络信息分布规律等基础理论问题的研究,仍然十分匮乏,严重阻碍了该学科的进一步发展。本文研究的目的是通过对期刊Web下载总频次在期刊中分布规律的实证研究,来探讨文献计量学经典定律之一——布拉德福定律在网络环境下的适用性和新特点。
1 数据来源
我国的国家知识基础设施(National Knowledge Infrastructure,CNKI)系列全文数据库已经成为全球最大的全文数据库,其中,可通过“中国期刊网(www.cnki.net)”直接访问的“中国期刊全文数据库(CJFD)”收录了中国出版的6600多种核心期刊和专业特色期刊,覆盖了理工、农业、医药卫生、文史哲、经济、政治和法律、教育与社会、电子技术与信息科学等广泛的学科领域。“中国期刊网”借助网络这一新型的信息流通媒介,打破了传统期刊单一的印刷出版流通渠道和狭窄的信息交流模式。众多期刊的全文数字化信息都处于同一检索平台上,在逻辑上具有同等被利用的机会。
2004年12月,中国学术期刊(光盘版)电子杂志社和中国科学文献计量评价研究中心发布了《中国学术期刊网络计量测试报告(2004版)》(以下简称《报告》),该《报告》是对中国学术期刊网中心网站(www.cnki.net)分布在全国各地的2000多个包库用户(不含镜像站点和流量计费用户),在2003年1月1日到2003年12月31日全年对“中国期刊全文数据库(CJFD)”上网期刊的下载频次进行大样本数据统计所得的测试报告,数据达5000余万条。《报告》的样本统计涉及具有全文上网授权并具有2001—2003年上网数据的中文期刊4827种,依照CNKI中国期刊综合评价分类体系,编为“大学学报类期刊”、“社会科学类期刊”、“自然科学类期刊”、“医药科学类期刊”、“农业科学类期刊”等5个专辑共251个类目。本研究所采用的数据主要取自该《报告》的“Web下载总频次”这一项指标的统计数据,该指标的含义是“指该期刊1994年自上网以来所登载的全部文献在统计当年(2003年)被下载(包括全文浏览、转存和打印)的总频次”,该指标反映了该期刊在网络上的载体影响及被应用的能力。此外,我们还采用了同期发布的《中国学术期刊综合引证报告(2004版)》中的“期刊的总被引频次”、“期刊影响因子”等部分传统计量指标数据作为辅助研究数据。本研究所采用的数据汇总如下页表1所示。
表1 研究数据汇总表
指标名称 计算方法
指标意义
数据来源
Web下载该期刊1994年自上网以来所登载的全部文 反映了该期刊在网络上的载体影响及被应 《中国学术期刊网络计量
总频次献在统计当年(2003年)被下载(包括全文
用的能力
测试报告(2004版)》
浏览、转存和打印)的总频次
期刊的总
该期刊自创刊以来所登载的全部论文在统 说明该期刊总体被使用和受重视的程度,以 《中国学术期刊综合引证
被引频次
计当年被引用的总次数 及在学术交流中的作用和地位 报告(2004版)》
该期刊前两年(2001年至2002年)发表论文 相对统计量,可克服大小期刊由于发文量不
期刊影响
在统计当年被引用的总次数除以该刊前两 同所带来的偏差。一般说来,影响因子越
《中国学术期刊综合引证
因子 年发表论文总数大,其影响力和学术作用也越大报告(2004版)》
2 研究方法
2.1 研究思路与步骤
布拉德福定律最初是用来描述科技论文在期刊中的分布规律的,其数学表达式表示的是“期刊载文量累积数”与“期刊累积数(即期刊等级数)”之间的函数关系,但在实际应用中,期刊的载文量常常可以用其它指标来代替。例如,D.P.Wallace在1986年有关文献分散与老化之间关系的研究中,就以期刊的被引次数来代替期刊的载文量,即认为期刊被引用的次数也可以像期刊的载文量一样直观地反映该期刊对于该专业的贡献大小和在专业中的地位[1]。又如,W.Goffman和T.G.Morris在1970年通过对统计结果的计算分析,证实期刊流通量按期刊的分布以及期刊流通量按用户的分布皆可认为服从布拉德福离散分布规律,并将之应用于指导馆藏[2]。当然,不同的指标在反映程度上是有差别的。
在本次研究中,我们仿照Wallace等人的思路,建立以下两个基本假设:①在网络环境下,“期刊的Web下载总频次”既然“反映了该期刊在网络上的载体影响及被应用的能力”,那么也可以反映该期刊对于该专业的贡献大小和在专业中的地位。②如果假设①成立,那么“期刊Web下载总频次”在期刊中的分布同样应该服从布拉德福离散分布规律,也就是说,“Web下载总频次”的累积量与期刊累积数(即期刊等级数)之间应该满足布拉德福定律所描述的函数关系。
为了检验上述假设,我们按照以下步骤进行研究:
(1)将“期刊的Web下载总频次”与“期刊的总被引频次”、“期刊影响因子”等反映期刊质量的传统指标进行相关分析,看它们之间是否存在显著的相关关系。
(2)对原始数据按照“Web下载总频次”的递减顺序进行等级排列,对其进行布拉德福区域划分,按照区域分析法进行分析计算。
(3)根据统计数据绘制布拉德福分布图形。
(4)对布拉德福分散曲线进行曲线拟合,按照不同的回归模型进行曲线拟合,得到相应的回归方程,分析计算相应的参数。
(5)将“农业科学类期刊”和“大学学报类期刊”的回归方程进行比较,探讨学科界限对布拉德福定律的影响。
(6)分析研究结果,得出结论,讨论相关问题。
2.2 相关分析
我们首先从各个专辑的期刊中随机选取一个类别的期刊,将“期刊的Web下载总频次”与“期刊的总被引频次”进行Spearman等级相关分析,所采用的研究工具是SPSS v10.0。结果如表2所示。
表2 期刊“Web下载总频次”和“总被引频次”的相关分析结果
Spearman
专辑名称 期刊类目期刊数量
等级相关系数
社会科学图书与情报 33 0.756
大学学报综合高校的 67 0.684
社会科学类学报
自然科学 有机材料
38 0.902
医药科学 全国医药
35 0.856
农业科学
综合 26 0.564
从表2中我们可以看出,期刊文献的下载次数和被引次数是显著相关的。也就是说,下载次数多的期刊,被引次数也多。换言之,好的期刊,被下载的几率也高。这说明,网络用户在Web上对电子版期刊的利用规律,在一定程度上与传统的印刷型期刊是一致的,马太效应在网络环境下依旧存在。这初步证明了我们的第一个假设,即“期刊的Web下载总频次”能够反映该期刊对于该专业的贡献大小和在专业中的地位。
但是,我们同时也注意到,引用次数与下载次数之间的等级顺序还是有差别的,尤其是对某些学科来说,相关系数并不太高。为了更好地说明这个问题,我们以“图书情报类”期刊为例,引入“期刊影响因子”,再次进行相关分析。结果如表3所示。
表3 图书情报类期刊的“Web下载总频次”、“总被引频次”和“影响因子”的相关分析结果
总被引频次
影响因子
Web下载总频次 0.756
0.509
总被引频次1 0.884
从表3中可以看出,“期刊的Web下载总频次”与“期刊影响因子”之间,虽然仍有一定的相关性,但相关程度已经大为降低。这表明,网络环境下,期刊的等级次序发生了明显的变化,权威期刊的权威性打了折扣,而非权威期刊则借网络这一新的信息传播渠道,扩大了自己的影响力。为此,《报告》中引入了一个新的指标来反映这一现象,称之为“Web扩散系数”,其定义为“上网期刊在统计当年的总下载篇次除以该刊在同年的总被引频次”。这一指标反映了传统印刷型期刊上网以后其社会影响的扩大效应。在图书情报类期刊中,最典型的例子是《中国图书评论》,它在2003年的“总被引频次”只有19次,是同类期刊中最低的,而“Web下载总频次”却有7725次,“Web扩散系数”高达406.58,是同类期刊中最高的。
以上相关分析的结果表明,在网络环境下,用户对信息的利用规律虽然与传统环境下具有一定的一致性,但是,也存在着新的特点。就本研究中的学术期刊来说,“Web扩散系数”的存在说明“用户下载的文献并不一定是最终引用的文献”。从用户引用动机的角度来分析,其产生的原因可能有:文章质量较差,用户下载阅读后发觉没有利用价值;来源期刊档次不高,用户担心影响自己的文章质量,因此回避引用;用户将未引用的文献作为“导航信息”,目的是追寻出最终的引用文献;用户将未引用的文献作为“入门教材”,目的是钻研更为深入的文献资料等等,这些都属于信息用户行为研究的范畴,超出了本研究的范围。
在本研究中,我们所感兴趣的是这种新的信息利用方式是否仍然遵循布拉德福定律。下面,我们按照布拉德福定律应用的基本方法,对这一问题进行探讨。
2.3 区域分析
首先,我们采用《报告》E辑(农业科学类期刊,包括农业与基础科学、农林作物、畜牧渔业、兽医等26个类目)中全部368种期刊的“Web下载总频次”这一项指标的统计数据,按递减顺序进行等级排列,如表4所示。
由表4中数据可知,期刊总数量N=368,全部368种期刊的“Web下载累计频次”A=R(368)=2591958,我们分别取分区数m为3和8来计算布拉德福常数a[,m](m=3,8)。
当m=3时,按照布拉德福定律的区域分析法,令每个区期刊Web下载累积频次相等,其平均值为A/m=863986,按照这一平均值计算各区域中的期刊累计数N[,j](j=1,2,3),得到区域划分的结果如表5所示。
当m=8时,按照区域分析法,令每个区期刊Web下载累积频次相等,其平均值为A/m=323994.75,按照这一平均值计算各区域中的期刊累计数N[,j](j=1,2,…,8),得到区域划分的结果如表6所示。
从表5和表6的结果来看,当分区数m=3时,布拉德福常数范围为1.89~2.22,平均值为2.05;当分区数m=8时,布拉德福常数范围为1.21~1.86,平均值为1.37。总的来说,区域法分析的结果并不理想,尤其是最后一区的论文数目及布拉德福常数明显偏大。但我们仍然可以发现,数据具有一定的布拉德福分布特点。下面,我们采用更为直观的图像分析法来进行验证。
2.4 图像分析
我们仿照布拉德福的做法,以“期刊累计数n的自然对数Lnn”为横轴,以“下载次数的累计数R(n)”为纵轴,以表4中的数据(Lnn[,i],R(n[,i]))为坐标值作散点图,得到布拉德福曲线如图1所示。
图1 “期刊Web下载累计数”的布拉德福曲线图
将图1中的曲线与图2中的布拉德福分散曲线作比较,可以发现是十分相似性的,曲线的下弯部分(核心区)、直线部分以及弯曲下垂部分(格鲁斯下垂)都清晰可见。因此,可以初步认为数据确实是符合布拉德福分布的。下面,我们通过曲线拟合进行更加严谨的验证。
2.5 回归分析
我们以“期刊累计数n”为横轴,以“期刊Web下载累计数R(n)”为纵轴,以上页表4中的数据(n[,i],R(n[,i]))为坐标值作散点图,然后分别以线性回归模型曲线、对数回归模型曲线、乘幂回归模型曲线对此散点图作曲线拟合,结果如图2所示。
图2 “期刊Web下载累计数”的曲线拟合图
在图2中,黑线、白线、虚线分别是线性回归模型曲线、对数回归模型曲线、乘幂回归模型曲线,三条曲线的方程及确定系数R[2],如表7所示。
表7 三种回归模型曲线方程及确定系数R[2]
线性回归模型
对数回归模型
乘幂回归模型
y=a+bxy=a+blnxy=ax[b]
曲线方程
R(n)=6303.3n+608859R(n)=686057.4172
R(n)=58239n[0.6659]
Ln(n)-1602631.0983
确定系数R[2] 0.9331 0.9193 0.9844
从表7中我们可以看出,三种回归模型的确定系数都大于0.9,都有不错的拟合优度。但比较发现,对数模型的拟合优度最低,线性模型优度居中,乘幂模型优度最好。但这并不是标准的布拉德福曲线表达式。下面,我们将散点图曲线分段,分别进行回归分析,看结果是否符合布鲁克斯公式所描述的布拉德福曲线的数学表达式。
2.6 分段回归分析
1969年,英国著名的情报学家布鲁克斯首次根据布拉德福曲线给出了相应的数学表达式,它是一个以核心区拐点为分界的分段函数[3]。我们按照区域分析的结果,以核心区的期刊累计数n=52对应点作为散点图曲线的拐点,将上页表4中的数据点分为两部分,采取与上同样的方法分别进行曲线拟合,从而得到曲线方程的两段数学表达式。
核心区的散点图及曲线拟合结果如图3所示。
图3 核心区“期刊Web下载累计数”的曲线拟合图
核心区三种回归模型曲线方程及确定系数R[2]如表8所示。
表8 核心区三种回归模型曲线方程及确定系数R[2]
线性回归模型对数回归模型 乘幂回归模型
y=a+bx y=a+blnx
y=ax[b]
曲线方程R(n)=15955n+82018 R(n)=256649.1018
R(n)=35723n[0.8184]
Ln(n)-266913.7729
确定系数R[2] 0.9902 0.88720.9987
非核心区的散点图及曲线拟合结果如图4所示。
图4 非核心区“期刊Web下载累计数”的曲线拟合图
非核心区三种回归模型曲线方程及确定系数R[2]如表9所示。
表9 非核心区三种回归模型曲线方程及确定系数R[2]
线性回归模型对数回归模型乘幂回归模型
y=a+bx y=a+blnx y=ax[b]
曲线方程R(n)=5273.9n+870151 R(n)=956247.7382
R(n)=107392n[0.5499]
Ln(n)-3023912.2675
确定系数R[2] 0.9547
0.9970 0.9895
由上页表8可以看出,在核心区乘幂模型拟合优度最高,由表9可以看出,在非核心区对数回归模型拟合优度最高,而且两者都高于上页表7的拟合优度。因此取乘幂模型的曲线方程为核心区的回归曲线方程,取对数模型的曲线方程为非核心区的回归曲线方程,从而得到完整的“期刊Web下载累计数”的拟合曲线方程如式1所示。
比较标准的布鲁克斯公式[4] 和式1,可以看出两者在形式上是完全一致的。
以上区域分析、图像分析以及回归分析的结果都表明,“期刊Web下载总频次”分布具有明显的布拉德福分布特征,最后得到的分段曲线方程,在形式上更是典型的布鲁克斯公式。因此,我们可以得到以下结论:“期刊Web下载总频次”在期刊中的分布符合布拉德福分布规律。
2.7 比较分析
在传统文献计量研究当中,布拉德福定律的应用存在着某些局限性,其中的一个必要条件是:“论文的学科、专业领域或课题范围应当清楚地划定”[5]。那么,在网络环境下,这一条件是否还起约束作用呢?下面,我们再采用《报告》A辑(大学学报类期刊,包括各类学校主办的社会科学类、社会专业类、综合教育类、文理综合类、自然科学类、自科专业类、医药科学类、农业科学类等53个类目)中全部1183种期刊的“Web下载总频次”这一项指标的统计数据作回归分析,通过两种类型期刊的比较来对这一问题进行探讨。按照与上文同样的方法,得到大学学报类期刊“期刊Web下载累计数”的拟合曲线方程如式2所示。
大学学报类期刊与农业科学类期刊的回归模型确定系数R[2]如表10所示。
表10 两类期刊的回归模型确定系数R[2]
核心区的乘幂非核心区的对数
回归模型R[2] 回归模型R[2]
农业科学类期刊0.9987
0.9970
大学学报类期刊0.9973
0.9956
从表10可以看出,大学学报类期刊布鲁克斯公式的确定系数虽然也很高,但无论在核心区还是非核心区,都比农业科学类期刊要略低一点。我们认为,这种现象的出现不是偶然的,而是因为农业科学类期刊比大学学报类期刊的学科界限更加清晰,所以更加符合布拉德福定律。正如丁学东所言:“所统计的专业论文的‘纯度’是影响布拉德福定律有关数学表达式准确程度的一个重要因素。”[6]
3 研究结论
通过本次实证研究,我们得到了以下结论:
(1)“期刊Web下载总频次”与“载文量”、“被引数”等传统指标一样,可以反映该期刊对于该专业的贡献大小和在专业中的地位,但反映程度有所差别。
(2)“期刊Web下载总频次”在期刊中的分布具有明显的布拉德福分布特征。但与此同时,我们还注意到,式1的形式虽然与布鲁克斯公式一致,但几个主要的特征参数却具有明显的差异性。对应文献计量学中布鲁克斯公式的参数[7],式1中相应参数的取值为:
α=35723(R(1)=32632);β=0,8184,为小于1的常数;
K=956247,与N=2591958差别较大;
由Klns=3023912.2675,求得参数s=23.6241,是个大于1的常数。
显然,参数K、s的取值超出了传统观点对布鲁克斯公式的解释。也就是说,在网络环境下,这些特征参数具有与传统环境下不同的内涵。这表明,布拉德福定律在网络环境下表现出新的特点。
(3)在网络环境下,“论文的学科、专业领域或课题范围应当清楚地划定”仍然对应用布拉德福定律起到一定的约束作用,但并不十分明显。
最后值得一提的是,本次研究表明,网络作为当今最复杂的信息载体与流通渠道,其出现的时代虽然与布拉德福所处的时代有一定的距离,但一样受到布拉德福定律的支配,再次证明了布拉德福离散分布规律在各种社会现象中广泛存在。