国内人文社会科学文献老化规律对比研究——基于Web新形势下的研究,本文主要内容关键词为:社会科学论文,新形势下论文,文献论文,人文论文,规律论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2011-03-24
随着科学技术的进步,科学知识不断更新,记录科学知识的科技文献也随之发生新陈代谢,于是出现了文献老化现象。国内对文献老化的研究主要分为三个方面:一是文献老化理论研究;二是研究方法和定量描述方法的研究;三是文献老化的应用研究[1]。其中应用研究主要集中在三个部分:一是图书馆馆藏文献老化研究。例如,汪跃春[2]在通过实例统计得出馆藏图书随着图书年龄增长被读者使用的概率呈指数衰减的结论,并得出8个主要类别图书的指数方程。二是网络文献老化研究。颇具代表性的是马费成和夏永红[3]选取中文学术资源网、外文学术资源网、论坛网站、新闻网站和大型网站为研究对象揭示了一般意义上网络信息生命周期的基本规律和特性。三是学科文献的老化研究。在国外,C.V.Clark[4]进行了专利文献的老化研究;U.Gupta[5]依据15种物理学顶级期刊以引文共时法研究物理评论领域的老化规律,并发现物理评论的引文密度以4.9年的半衰期指数下降;V.Diodato[6]以音乐教育、音乐理论和音乐学的37种期刊的9,850条引文为样本,计算了中值引文年限(共时半衰期)和历时半衰期,比较分析音乐学科文献的老化规律;S.J.Cunningham[7]以共时法研究计算机系统管理技术方面的2种期刊,发现该领域具有相对高的老化率(4年的半衰期),类似于工程和偏技术的“硬”科学的老化速度;B.M.Gupta[8]研究了理论种群遗传学文献的增长和老化的有关问题;S.L.Sangam[9]以文献计量引文分析法对国外5种心理学期刊文献进行分析,揭示了心理学文献增长和老化的关系。在国内,冯茜和陈强[10]统计分析了生命科学的6个二级学科的文献使用情况、老化速度、中值引文年龄、普赖斯指数等量度指标;王春霞[11]以计算机技术学科具有代表性的10种期刊在2001年发表的全部论文为统计对象,对该学科文献老化量度指标进行统计分析;张艳芬[12]统计分析了2005年医学的16类期刊被引半衰期;陈立新和梁立明等[13]以科学引文索引(SCIE)为数据源,考察了力学专业领域文献老化速度在50年间的变化趋势;李霄[14]根据《武汉理工大学学报》1998-2007年十年间的论文引文数据,对材料科学文献引文的半衰期进行了分析研究。国内外学科文献的老化研究呈现以下特点:①国内基本都是自然科学的学科老化研究,有点单一;国外的学科老化研究多样化,如专利文献、音乐学科、计算机学科、理论种群遗传学、心理学等自然和人文社会科学学科。②国外的学科老化研究比国内要早很多,20世纪70年代就有专利文献的老化研究。③都是针对某一学科的研究,即使有学科上的对比研究也是同一门类的对比研究,笔者分析这种现象应该归因于大批量数据采集的不易性和数据处理的难度。④数据量偏小。⑤缺少较为系统全面的研究。基于国内外的研究状况以及研究的不足,本文拟以中文社会科学引文索引(CSSCI)2006-2008年三年间的来源文献的题录数据为研究对象,全面系统地考察法学、管理学、经济学、历史学、政治学、哲学、教育学这7大人文社会科学学科的引文峰值、半衰期、普赖斯指数、最大引文年限等度量指标值及其指标间的关系,检验7大学科的负指数老化规律,并进行7大学科之间的对比分析,剖析学科之间的差异。从人文社会科学整体的角度,揭示人文社会科学的总体老化规律。
1 数据来源与方法
本研究所用的数据源于中文社会科学引文索引(CSSCI)数据库,其数据源为国内较高学术水平的500多种专业期刊,覆盖了法学、管理学、经济学、历史学、政治学、哲学、教育学、军事学8大主要人文社会科学领域的论文。我们检索了CSSCI数据库,获得了2006-2008年间所有专业期刊的280,280篇文献的题录数据(除去环境科学与工程的3,187篇,环境科学与工程不属于人文社会科学的研究范畴),在统计中手工剔除了少量引文不规范、错误的数据以及超过统计年的一些数据(例如2006年可能会引用待发表的2007年文献),共得到2,217,047条引文数据。具体检索方法是:首先按照二级学科专业进行检索得到来源文献,CSSCI中的二级学科专业检索项是严格按照《全国招收研究生的学科、专业名称代码册》(以下简称《代码册》)的专业设置的。然后根据《代码册》的隶属关系,将二级学科专业来源文献归类于它所属的一级学科,再将一级学科归类于学科门类下,即得到我们要研究的8大人文社会科学学科门类。需要说明的是,在学科老化研究中我们排除了“军事学”,因为军事学的文献量太少,不具有统计分析意义。但在整个人文社会科学老化研究中,我们将军事学计算在内。研究方法拟采用引文分析法,主要是运用引文分析共时法、回归分析法、数学方法。研究工具主要是EXCEL2007、EXCEL2003和SPSS13.0软件。
1.1 文献老化指标
1944年,戈斯内尔在他的Obsolescence of Books in College Libraries(《大学图书馆图书老化》)论文中最早提出了“半衰期”的概念[15]。1958年,贝尔纳首先提出用“半衰期”来表征文献情报老化速度(历时半衰期)。20世纪60年代,美国的R.E.Burton和R.W.Kebler[16]对“半衰期”的概念进行了一系列研究,提议用“中值引文年限”来替换“半衰期”概念,是指某学科(专业)现时尚在利用的全部文献中较新的一半是在多长时间发表的(共时半衰期)。本文的半衰期(H)即为共时法计算出的半衰期。具体计算方法如下:
1971年普赖斯把出版年限小于5年的文献称为“现时有用”的文献,超过5年的称为“档案性”文献。提出把对出版年限不超过5年的被引文献数量同被引文献总量之比作为指标衡量文献老化快慢的指数,这一指数也被称为普赖斯指数(P)[17]。
另一老化指标是最大引文年限,是引文峰值出现的时间。对于数据统计年来说,在所有引文中哪一年出版的在该年被引用得最多,它距统计年的出版年限就是最大引文年限,从引文年代分布表我们可以获取引文量最多的年限。
1.2 文献老化模型
贝尔纳在1958年从共时的角度对文献的老化现象进行研究,提出了负指数老化模型,该模型一般采用如下函数形式:
其中,C(t)表示t年前所发表的文献的被引用频次;K为常数,其值随不同学科而异;e为自然对数的底;t为文献的出版年龄;a为文献的老化率。如果以文献的出版年龄为横轴,目前正在使用的文献数量为纵轴,可描绘出一条负指数曲线,称为文献的老化曲线。该曲线能直观地表达文献的老化过程,即从宏观上来说,负指数老化模型可以描述文献老化的规律,直观反映文献利用量的衰减现象。
2 各学科老化规律研究
对于学科专业设置,国内通行的做法是划分为12个学科门类。其中属于人文社会科学的是:哲学、经济学、法学、教育学、文学、历史学、军事学、管理学8大学科门类。军事学因其特殊的学科性质,CSSCI中可公开获取的文献很少,在进行人文社会学科各学科的老化规律研究时将其排除在外。
2.1 各学科引文年代分布分析
分别统计各学科来源文献的引文,在统计中剔除少量超过统计年的一些数据(例如2006年发表的论文有可能引用了2007年待发,甚至2008年待发的论文),分别得到引文数如下:哲学2006年35,746篇、2007年36,800篇;经济学2006年132,051篇、2007年154,719篇;法学2006年121,151篇、2007年124,960篇;教育学2006年56,447篇、2007年62,861篇;文学2006年97,570篇、2007年110,117篇;历史学2006年75,996篇、2007年69,557篇;管理学2006年76,068篇、2007年107,428篇。再按其出版年代进行统计,建立各学科引文年代分布表。
根据引文年代分布表的数据,制成各学科引文量关于引文年龄的折线图(图1、图2)。图中的引文年龄是指被引文献的出版年代与其被引用年代的时间差值,选取的时间段是100年。曲线顶点上的数值为最大引文年限所对应的最大引文量。经过对比分析,除历史学外,其他6大学科的2007年引文峰值大于2006年。历史学在2006年引文峰值为3,031;2007年为2,413。
图1 2006年CSSCI各学科引文时间分布
图2 2007年CSSCI各学科引文时间分布
从图1、图2看出,这7个学科的引文年代分布图均呈现负指数曲线的形式。普赖斯等人曾利用引文分析探讨文献的老化规律,论证了一个学科的引文年代分布曲线与其老化曲线极为相似,有力地说明文献引文分布反映了文献老化的规律性。我们的数据以及绘制的曲线图跟普赖斯的研究基本吻合。将不同学科的引文年代分布数据绘制在同一图中可以直观地比较出不同学科的最大引文年限以及达到该年限的引文峰值。如图2显示,法学首先达到引文峰值,历史学最后达到引文峰值,用了5年的时间。而且各学科的引文峰值也不同,经济学的19,414稳居第一,管理学的13,387居于第二。而管理学在2006年的引文峰值排第三,排在第二位的是法学。2006年和2007年各学科的引文峰值及其变动见表1。2007年管理学的引文峰值反超法学,说明该年管理学的引文强度比法学更大,文献之间的联系也比法学更加紧密。引文峰值增长最快的是管理学,年增长31.55%,经济学次之,为12.23%,历史学出现负增长。引文峰值的增长体现了各学科引文强度的变化以及文献前后联系紧密性的变化。
2.2 各学科老化指标分析
遵循上文文献老化指标的算法,我们计算出7大学科的引用半衰期、普赖斯指数和最大引文年限等老化指标(见表2)。
2.2.1 各学科间的纵向时间分析
首先进行各学科2006年和2007年在时间上的纵向比较。观察R1的数值均大于0,表示2007年各学科的半衰期均比2006年的长;R2的数值几乎均小于0,表示2007年普赖斯指数均小于2006年;观察R3,2007年最大引文年限均不小于2006年的最大引文年限。数值的变化基本符合文献的老化规律。随着时间的推移,原来不成熟的理论被比较成熟的理论所代替,不完善的方法被比较完善的方法所补充,错误片面的数据被比较客观的事实所校正,旧的文献必然逐渐失效。科学文献老化研究,实质上是对科学知识修正速度的探索,文献老化指标是科学知识修正速率的反映。随着学科研究的深入,学科发展进入相对成熟时期,科学知识修正速率会变小,文献的半衰期会延长,普赖斯指数值变小,最大引文年限开始延长。表2的数值真实地反映了各学科文献随时间变化的老化规律。从R1、R2、R3的数值大小看,R1、R2、R3都很小,也就是说,2007年与2006年各学科半衰期、普赖斯指数、最大引文年限变化都不大,这也说明各学科文献的科学价值达到了一定深度,文献的利用寿命较为稳定。
2.2.2 各学科间的横向对比分析
7大学科半衰期的计算结果显示,2006年半衰期居于前3位的分别是历史学17.47年、哲学11.6年、文学9.08年。经济学、法学、教育学、管理学的半衰期则在6年左右。我们发现,排名前3的学科有一个共性,它们都属于人文学科的范畴。人文学科是研究人类的信仰、情感、道德和美感等各门学科的总称,包含语言学、文学、历史学、哲学、考古学、艺术;狭义的社会科学是科学化地研究人类社会现象的科学,包括政治学、经济学、社会学、法学、军事学[18-20]。我们所研究的CSSCI的7大学科中可以划为两大类:哲学、文学、历史学属于人文科学的范畴;经济学、法学、教育学、管理学属于社会科学的范畴。以此看来,人文科学的半衰期明显比社会科学的半衰期要长很多,其中历史学的半衰期甚至是社会科学的3倍,说明人文科学的信息老化速度比社会科学要慢得多。人文科学各学科的半衰期差别较大;社会科学4大学科的半衰期普遍集中在6年左右。与我们的研究相比,V.Diodato[6]于1993年计算出国外音乐学半衰期为7年,音乐学属于艺术学一级学科,归于文学门类下,到2006年,国外音乐学的半衰期也应该在10年左右(7+(2006-1993)*0.31=11,0.31为目前国内文学年增加量,由R1得到)。在自然科学方面,S.J.Cunningham[7]于1995年统计出计算机技术文献老化的半衰期为4年;王春霞[11]统计出2001年国内计算机文献老化的半衰期为5.5年,若将统计年的差异计算在内,则国内与国外在计算机方面的半衰期相差不大;而陈立新[13]统计出力学文献2003年的半衰期为10年;U.Gupta[5]于1990年计算出物理领域文献的半衰期为4.9年,工学等应用学科的文献老化速度明显比理科要快。
由表2可知各学科两年间的普赖斯指数值。出版年数小于5年的文献称为“现实有用”文献,出版年数超过5年的称为“档案性”文献,且2%-39%为档案性文献区间,75%-80%为有现时作用的文献区间,从普赖斯指数值的大小可知各学科对档案性文献的依赖强度[21]。对档案性文献依赖最强的是历史学,其次是哲学,依赖性最弱的是管理学和经济学。事实上,在这个主流和非主流经济流派百家争鸣、管理思想层出不穷的经济腾飞年代,管理学和经济学文献知识以难以想象的速度更新换代也是理所当然的事情。
观察CSSCI各学科在2006年和2007年最大引文年限发现,除了法学在这2年间的最大引文年限是2年外,其他各学科均大于2年,也就是说各学科的文献需要更长的时间才能达到被引用的峰值。这跟普赖斯于1965年提出“最大引文年限”,并指出“当年发表的文章被引用的峰值是该文章发表后的第2年”这一观点是有出入的。陈立新[13]以SCIE为数据源计算2003年力学最大引文年限为4年;王春霞[11]计算2001年国内、国外计算机领域的最大引文年限分别为2年、3年。前苏联学者柯果塔特夫也提出,文献被引证的峰值大约在其发表后的2-4年。在不同时期、不同学术环境条件下,各学科文献的“最大引文年限”是不同的,我们应该用发展的眼光来对待普赖斯的结论。
2.2.3 各学科老化指标间的关系分析
文献半衰期与普赖斯指数虽然是两个不同的概念,但是二者之间存在一定的关系[22-25]。陈立新和刘则渊[26]对SCIE收录的力学专业期刊文献研究发现,引文半衰期和普赖斯指数成反比关系,引文半衰期与普赖斯指数之间存在着简单的数量关系:P(N)*H=C,P(N)为普赖斯指数,H为引文半衰期,N为计算普赖斯指数的引文年限,传统经典的计算普赖斯指数N=5。他们分别取N=1-8,计算了1951-2003年间普赖斯指数值和引文半衰期,并根据二者之间的数量关系建立了8个回归拟合方程。针对经典普赖斯指数N=5的回归拟合时建立了回归方程P(5)*H=2.5,R^2值为0.967接近于1,拟合残差也很小,拟合优度非常理想,方程高度显著有效。根据表2中06C与07C指标值,可以大体计算出7大学科的普赖斯指数与引文半衰期函数关系的回归拟合方程:哲学为P(5)*H=2.6;经济学为P(5)*H=2.6;法学为P(5)*H=2.6;教育学为P(5)*H=2.5;文学为P(5)*H=2.7;历史学为P(5)*H=2.6;哲学为P(5)*H=2.5。另外可以推测整个人文社会科学的普赖斯指数与引文半衰期的关系方程为P(5)* H=2.6。由此推断,不仅力学等自然科学学科的普赖斯指数和半衰期之间存在着简单的函数关系,社会科学的各个学科的普赖斯指数和半衰期之间也存在着函数关系,即普赖斯指数P*半衰期H=常数C,而且这个常数值C应该根据学科的不同大体在2.6左右波动。
2.3 各学科老化模型分析
笔者根据各学科引文年代分布数据,对负指数老化模型进行检验,得到7大学科2006年和2007年的拟合公式及各个统计检验指标,如表3所示。
从表3看出,这14条曲线的R square值大部分都在0.9左右,P-值都小于0.05,可见拟合优度非常理想,方程显著有效,即引文时间分布曲线符合负指数分布。值得注意的是历史学,虽然P-值小于0.05,但是2006年R square为0.742,2007年R square为0.684(一般认为R square在0.8左右回归拟合结果比较理想),可见历史学进行负指数模型检验的回归结果不够理想,根据历史学引文年代分布数据构建的负指数老化函数关系也不显著有效。因此,用负指数函数来描述历史学的文献老化规律并不显著。经过对比分析历史学的引文年代分布数据,我们发现历史学的引文年代相比其他学科可以追溯得更为久远,许多几百年前的文献都尚在利用,依然具有参考研究的价值,而且目前阶段的人文社会科学学科中历史学的半衰期也是最长的,达18年之久,是其他社会科学学科的3倍左右。这跟历史学特殊的学科属性有关系。20世纪80年代末,何兆武先生提出了著名的“历史研究中的假问题”命题,认为“历史学界应该对过去一切似是而非的假问题进行重新批判并作出一番澄清”[27-28]。因此,一旦某个重大历史问题出现,该段时间的文献就会出现被引的聚集,这样就导致引文的不稳定和不平衡;再者,不同于其他科学,历史学是对过去历史问题的研究,往往是越久远的历史问题以及文献就越有参考和研究价值。这样的学科性质决定了历史学的研究必然会出现引文的波动性和反复性。从2006年和2007年的引文数据统计来看,这2年数据的统计结果都表明历史学并不明显按照负指数老化规律演进,这跟历史学的学科属性有很大关系。
3 人文社会科学总体老化规律研究
人文社会科学总体老化研究是以CSSCI 2006-2008年收录的包含军事学在内的几乎所有学科(除去二级学科“环境科学与工程”)的数据为样本。据统计,共获取来源文献280,280篇,对其进行处理得到引文总量2,217,047条。
3.1 引文总体年代分布分析
统计CSSCI的2,217,047条引文数据,分别是2006年595,359条、2007年666,875条、2008年954,813条,分别建立这3年的引文年代分布表。
根据引文年代分布表的数据,制成引文量关于引文年龄的折线图(见图3)。图3中的引文年龄是指被引文献的出版年代与其被引用年代的时间差值,选取的时间段是100年。曲线的顶点显示了各年的引文峰值:2006年5,7514次;2007年6,3403次;2008年89,589次。经统计,2007年的引文峰值年增长10.24%,2008年为41.30%;而2007年的引文总量增长为12.24%,2008年为43.18%。这两年引文峰值的增长都没有超过引文总量的增长,但是引文峰值的增长跟引文总量的增长成正比。另外可以看到,相对于2007年,2008年的引文峰值和引文量都出现了爆发式增长。从2007年的年增长10%左右陡增至40%多。据统计,相对于2007年,2008年的来源文献并没有出现爆发式增长。在来源文献稳定增长而引文峰值和引文量出现了加速增长的现象表明2008年的引文强度比2007年更大,更加依赖于过去的文献,而且文献之间的联系也比2007年更加紧密。
图3 2006-2008年人文社会科学引文时间分布
3.2 总体老化指标与方程模型
表4是根据引文年代分布表的数据和前文中半衰期、普赖斯指数、最大引文年限的计算方法得出的,它从整个人文社会科学的角度来呈现文献的老化过程。相对于前文各学科的老化指标,整个人文社会科学的半衰期、普赖斯指数、最大引文年限以及C等指标值更加稳定。半衰期年增长量仅为0.1,普赖斯指数的年减少量仅为0.005左右,最大引文年限更是稳定在3年。根据这3年半衰期的增长,我们可以推断,2009年人文社会科学的半衰期为7.44年左右,2010年半衰期为7.54年左右;近几年人文社会科学的最大引文年限会稳定在3年。根据2006年与2007年CSSCI各学科老化指标值及其比较(表2),各学科这两年的指标变化均值(R1的均值)0.38跟人文社会科学整体变化值0.1相差已接近4倍,各学科中只有法学的变动接近人文社会科学的变动;各学科半衰期的变化均值(R2的均值)0.01579也是人文社会科学整体变化值0.005的3倍多;各学科的最大引文年限变化均值(R3的均值)为0.57,人文社会科学3年间则无变化。
人文社会科学的半衰期(H)与普赖斯指数(P)之间的数量关系2006年为H*P=2.66;2007年为H*P=2.65;2008年为H*P=2.65。常数值基本稳定在2.65左右。因此,我们认为人文社会科学的半衰期和普赖斯指数之间存在函数关系:半衰期*普赖斯指数=2.65。这与我们在学科老化指标关系分析中,根据7大学科指标数量关系预测的人文社会科学指标关系基本吻合(当时预测的C值为2.6)。
笔者根据引文年代分布数据对负指数模型进行检验,得到人文社会科学2006年、2007年、2008年的拟合公式及各统计检验指标如表5所示。可以看出,这3条曲线的R square值在0.87左右,P-值都小于0.05,可见拟合优度较为理想,方程显著有效。人文社会科学的引文时间分布曲线符合负指数分布。
4 结论
通过中文社会科学引文索引(CSSCI)2006-2008年三年间的2,217,047条引文数据的统计分析,对7大人文社会科学各学科间作横向对比和纵向时间对比,以及从人文社会科学整体的角度所进行的纵向对比分析,我们发现:
(1)人文学科的半衰期比社会学科的半衰期长,文献老化明显慢很多。人文科学各学科的半衰期参差不齐;经济学、管理学、教育学、法学4大社会科学学科近年来的半衰期普遍在6年左右;历史学和哲学对档案性文献的依赖性最强,经济学和管理学的依赖强度很弱。
(2)历史学并不严格按照负指数老化规律演进。历史学是7个学科中半衰期最长的,是社会学科的近3倍。历史学研究具有特殊的学科属性:一方面,很多年前的文献现在依然具有很强的参考价值;另一方面,对过去某些问题的研究容易引起某类或者某段时间文献的聚集。这些原因导致历史学的引文年代分布出现较强的动态波动性,半衰期延长,并打破了文献的负指数老化演化规律。
(3)不仅是力学等自然科学学科的普赖斯指数和半衰期之间存在着简单的函数关系,人文社会科学的各个学科也存在着这样的函数关系,即普赖斯指数P *半衰期H=常数C,这个常数值C应该根据学科的不同在2.6左右波动。
(4)目前,人文社会科学的半衰期变化很缓慢,基本是按照0.1年左右的速度推进,相对于各学科的时间纵向比较,人文社会科学的老化度量指标值更加稳定。P * H=常数C,其中C可以精确到2.65左右。目前阶段的人文社会科学半衰期在7.24年左右,最大引文年限是3年。其中最大引文年限跟普赖斯1965年提出的“当年发表的文章被引用的峰值是该文章发表后的第2年”这一观点是有出入的。
目前网络成为了信息资源获取和利用的主要方式之一,学术环境也已发生了很大变化,可以认为人文社会科学的文献在发表后的第3年会达到被引的峰值。建议调整人文社会科学“期刊影响因子”的测度方法,以3年作为测度年限。图书馆和其他文献信息机构在剔除老化文献、优化馆藏、提高文献的最大利用效率等工作时,也应该根据本机构的实际情况适当考虑3年的最大引文年限。
标签:文献分析法论文; 中文社会科学引文索引论文; 文献论文; 哲学专业论文; 时间计算论文; 经济学论文; 历史学论文;