基于海量数据库的文献计量学研究新特点,本文主要内容关键词为:计量学论文,海量论文,文献论文,数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G350 [文献标识码]A [文章编号]1003-2797(2004)06-0026-06
Web信息资源极其丰富,是名副其实的信息海洋。面对茫茫大海般的网络信息资源,传统的信息查询、信息组织、信息分析和文献计量研究已经改变了其研究方式。基于网络环境下的海量数据库,使文献计量学的研究特点、研究方式、研究理论都有了巨大的变化。
1 海量数据库的特点及其在文献计量学发展中的应用
(1)数据的易取性。以往的文献计量学研究工作,是建立在手工检索、手工统计的基础上,工作量巨大;有了网络数据库,检索变得易取易得,统计处理简便易行,大大减少了工作量。
(2)数据的准确性。以往的文献计量学工作,由于手工统计量大,需要多人共同协作,故出现错误难免。而使用网络数据库进行数据获取检索,不仅可以异地获取,并且操作简单,剔重率高而漏检率低,保障了数据的准确性。
(3)数据的全面性。网络数据库收录文献量大,涉及文献的学科和领域广,对于文献计量学研究的各类指标都可以全面获得;同时网络数据库时间跨度大,特别是在应用文献计量学做预测分析、发展分析时,只有完整的数据才能保障研究的科学性。
(4)数据的交叉性。以往的文献计量学研究中,如果要研究某一学科领域的发展趋势,一般选择该学科领域的重要期刊(核心期刊)来进行统计分析,这样不免使文献计量研究局限在一个狭小的领域内,特别是在考察学科进展这样重大的研究课题时,极有可能遗漏发表在边缘期刊上的带有新兴学科萌芽的重要文献。而海量数据库则可以尽可能地避免这一问题。
(5)数据的即时性。网络时代的文献计量学,将大大减小出版时滞的影响,许多的科学进展状况可以及时得到。不仅能用数据进行以往科学工作的总结,而且能进行前瞻性分析。特别是许多引文数据库,如ISI的基础科学数据库,已经开发了有关学科评价的数据分析工作。每日更新的数据,保证了科学进展分析的即时性。
(6)分析的完备性。由于网络数据库的全面、即时和广泛性,促使相应的分析软件工具也高速发展,许多新型的网上分析软件应运而生,使得文献计量分析也有了新的进展。
2 文献计量学研究对网络数据库的利用与完善
2.1 利用
集大量优势于一体的网络数据库,使得文献计量学能够大量充分利用网络数据库进行各种统计工作。在文献数据库中,大部分都提供了题名、作者、机构、刊名、关键词和文摘等信息,有的数据库还提供引文数据(参考文献数据),如美国数学学会出版的MathSci[1],近两年对其收录的许多重要文献的文摘之后也附上了“References”。从文献计量学的研究角度看,可以在以下几个方面有效地利用Web数据库:一是检索某一研究方向、某一机构、某一地区文献的期刊分布和各种期刊的载文率与引文率;二是根据文献标示出的作者信息,如作者机构、作者性别、学历、职称以及作者研究方向等基本信息,对某学科方向、某机构、某区域进行作者群研究;三是根据文献量对某个研究机构、某国家、某地区的科研能力和科研方向进行研究;四是综合利用数据库提供的数据和组合检索的功能进行学科交叉分布、合作研究分布等各类文献计量学研究。
网上可供利用的数据库很多,虽然大部分数据库只免费提供文献的题录部分,但这对于文献计量学的贡献已经很大了。当然,在进行文献计量学研究的过程中,如果能综合利用多个数据库,取长补短,无疑会增加统计数据的完整性和准确性,
2.2 完善
网络数据库对文献计量学的作用虽然很大,但仍然需要进一步完善。像在文献计量学研究中,文章被引用情况的研究是一个很重要的方面,所以引文数据库的建设也应该同题录数据库和全文数据库一样受到重视。目前,可以用于被引文献统计的网络数据库主要有美国科学情报研究所出版的ISI Web of Knowledge系列引文数据库,中国可供网上查阅的则有中国万方数据库中的《论文引文数据库》、《中国科学引文数据库》以及重庆维普中文数据库中的《科技引文数据库》。但是,这些引文数据库信息量不全,还需要进一步补充。
3 引用分析范畴的扩大
随着网络信息的扩散,原属文献计量学精华部分的引文分析的研究范畴不断扩大。从单纯的对文本式文献进行引用文献、引用作者、引用机构的分析,扩大到对电子文献、网址等新型文献进行引用分析。表1采用CNKI期刊数据库对近年来我国期刊发表论文引用的不同电子文献给出初步统计,从中可以看出对电子文献的引用增长速度极快。
表1 各类电子文献的引用
引用量1998 19992000 2001 2002
2003(10)
来源文献量670703
823109 985159
1032097
1158483738747
引用http条数 480 22576180 11865 21157 18715
引用E-mail条数26
2755
44 36
引用数据库(DB)条数 0110 1020 2780 6121
6848
引用程序(CP)条数019 39
114
14892
合计 482 23927266 14814 27470 25691
4 交叉学科分析
海量数据库和网络的先进性,使得文献计量学能够科学地表现学科间的交叉、合作关系及新兴学科的发展趋势。
目前国内的4个著名引文数据库,基本上都是单学科数据库,如中国科学院的引文数据库和中国科技信息研究所的科技论文与统计数据库,收录以科技类期刊为主;而南京大学和中国社会科学院的数据库收录的则是社会科学与人文科学期刊。用这些数据库去做交叉学科分析,不能完整地表现文理交叉、多学科交叉的状况。采用美国科学信息研究所的JCR数据库[2],从中选出9个大类,计算出它们相互引用的数据,并绘出9个大类的交叉引用图,如下图所示。除B类为综合性外,其余均为单学科,分别是:A—文学、历史;B—综合;C—政治、法律;D—教育;E—农业;F—医药;G—数学、物理;H—化学;I—工程技术。
九大类互引示意图
上图来源于近100万数据的9个学科的交叉。可以看出,学科自被引显然最多(中间的山峰是自交叉,即学科内的交叉或者说自被引),反映了学科发展依然是以本学科为重心,表现出学科内引用的集中效应。各学科之间交叉互引现象十分明显,特别是综合学科与其他学科的互引并不亚于自被引;它与其他8个学科的交叉显然高于其他学科间的交叉;当进行影响因子或被引频次排序时,将这些综合性期刊放入任一个单学科时,都会使它的实际效果大大减弱,它们的位次会有很大的变化。特别是在单纯的自然科学或单纯的社会科学引文数据库中,所反映的这些综合性期刊的影响因子或被引频次将失去真实性。因此,只有超海量的综合性数据库,才能完美地表现文献计量的实际意义。
5 综合评价优于单项评价
基于海量数据库的文献计量学综合评价,主要是指用于进行文献计量学的文献源数据库是一个综合性的数据库,可以进行综合的数据分析。只有在海量数据库的基础上,才能完整地运用文献计量学的方法去进行学科发展评价、国家科学能力、机构水,平评价等研究。如同交叉学科评价一样,用文献计,量学进行综合评价,显然优于单项评价。
由于不同来源的学术信息资源的整合为文献计量学的研究提供了一个统一、开放而强大的平台,实现了不同时间、不同类型、不同来源信息资源之间的整合与沟通,最大限度地保持了学科体系的完整性,提供了科学研究的全方位信息,从而构成了一个全新的以综合体系为基础的既集中又开放的研究体系。建立综合数据库,有利于打破学科壁垒,揭示各种不同学科、不同研究领域的交叉与互动关系;建立多学科的综合评价数据库,还可以大大扩展和加深单个信息资源所能提供的学术研究信息。因此,综合评价将文献计量学研究从单一的学科体系转变为整合统一的数字化研究环境。
6 著名文献计量学工具——ISI的巨变
作为文献计量学发展的丰碑——美国ISI公司出版的一系列引文索引,随着网络的发展产生了一系列巨变,1958年创刊的SCI,经过了1989年CD—ROM platform时代、1992年ISI-Thomson Scientific时代、1997年的ISI Web of Science时代,逐步发展到了2001年拥有强大功能的ISI Web of Knowledge的时代[3]。特别是ISI于2001年推出的ISI Essential Science Indicators(基本科学指标数据库,以下简称ESI),更是将这种以引文检索机制为基础的综合评价、综合研究与分析的趋势推向极致。该库收集和分析Science Citation Index Ex panded[TM]、Social Science Citation Index[(R)]中所收录的10年来高质量学术刊物中出版的研究文献及其参考文献(引文),运用引文分析等科学计量学、文献计量学的研究方法和工具,按22个大类,提供相关的数据,分别对科学家、大学、企业及政府研究机构、国家、期刊、高引用率论文、引文分析基线、研究前沿、科学观察等进行统计分析和排序,主要指标包括:论文数、引文数、篇均被引频次。它可以协助科研人员及决策机构从该数据库中了解在一定排名范围内的科学家、研究机构(大学)、国家(城市)和学术期刊在某一学科领域的发展和影响力,确定关键的科学发现,评估研究绩效,制订科技政策,掌握科学发展的趋势和动向。通过ESI可以系统地、有针对性地分析国际学术文献,为科学研究者提供了一种动态的、综合的、基于网络的研究分析环境和一种崭新的综合评价方法。
6.1 基于所有专业领域层面上的排序分析
截至2003年8月,ESI共收录11569种期刊,分为22个大类,在引文分析基础上,对1993~2003年8月间给出了分别以被引频次、收录论文量和平均每篇论文被引量进行排名的前20名的国家[4],如表2所示。
表2 按披引频次排序
序 国家
被引频次 论文量平均每篇论
文被引量
1 USA 330897562705352 12.23
2 ENGLAND 6212840 598470 10.38
3 GERMANY 5857244 655586 8.93
4 JAPAN
5098499 713542 7.15
5 FRANCE 4213581 484291 8.7
5 CANADA 3549116 358007 9.91
7 ITALY
2569970 310557 8.28
8 NETHERLANDS 2135032 194710 10.97
9 SWITZERLAND 1769220 137661 12.85
10 AUSTRALIA
1736998 211549 8.21
11 SWEDEN 1600307 152632 10.48
12 SPAIN
1419447 209762 6.77
13 SCOTLAND967215
93327
10.36
14 BELGIUM 935873
99226
9.43
15 RUSSIA 848345
285856 2.97
16 ISRAEL 835818
95942
8.71
17 DENMARK 827292
76889
10.76
18 FINLAND 700902
71328
9.83
19 PEOPLES R.CHINA658355
236996 2.78
20 AUSTRIA 574298
68610
8.37
如果按被引频次排序,中国仅排列在第19位;按收录论文量,中国排在第9位;而按平均每篇论文被引量排序的前20个国家中,中国则榜上无名,荷兰平均每篇论文被引量是9.06,而中国的平均每篇论文被引量仅是2.78。需要强调的是,ESI采取的是综合评价方法,这里的国家间的论文比较,是以ESI的22个学科为基础的,也即ESI的这种排序并不是原来分别以Science Citation Index Expanded[TM]和Social Science Citation Index[(R)]为来源所作的单独的自然科学或社会科学的排序,而是二者的综合排序。
ESI把不同国家的基础研究的所有专业领域研究成果放在同一个层面上进行分析、比较、排序,客观地反映各个国家研究的特点、研究的前沿,完全打破了以往的单纯对某个国家在科学技术领域或在社会科学领域的发表论文的引用、被引用等进行排序和分析,打破了“文”、“理”的壁垒,是比较科学合理的。从这个意义上分析,说明中国的论文生产量已经有了长足的进步,但中国在世界科学界的影响力还比较弱。
6.2 时间长度对影响因子指标的影响
综合评价的第二个亮点是时间长度的增加,可以更科学地反映期刊的影响力,继而推广到学科间、国家间、机构间的影响力。仍以ESI所给的例子来说明。表3给出了3个不同时间段里数学领域期刊影响因子的前10名排序[5]。
表3 数字期刊的影响因子排序
┌─┬────────────┬────────────┬─────────────┐
│序│2000 Impact Factor │Impact 1996-2000│Impact 1981-2000 │
├─┼────────────┼────────────┼─────────────┤
│ │Bull.Amer.Math.Soc. │Acta Mathematica│Annals of Mathematics │
│1 │││ │
│ │
(2.75) │ (3.78) │ (19.10)│
├─┼────────────┼────────────┼─────────────┤
│ │Acta Mathematica│J.Amer.Math.Soc.│Comm.Pure Appl.Math.
│
│2 │││ │
│ │(1.94)│(3.70)│ (17.21)
│
├─┼────────────┼────────────┼─────────────┤
│ │J.Amer.Math.Soc.│Bull.Amer.Math.Soc. │Acta Mathematica │
│3 │││ │
│ │ (1.68) │ (3.44)
│ (15.96)
│
├─┼────────────┼────────────┼─────────────┤
│4 │Comm.Pure Appl.Math. │Comm.Pure Appl.Math. │J.Different.Geometry│
│ │ (1.67)
│
(3.24) │(13.59) │
├─┼────────────┼────────────┼─────────────┤
│ │Inventiones Mathemat. │Annals of Mathematics
│Inventiones Mathemat.│
│5 │││ │
│ │(1.61)│ (3.12)
│ (13.42)│
├─┼────────────┼────────────┼─────────────┤
│ │Annals of Mathematics
│Inventiones Mathemat. │Bull.Amer.Math.Soc.
│
│6 │││ │
│ │
(1.54) │ (3.08)
│ (11.98)│
├─┼────────────┼────────────┼─────────────┤
│7 │Advances in Mathematics │J.Different.Geometry │Ann.Sci.Ecole Norm.│
│ │ (1.12)
│ (2.76)
│ (9.74) │
├─┼────────────┼────────────┼─────────────┤
│ │Mem.Amer.Math.Soc. │Duke Mathematical J.
│Advances in Mathematics
│
│8 │││ │
│ │(1.10)│ (2.19)
│
(8.87)
│
├─┼────────────┼────────────┼─────────────┤
│9 ││Geomet.Funct.Analys. │Proc.London Math.Soc. │
│ │Commun.Contemp.Math. ││ │
│ │ (1.05) │ (2.12) │
(7.71)
│
├─┼────────────┼────────────┼─────────────┤
│10│Geomet.Funct.Analys. │Advances in Mathematics │Journal of Classification │
│ │(1.03)│
(2.00) │ (7.51)│
└─┴────────────┴────────────┴─────────────┘
(1)其中2000年影响因子是目前流行(或说是常规)的影响因子,即2000年影响因子=(该期刊前2年(1998~1999)的载文量在2000年被引频次/该期刊前5年的载文量)
(2)而1996~2000年影响是新定义的5年影响因子:1996~2000年影响因子=(该期刊前5年(1995~1999)的载文量在2000年被引频次/该期刊前5年的载文量)
(3)1981~2000年影响是新定义的20年影响因子:1981~2000年影响因子=(该期刊前20年(1980~1999)的载文量在2000年被引频次/该期刊前20年的载文量)
公式(1)是一个短期的影响因子,而公式(2)和(3)表现的则是期刊的长期影响因子。注意该表中的期刊Annals of Mathematics,世界数学界的专家们公认它是数学研究的“顶尖期刊”。中国数学界流传着这样一句不成文的说法:如果一个中国数学工作者在这个期刊上发表2篇学术论文,它就具有了当选中国科学院院士的资格,可见其在数学家眼中的地位。这也是20多位院士在《正确评价基础研究成果》一文中指出的:“在世界范围内近代科学经过百余年的发展,每一个学科都形成了一系列质量由低到高、水平各不相同的专业刊物。由于审稿严格程度不同,一般而言,所刊登论文水平也各不相同。因此评价一篇论文或著作的水平首先要看所发表刊物(或著作的出版者)的水平,不能简单以‘国外发表’来概括所有在国外刊物发表的论文或国外出版的著作。”Annals of Mathematics正是这样的期刊,获得数学Fields奖和Wolf奖得主的优秀数学论文很多都发表在该期刊上,特别是近年来数学研究有重大突破的费尔马大定理的证明的论文就发表在其上(1995年第142卷)。但这个可以说是数学界公认的“1号期刊”,其影响因子在JCR中从未排过第 1,1997~2002年该刊的影响因子在数学类期刊中的排序分别是:4,6,9,16,13,7。
表3显示,Annals of Mathematics在2000年的影响因子排位是第6,在5年影响因子的排序是第5,而在20年的影响因子排位则是第1。从这个例子可以看出,对有些期刊而言,只有在长年度状况下才能使之获得正确评价。那么这就引发一个问题:对于数学期刊,它们的引文峰值是否都是“前2年”?我们取2002年JCR中学科主题为mathematics的170种数学期刊作为样本,部分期刊各年被引分布如表4所示。
表4 20种数学期刊的引文频次分布
期刊总频次 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 其余 其余% 93_02 93_02%
LECT NOTES MATH 67479
29
83
117 112 111 157
89144 176 5720
84.78 1027
15.22
TAM MATH SOC609335 146 196 151 154 182 170
172
187 163 4537
74.46 1556
25.54
J MATH ANAL APPL502230 121 343 331 344 378 274
249
214 189 2549
50.76 2473
49.24
ANN MATH491527 64
117 142 116 108 84164
91
75
3927
79.90 98820.10
P AM MATH SOC
455146 149 225 245 204 243 196
203
179 182 2680
58.89 1871
41.11
INVENT MATH 415717 93
143 180 147 162 163
139
156 156 2801
57.38 1356
32.62
J ALGEBRA
372624 179 275 319 257 253 218211 181 129 1680
46.09 2046
54.91
COMMUN PUR APPL MATH361515 64
118 107 106 86
11490
123 97
2695
74.55 92025.45
MATH ANN333214 60
106 94
118 918787
89
88
2498
74.97 83425.03
J FUNCT ANAL315519 106 174 163 212 199
141
194 168 95
1684
53.38 1471
46.62
J DIFFER EQUATIONS 314922 117 171 233 222 178
191
215 168 113 1519
48.24 1630
51.76
DUKE MATH J 260428 81
98
147 110 98151
130 117 138 1506
57.83 1098
42.17
DISCRETE MATH
260340 112 173 193 201 161
177
114 133 114 1185
45.52 1418
54.48
CR ACAD SCI I-MATH 2382 6 79
219 270 219 195
156
168 102 123 84535.47 1537
64.53
NONLINEAR ANAL-THEOR236429 177 167 147 209 314
145
108 135 90
84335.66 1521
64.34
J REINE ANGEW MATH 233819 76
74
109 99
9879101 87
80
1516
64.84 82235.16
MATH Z 2271 7 53
86
81
108 706357
68
64
1614
71.07 65728.93
AMJ MATH2228 7 24
41
45
70
604134
44
25
1837
82.45 39117.55
PAC J MATH 2106 9 42
72
68
67
677138
49
61
1562
74.17 54425.83
P LOND MATH SOC 2003 18 41
66
59
41
545834
45
30
1557
77.73 44622.27
很巧合的是,表4中的第1~5,8,9,12号期刊的被引峰值分别是第3年~第10年,被引频次最高的前20种期刊中,能够在第2,3年达到引文峰值者很少,因此,从传统影响因子的定义来讲,数学期刊符合定义条件的并不多。再根据它们在1993~2002年被引的数据分布,计算出170种数学期刊的被引频次和峰值分布,见表5所示。
表5 170种Mathematics期刊的被引频次和峰值分布
2002 2001 2000
1999 1998
1997
1996
1995 1994 1993
总被引次数1013 4625 7435 8025 7783 7125
6726
6105 5870 5107
当年峰值期刊数0 5
3543 28
17 14 71011
占期刊总数% 02.94 20.59 25.29 16.47 10.00 8.24
4.12 5.88 6.47
可以看出,数学期刊的76.5%。的被引峰值不在第2年和第3年,仅有23.5%是符合条件的。同时根据170种数学期刊的被引频次分布表计算,数学期刊被引次数的60%是在1993年以前被引的。其中在1993年以前被引次数最多的期刊被引百分比竟高达87.59%,说明数学的被引半衰期是相当长的。这样就引发一个问题:在海量数据库条件下,可以考虑定义一个类似引文半衰期的影响因子指标:①以每种期刊真正的引文峰值时间为计算点;②以达到当年总被引频次的X比例为计算点。
6.3 每种期刊载文量对影响因子指标的影响
每种期刊载文量的增加,其影响因子的增加值呈正比,这就说明传统的影响因子计算并不能消除大、小期刊的差别。我们对1997~2002年JCR公布的自然科学版(JCR Science Edition,包含近5500种科技方面的期刊)和社会科学版(JCR Social Science Edition,收录近1700种期刊)的期刊引证数据,按每种期刊载文量进行分组,计算出各组的平均影响因子,如表6~7所示。
表6 JCR Social Science Edition分组
N(期刊数)1997 1998 1999 2000 2001 2002
N>150
1.4351.4321.4851.4521.5581.744
110<N≤150 1.1440.9271.3341.4611.3421.086
80<N≤110
1.0361.1041.3281.5281.4621.488
60<N≤800.8670.8540.8430.9220.9331.092
50<N≤601.0310.9001.0310.9361.0291.051
40<N≤500.8081.0531.0240.9980.9960.950
30<N≤400.6710.7440.8350.8840.8250.979
20<N≤300.7120.7160.6440.6720.6990.723
10<N≤200.5310.6310.6810.6760.6200.658
N≤100.4850.5370.6210.6550.7080.629
表7 JCR Science Edition分组
N(期刊数)1997 1998 1999 2000 2001 2002
N>150
1.4351.4321.4851.4521.5581.744
110<N≤150 1.1440.9271.3341.4611.3421.086
80<N≤110
1.0361.1041.3281.5281.4621.488
60<N≤800.8670.8540.8430.9220.9331.092
50<N≤601.0310.9001.0310.9361.0291.051
40<N≤500.8081.0531.0240.9980.9960.950
30<N≤400.6710.7440.8350.8840.8250.979
20<N≤300.7120.7160.6440.6720.6990.723
10<N≤200.5310.6310.6810.6760.6200.658
N≤100.4850.5370.6210.6550.7080.629
从表6~7可以明显看出,显然一种期刊登载的论文越多,它获得的被引频次可能越大,从而所计算的影响因子也越高,而且这种趋势是一直呈增长态势,也就是说,用简单的计算影响因子的方法并不能消除“大”、“小”期刊的差别。这就给研究者又提出了一个新的问题:如何在海量数据库条件下去消除这种差别?
7 全评价与选评价
是对全部期刊进行评价,还是仅选择部分期刊进行评价?最终排名是用所有期刊进行排序所得到的,还是仅用一部分期刊进行排序所得到的?期刊评价中有些是为进行核心期刊排序而作的,但有时进行的是一项社会工作:所有的期刊都要发展,都要评价,它们如何知道自己的影响力?同样,不论是大学科、还是小学科都需要了解自身的发展状况。海量数据库的发展,解决了印刷文本信息量小的根本问题,使得全评价成为可能。例如,中国科技信息研究所近年来不仅对1500余种期刊进行引证分析,同时也将收录期刊总量扩充了1倍,使得其评价的范围大大扩展。表8给出2001年中国科技信息研究所核心版与扩刊版的各项指标比较[6-7]。
表8 2001年中信所核心版与扩刊版的各项指标比较
项目核心版扩刊版
增加量
总量平均值/刊总量平均值/刊增加比例(%)增加总量
收录期刊(种)
1447 2878 991431
收录论文(篇)
204189 141.11
389844 135.46
91185655
总被引量(频次) 328270 226.86
530789 184.43
62202519
影响因子 381.02 0.263620.38 80.216
6281 239.359
即年指标 64.644 0.079114.037 0.04076.95 49.591
8 基于商业行为的新的文献计量研究
对于出版商、图书馆员和其他相关人士来说,了解电子资源用户的行为是极为重要的。英国电子图书馆项目课题“Super Journal”对学术电子期刊用户系统交互记录分析进行了研究[8]。通过运用一个特定的测试文件log file(日志文件),用特定的软件包详细记录用户与计算机系统的整个交互过程,并对记录结果进行统计分析,用这种分析来揭示一个文献系统的使用情况或者用户行为的特征。研究过程包括:数据收集计划;选用日志文件收集数据;用计算机对收集数据进行处理;查明人机交互记录的有效性;采用SPSS对数据进行分析处理和统计,并给出了实例和具体的分析过程。其主要目的是运用文献计量学讨论网络用户的一些行为、用户行为特征及其影响因素,如用户所感受到的系统的相关性、全面性、图书馆(或技术中心)的技术支持等因素对影响用户使用系统的频率、深度和广度。
标签:影响因子论文; 文献计量学论文; 海量数据论文; 文献论文; 交叉分析论文; 网络数据库论文; 数学论文; 科学论文;