引荐分析法:一种新的引文分析法,本文主要内容关键词为:分析法论文,引文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
作为科学文献的必要组成部分,引文能把看似杂乱无章的全部科学论文通过纵横交错的关系编织成一个有机的科学交流、知识演化网络,为人们认识和理解科学知识提供一条便捷途径。美国著名情报学家尤金·加菲尔德(E.Garfield)认为引文是学者付给同行的硬币工资,引文测度能把一些有用的、客观的因素引入到评价过程中,而只涉及少量的使用调查技术的费用,是一种有效的同行专家评议方式[1]。叶继元也认为引文索引可以帮助确定知识或科学的结构,反映学科之间的渗透情况,可以从一个重要侧面评价被引用论文、刊载被引论文期刊以及学者、学者群体的影响程度和水平[2]。由于引文具有如此重要的价值,引文分析法自Garfield创立以来一直是一种经典的情报学分析方法。数十年来,学者们不断尝试各种引文分析方法,以挖掘更丰富的信息。本文首先回顾了引文分析法演变历程,简要介绍了ACA、引用认同等重要进展及其不足之处,引出由笔者首次提出的引荐分析法,并对它们之间的关系进行了详细比较,最后以国内图情界为例介绍了引荐分析法的优势和不足。
2 引文分析法演变历程
引文分析(Citation Analysis)是指利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法[3]。引文分析法自Garfield创建以来,吸引了众多情报学者的关注和应用,该理论不断被完善,先后出现了作者同被引、引用认同等相关概念与理论。
White和Griffith提出了“作者同被引”(Author Cocitation Analysis,ACA)概念[4],他们通过对39名情报学家进行同被引分析,成功描绘出情报学的学科结构。从此ACA作为一种新的引文分析法被广为采用,国内学者也多次利用这一方法进行学科结构分析。马费成和宋恩梅对我国情报界36名核心作者进行了ACA分析,将情报学划分为早期研究者、情报学理论、情报检索、图书馆学研究、文献资源建设等五个领域[5]。邱均平和马瑞敏利用Google Scholar对我国图情界30位作者进行了ACA分析,证明ACA在网络环境下同样可以用于学科结构分析[6]。
继ACA之后,White提出了“引用认同”(Citation Identity,CI)这一概念,用于指涉某一作者所引用的作者集合。他分析了被8位著名情报学家所引用的作者,认为是否进入重要学者的引用认同可作为评估个体研究人员的指标。他认为被一位可敬的人物反复引用是好事,被许多可敬的人物反复引用更佳,被几百名可敬的人物反复引用将获得传世美名[7]。遗憾的是,这一富有创意的概念并未受到应有的重视。国际上追随White探讨此主题的文献很少,国内更是鲜见。到目前为止,国内仅有三篇文献提到这一概念。其中武夷山[8]和屈宝强、王建芳、齐向华[9]简单介绍了引用认同的概念,马凤和武夷山[10]除介绍概念外,以我国著名情报学家王崇德为例进行了详细解释。武夷山在向国内介绍“引用认同”这一概念上起着重要作用。他在博客[11]和一份报告[12]中多次称赞这一概念,对笔者追溯原文[7]和完善本文方法有积极影响。
笔者在研究h指数的过程中发现,高影响力作者的施引列表(其独著或合著论文的参考文献列表的汇总)蕴藏着很有价值的信息。绝大多数高影响力作者或其所在团队引用最多的是高影响力作者自己,其次是一些研究高度相关的同行。这一发现为笔者尝试从同行角度入手挖掘学科结构提供了启发,于是将引文视作投票,借鉴选举过程绘制了高影响力作者关系图。当笔者接触到“引用认同”概念之后,认为一种立足引用认同基本理念的聚焦于高影响力施引者的分析方法可能会弥补ACA的缺憾。本文通过辨析与引用认同、ACA的区别与联系,介绍了基于h指数的专家引荐分析法,并从国内图情界高影响力作者入手,结合知识图谱方法,绘制了国内图情界学者学术源流关系图,为研究学科结构提供了新的视角和方法。
3 引荐与引荐分析法
3.1 引荐
引用有很多种情况,如负面引用、一般引用、正面引用等,这些多样化的引文动机使施引行为具有很大程度的随意性,而且随着可供使用文献数量的快速增长,这种情形更为常见。笔者认为,被偶然引用并不能说明太多问题,即使是被有影响力作者所引用,引文崇拜更是不可取。鲁迅先生讲过的一个经典笑话也许有助于加深我们对这一问题的认识:阿Q到处炫耀他与某富人有关系,说富人有一次主动同他说话,别人问是什么话,他说,“我站在他家门口,他对我说——滚!”。这个辛辣的笑话用于比拟引用虽然刻薄,但足以说明引文崇拜多么不可取。由此可见,偶然的引用并不意味着施引者对被引者的认同,有时只是偶尔提及他人的工作,甚至可能只是用作批判的靶子。
但人们在使用引文分析法时通常缺乏区分意识,将所有的引用次数简单累加起来即用于衡量作者的学术影响力,这种作法未必合适。如成语中的“流芳千古”和“遗臭万年”之类过誉或刻薄的评价若映射到引文世界里,二者对应的总被引和据此推断的影响力肯定都非常惊人。因此,可以认为由引用数量推断的“学术影响力”只是个中性评价用语,不适于衡量一个人的学术贡献。那么,数量在怎样的程度上才可以反映质量呢?这是个长期争论不休的问题。马凤和武夷山认为,一篇文献被普通作者和知名作者引用,被粗略引用和详细引用是不一样的,高质量的著作常被知名作者多次引用,引用认同结合同行评议可以更全面客观地评价作者及其著作[10]。笔者认为,对于绝大多数低产作者来说,他们对特定领域的学术兴趣很不稳定,其学术判断未必准确,而专家往往因在特定领域进行了长期深入研究,对相应问题的看法常具有超越普通作者的见识,其对某作者的频繁施引往往意味着对该作者学术贡献的重视。
笔者认为,同一施引者对某人的多次引用反映了他们能够共享相同的话语空间,这等价于施引者认可被引者的领域同行身份,因此可以视为对被引者的学术贡献进行了正面评价,是真实的推荐意思表示。为与White的“引用认同”区别起见,笔者将同一施引者对某人的多次引用行为定义为引荐(Citation Recommendation,CR);将引用的下限,即至少引用的次数,定义为引荐阈值(Threshold of Citation Recommendation,TCR)。只有超出引荐阈值的频繁施引才会被采信为一次有效引荐,而一旦引用次数超出引荐阈值则数值大小将是无差别的。这样,即使自引次数再多,也仅是一次引荐,这可淡化自引对引文分析的影响。基于这种视角,广受争议的自引行为可以被界定为毛遂自荐式的引荐,即自荐(Self Citation Recommendation,SCR)。
本文所界定的“引荐”与汉语中现有的“引荐”含义基本上是一致的,都是郑重推荐的意思。一个作者如果被多个有影响力的作者所引荐,可以说明其研究为同行们所看重,对该领域的发展有重要影响;相反,若无人引荐,说明其研究尚不足以影响领域的发展。套用White的说法,被一位可敬的人引荐是好事,被许多可敬的人引荐则更佳,被几百名可敬的人引荐将获得传世美名。
3.2 引荐与引用认同的异同辨析
传统的引文分析着眼于文献,对作者关注不足。引用认同则是以作者为中心的引文分析方法,弥补了传统引文分析的这一缺陷,丰富和发展了引文分析法。借助引用认同概念,我们不仅可以得到一个作者的被引信息,而且可以得到其施引信息,从而拓展了对作者在引文世界中所处地位的认识。作为源于引文分析的概念,引荐和引用认同具有一些相似点,但也存在明显的区别。
二者都是以作者为中心的概念,同时对自引都持肯定态度。基于引荐分析视角,自引行为被理解为毛遂自荐式的引荐,即自荐;引用认同将自引视为最大的一个组成部分,是核心中的核心。尽管如此,二者还是有明显的差别:
(1)定义不同。引荐是指同一施引者对某人的多次引用行为,而引用认同是指为某一作者所引用的作者集合。笔者认为,引用认同具有一定程度的模糊性,一个作者在一篇文献与多篇文献所引用的作者集合大小不同,如果一律使用引用认同来描述很容易让人的认识发生偏差。因此,当提及作者引用的全部作者时,笔者更愿意使用“施引列表”来代替“引用认同”。
(2)研究对象不同。引荐的研究对象是多个作者和他们的施引对象,引用认同研究的是单个作者的施引对象。
(3)含义不同。引荐与引用认同在表达施引者承认被引者学术贡献这一信息方面是相同的,但引荐的目的是为了向学术共同体推荐该施引者眼中的其他重要研究者和同行,而且引荐还可以包含不认同这一层含义,作者虽不认同其他重要研究者的研究路径或观点,但并不讳言其学术贡献,并频繁引用的现象。引用认同则认为施引即认同。
(4)分析方法不同。引荐是一种基于网络分析的同行发现方法,它对领域内研究者群体的关心胜过单个作者,可用于领域全景图绘制。引用认同则是一种针对特定作者的学术联系人的认知框架。
(5)对引用次数的限制不同。只有超出引荐阈值的引用行为才会被认为是引荐,低频引用将被过滤。引用认同则对引用次数没有任何限制,而且低频引用更是其分析引用认同类型多样性必不可少的部分。
3.3 引荐分析法
从上文对引文分析法发展历程的简要分析可以看出,人们对引文的功能总是有着不断增长的期望,一直在寻找挖掘关于文献价值、作者学术地位等评价信息的方法,以满足社会各界对学术界的各种评价需求。传统的引文分析法认为所有的引文都是可计数的无差别记录,除分析自引外,施引者信息往往被计数过程忽略。虽然学术界对引文分析法的研究成果已经比较多,但笔者认为引文的同行评价功能依然有可开拓的空间,来自高影响力作者的引文更是具有很大的同行评价价值。故笔者在引荐概念的基础上提出了引荐分析法(Citation Recommendation Analysis,CRA)。它是一种新型的引文分析法,通过从施引作者入手,不断地寻找其领域同行、同行的同行来绘制整个研究领域的全景图。它融合了引文分析法、知识图谱分析等技术,为研究领域内的学术网络关系和学科结构提供了新的途径。
虽然作者的施引动机有很多种类型,这导致很多类型的引用并不能用于学术评价的参考,但高影响力作者因其学术素养和洞察力要高于普通作者,其频繁施引对象必然是与其研究主题密切相关的同行。笔者在分析高影响力作者的施引列表时发现,绝大多数专家或其所在团队引用最高的作者是专家自己,其次是与其研究比较相关的同行,其中不乏国外专家和国内新秀。这似可为笔者的上述观点提供支撑。因此,可以从高影响力作者的施引列表入手,寻找其眼中的同行,进而汇总各专家眼中的同行,运用知识图谱技术绘制出囊括领域内全部重要研究者的学科结构图。
虽然从理论上说,任何作者都能参与引荐投票,但从实际情况看,来自专家的引荐可信度更高。CRA试图借助领域专家的学识判断,通过对少而精的引文数据进行分析,得到符合实际的学科结构信息,因此,专家的选择就成为CRA运用时的一个重要问题。笔者曾用“核心期刊高发文量和h指数相结合”的方法对图情领域近三十年来的核心作者进行了一次全面系统的实证研究,结果表明图情领域第一作者发文量≥5的核心作者共有3911人,其中h指数≥5的有187人。这187人绝大多数具有高级职称,可以看作是在图情领域有影响力的专家[13]。后又采用基于领域期刊的h指数批量统计法统计了为CSSCI(1998-2006年)数据库收录的20种图情核心期刊的作者h指数[14]。两种方法所得的高h指数作者名单和h指数数据吻合程度很高,其中h≥7的高h指数作者有64名,这些作者都是图情领域颇有学术影响力的专家。
基于上述分析,为提高CRA的可操作性,本文采用h指数来遴选专家,姑且将这种CRA命名为基于h指数的专家引荐分析法(H-index Based Experts Citation Recommendation Analysis,HBECRA)。这种引文分析法的思路是层层选举,即首先由领域内全体作者通过引文进行投票,采用h指数遴选出高影响力作者,即专家,然后得到专家频繁引用的人,即专家眼中的同行,最后汇总全部信息,运用网络分析法和可视化方法勾勒出领域内有较大学术影响力的学者群体。总之,HBECRA是一种基于h指数的引文分析法,它借鉴选举过程,将引文视作投票,借助学科专家的学术洞察力和引荐及时发现学界新秀、其他研究领域值得关注的学者以及国际上有影响力的学者,弥补了传统引文分析法对施引者关注不足的缺憾,为研究学科结构开辟了新的途径。如果将专家选择尺度进一步放宽,还可以勾勒更精细的学科结构图。
3.4 CRA与ACA的区别与联系
作为一种有效的引文分析方法,ACA自1990年McCain将使用流程规范化之后被广泛用于揭示学科结构。但是,ACA存在一些局限性:①使用流程较为繁琐。McCain规范后的使用流程为选择作者、检索同被引频次、构成同被引矩阵、转化为皮尔逊相关系数矩阵、多元分析和解释结果等几个步骤。其中同被引矩阵构造是核心,却也是难点。如果研究对象太多,ACA将难以胜任。如本文分析了173人,若用ACA分析,173*173的矩阵绘制问题将给研究者带来不小的挑战,而且这一问题会随着研究对象的增多而更加严重。②矩阵转化时采用的系数没有定论。③聚类效果不尽理想。这表现在结果解释部分,相邻研究者的聚类归属具有很大弹性,只有领域专家才能进行较为合理的划分。
CRA与ACA虽都属于以作者为中心的分析方法,却具有明显的差异:
(1)施引次数限制不同。CRA对施引者的施引次数有最低限制而ACA没有。CRA的引荐阈值可以根据研究对象不同做相应调整,如本文所采用的引荐阈值为5。ACA由于采用的是众多作者对特定对象随机施引后的累积数据,从统计中发现共现规律本就不易,若再限制次数就难以开展有效分析了,所以对施引次数并不做限制。值得指出的是,ACA中虽也有阈值的概念,但那是在聚类阶段,而非清洗施引数据阶段。
(2)勾勒学者关系图时的实施主体不同。虽然引荐和ACA都可以考察经较长时间学术积淀后形成的较为稳定的学者关系,但勾勒这种关系图的主体不同。由引荐分析出的“关系图”是由学者自己主动描绘的,由ACA分析出的关系图是由领域内众多研究者共同描绘的,对于被描述的学者来说这种关系图的形成是被动的。
(3)对关系图的描述能力不同。引荐对作者间的关系没有预设,可能会有意外发现。ACA难以穷举所有作者间的关系,受研究者视域限制,只能发现预期的关系,不能发现调查范围之外的关系,且根据研究者视域取样可能会漏掉某些重要作者。若以国内数据库为数据源,运用ACA方法仅能看出国内学者间的关系,而运用CRA不仅能看出国内学者间的学术关系,还可以看出国内学者与国际知名学者的学术交流关系。
(4)数据库依赖程度不同。如果数据库不支持直接检索,ACA需要套取全部作者施引信息才可以统计特定作者的共被引情况,CRA则只需套取有限数量的高影响力作者的施引信息即可。
(5)施引者身份不同。引荐比较注重施引人的学术影响力,希图借助学术权威的判断来勾勒学科结构和领域内的研究结构;而ACA对施引者的学术地位没有明确要求,每一篇文献的作者都可以参与推荐。换言之,引荐依赖的是专家,而ACA依赖的是大众。
(6)聚类原理不同。“物以类聚,人以群分”,引荐的聚类原理正是从同行互相关联入手按群聚类,是高影响力作者主动作出的关系判断。ACA的聚类则是依据共被引,由大量普通作者投票选出的统计意义上的学术关系。高影响力作者因其学术素养和洞察力要高于普通作者,其频繁施引的对象必然是与其研究主题密切相关的同行。与普通作者相比,他们施引通常更加慎重,更能相对客观地反映出真实的学术源流关系。
4 基于国内图情领域的CRA实证研究
因系初次尝试,为控制人数以便于处理,笔者对施引作者资格和引荐阈值作了一定限制。引荐阈值太低的话样本太大且体现不出引荐的含义,太高的话样本太小,经试验,引荐阈值为5时样本数量比较适中。故本文将能通过施引进行投票的引荐人资格限制为图情领域h指数≥7的高影响力作者,他们引荐作者的引荐阈值定为5,即TCR≥5。换言之,每一次引用可看作是一次提名,能通过筛选的候选人至少要被某一h指数≥7的高影响力作者引用了5次,这样可以借助高影响力作者的学术视野发现其学界同行。逐一选择笔者上文提到的64名h≥7的作者,以之为CSSCI(1998-2007年)来源文献的作者,准确匹配且不限制作者次序,检索获取其施引文献列表,用自编程序进行数据清理,得到其引用作者和次数。
4.1 专家提名情况汇总分析
统计结果表明,这64名作者共提名同行(含自己)513人,经汇总、去重得到无重复作者313人,其中被提名10次及以上的共84人,被提名9次、8次、7次、6次、5次、4次的分别为10人、6人、11人、26人、44人、132人。被提名5次以上的作者经规范后有173人,其中知名学者的被提名(含自引)次数均很高,如邱均平226次、吴慰慈181次、马费成139次、黄宗忠120次。为节约篇幅,表1仅列出被提名20次以上的作者名单。
4.2 专家引荐情况举例
能得到专家引荐的作者基本上都是其在某个研究领域的同行,表2邱均平团队的引荐名单可以印证这一观点。从表2不难看出,这些被邱均平团队引荐的作者不仅有国际、国内知名学者,也有尚不为学界熟悉的新秀;既有情报学、图书馆学界的,也有法学、管理学界的。他们的主要研究方向大致涉及大学评价、网络分析、科学计量、文献计量、情报学基本理论、知识产权、竞争情报、知识管理、引文分析、图书馆学等领域。这些作者的研究方向与邱均平团队的研究领域高度相关,因此,把他们作为邱均平团队在各个细分领域的同行是合乎实际的。以下为该团队发文所引用的作者名单和频次,为节约篇幅,仅列出被引5次以上的作者。
4.3 专家引荐情况汇总
CRA将投票人对同一候选人的多次提名推荐(多次引用)仅看作一票,即看作一次引荐(CR)。如吴慰慈虽被多名专家用引文提名181次,但经统计只能算得到了14人次的引荐,其余类似。统计得到173名作者的被引荐次数和对应的人数分别为:14(1)、8(1)、7(1)、6(3)、5(3)、4(6)、3(15)、2(21)、1(119),被引荐次数在2以上的作者名单如表3所示。由数字可以看出引荐设置的门槛很高,既可以过滤自引的干扰(自引再多也仅算一次引荐),又可以降低来自特定施引人的影响(多次施引也仅算一票)。这就使得一个作者要想得到广泛认可和大量引荐,非经长期学术积淀不可。故引荐比总被引更稳定,更能反映学者的真实学术贡献。
很多图情学理论都起源于国外,其在国外的进展也很迅速,但这些知识却没有被及时地引入到国内,结合表1和表3国外学者的被提名次数、被引荐次数可以看出,国外学者在国内学术界的知名度普遍不高。由国内图情学者引荐的国外学者非常分散,很少有两人以上共同引荐同一国外学者的情形,表4为由国内学者共同引荐的国外学者名单。这也许可以从一个侧面反映出国内图情界对国外学者关注不足,这种情况不可能不影响到国内相关学科的发展,这无疑是令人遗憾的。
4.4 国内图情领域专家引荐的作者关系分析
CRA在借助学科专家挖掘学科结构方面,能给我们带来什么新发现吗?答案是肯定的。情报学家和图书馆学家通过彼此以同行身份关联后,可以在学科结构图(图1)中很清晰地区分开来。在图1的左上方是情报学家群,右下方是图书馆学家群。情报学家邱均平、马费成、严怡民、王崇德、王知津、包昌火、卢泰宏、靖继鹏、张琪玉、孟广均、霍国庆、徐引篪、焦玉英、查先进等聚在一起;图书馆学家张晓林、吴慰慈、范并思、黄宗忠、柯平、于良芝、程焕文、蒋永福、程亚男、吴建中、叶鹰、黄俊贵、盛小平、初景利等聚在一起。他们之间距离的远近反映出研究领域相似性大小。
由于学科专家往往是某个细分领域的中心人物,通过这种以核心作者为中心的学科结构布局方法,可以自然地将学科分解为多个细分领域。如从图1可以看出情报学可分为文献计量、情报学基础理论、竞争情报、知识产权、信息产业、信息检索、信息服务等子领域,并不能看出情报学分为情报检索和文献计量两大阵营。该结论与White等采用ACA得出的结论大相径庭。此外,从图1还可以看出信息检索、信息服务是图书馆学与情报学的中间地带。
从图l我们还可以看出,向国内学术界引荐国外学者的情报学家有卢泰宏、邱均平、马费成、汪冰、包昌火、靖继鹏、赖茂生、霍国庆、王知津、岳剑波;引荐国外学者的图书馆学家有于良芝、叶鹰、盛小平、初景利、孟广均、张晓林等。由此可见,CRA有助于寻找某领域对外交流的核心学者。由图1也可以看出情报学家和图书馆学家对国外学者的关注程度有较大差异,与图书馆学家相比,情报学家向国内学术界引荐的国外学者相对较多。CRA可以使我们较清晰地看到我们对国外的了解范围和程度,有助于认识不同学科对外交流、开放程度的差异,有助于我们拓展研究视野,认识到自身的差距,从而及时吸收、借鉴国外的最新研究成果,为学科发展提示改进的方向。
图1 基于CRA的国内图情领域学科结构图
5 讨论
笔者认为,有学术影响力的人所频繁引用之人必与其研究高度相关,可视为某领域内的同行,因此CRA可视为一种新的同行评议方式。与传统成果鉴定时广泛采用的同行评议不同,CRA是真正意义上的小同行评议。一个作者可以在期刊上发表很多文章,也可以被包括自己的普通作者引用而成为高被引作者,却很难使学识渊博的领域专家频繁对其施引。如果参考文献符合学术规范,CRA就能通过分析一个学者被学界专家们频繁引用情况,过滤自引的影响,反映出真实的学术源流关系和其在学界专家们眼中的学术地位。
不同于应试式特定成果同行评议,CRA是一种非侵入式的评价方法,它无需被评价对象的申报与配合,能在不干扰被评价对象的前提下使评价工作常态化。既能使有真实学术影响力的作者在经历时间考验后通过同行的含蓄赞誉浮现在大众面前,又使得大范围、长时间、系统化的造假成本大幅提升。CRA是一种迟钝却稳定的学术评价方法,通过它选出的学者必然具有较深厚的学术积淀。这种见效较慢的新人过滤程序,也许可以避免王安石所说的方仲永式人才捧杀悲剧,使学术新星可以安心研究,从而为学术发展多作贡献。因此,CRA是一种有效的、低成本的同行评议方式。虽然从理论上说可以根据专家间的引荐情况对专家的学术地位进行排名,但这样的评价却有偏颇之处。因为引荐人数的多寡除了被引荐者自身学术造诣因素外,还受研究是否热门的影响。高影响力学者历来是学界和社会倚重的精神支柱,若因评价指标的导向性而致其引文行为发生些微异变,诚非笔者所愿。故笔者暂不主张将CRA用于此类容易被误用的学术评价,仅主张利用其同行引荐功能。
综上所述,通过采用CRA,可以经学科专家们的引荐,发现其在某研究领域内的同行,通过大范围地描绘这些同行,可以进行可视化探索,勾勒学科内各研究领域聚集情况,从而发现本领域的新秀、其他领域有影响力的研究者以及国外专家等。由于CRA能观察某学科内研究者对其他领域、国外同行的了解情况,所以也能为比较不同学科的开放程度提供一个观察窗口。此外,由于CRA还可以根据引荐值大小进行复杂网络关系的比较,若将其用于网络社区发现等领域,可能会为完善社会网络分析法提供新的视角。
标签:aca论文; 文献分析法论文; 逻辑分析法论文; 文献回顾论文; 情报学论文; 邱均平论文; h指数论文; cra论文;