中文社会科学引文索引(CSSCI)的设计与应用价值,本文主要内容关键词为:引文论文,中文论文,社会科学论文,索引论文,价值论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G250 G350
1 概况
引文索引诞生于20世纪60年代初,早期出版的是印刷本,随着计算机和网络的发展普及,以后又陆续出版了光盘版和网络版[1]。光盘版尤其是网络版引文索引的推出,使引文索引在科学研究、评价与管理中发挥了越来越大的作用,已成为评价国家、地区、机构和个人科研水平的重要工具。
中文社会科学引文索引(CSSCI)启动于1998年底,首次发布于2000年5月。目前已拥有1998年至2011年共14年的数据,共收录来源文献110万余条,引用文献近1000万条[2],至2012年共收录期刊535种[3],现已成为教育部评价人文社会科学研究成果的重要平台。
CSSCI建设之初,由南京大学与香港科技大学合作,在1999年和2002年两次得到教育部重大项目基金的资助。2004年,国家社会科学基金规划办公室为提升其应用价值构建中国人文社会科学评价体系,也将其列为国家社会科学基金重大项目。在这些基金的资助下,CSSCI得到了的快速发展,现已成为我国人文社会科学研究的重要评价平台和科学研究的有效辅助工具。
为充分发挥CSSCI的作用,我们将CSSCI定位于:辅助科学研究、指导科研管理、加强科学评价、探索学科特征。为了达到这些目标,在CSSCI的系统设计和数据组织上进行了改进,CSSCI建成后又以CSSCI数据为基础,进行了大量的研究,对引文索引又有了更加深刻的理解。目前,已发表引文分析类论文300多篇,专题研究报告近10份,学术专著5部,其中大型学术著作(每部150万字以上)4部。这些成果的出版,在我国学界引起了很大反响。
2 CSSCI功能及特色
2.1 CSSCI结构与功能
CSSCI由三个子系统组成:数据处理子系统、信息检索子系统和统计分析子系统,三个子系统由数据流紧密关联。数据处理子系统主要完成数据的输入过程以及统计分析前的数据清洗、纠错、合并等。数据输入完成,整个CSSCI数据库形成。统计分析后,仍需数据处理子系统对统计后的数据进行归并处理,同时构建相关的统计分析数据仓库。信息检索子系统主要用于建立网络检索平台和制作光盘,为用户提供检索服务。统计分析子系统主要完成基于CSSCI的各类统计分析。详细功能见图1。
图1 CSSCI系统功能与数据流
2.2 CSSCI的特色
如上文所述,建立CSSCI的目的是为了指导科学研究和进行有效的科研评价与管理。因此,CSSCI在功能上除了拥有一般引文索引所必需的功能外,还有几大特点:
(1)数据质量控制。在数据处理过程中,CSSCI系统采取了一系列有效的数据质量控制措施,如作者、机构、刊名、篇名等均采取了计算机自动模糊匹配算法,挑选出可能出现错误的记录,对计算机过去发现并经人工纠正的错误,计算机将自动更正,同时还建立了刊名字典、机构名称字典等专门用于数据质量的控制[4]。
(2)检索途径丰富且高效。CSSCI具有近20项可检索字段,除了项与项之间可进行逻辑组配检索外,一个数据项内也可进行逻辑组配检索。更为突出的是,可进行排除内容的检索,避免了大量检索垃圾的输出。如,用检索词“华人”检索,可避免将“中华人民共和国”的数据输出,用“民法”检索,可避免将“人民法院”的数据输出。
(3)建立了引文分析用数据仓库。由于引文索引中,各类数据往往是多维关联的,为了使引文分析更加深入和透彻,CSSCI建立了数据仓库。如期刊引用数据仓库,该数据仓库汇集了期刊各种引用指标数据,形成的多维关联可产生期刊的综合影响指标以及期刊引用网络。再如,构建了关键词数据仓库,通过关键词变化情况以及关键词的上升和衰减周期,可以分析学科研究的热点和趋势。对关键词在同一篇文献出现的交叉情况进行分析,可以得出学科交叉结论和学科新的增长点。
(4)学科研究特征的状况分析。从引用数据考察学科研究特征在学界尚少有报道,CSSCI在设计时就充分考虑到这一点,如从引文类型判断一个学科的成长性和成熟度,从引文数量考察一个学科的学者研究习惯及学术规范度,从文章类型可以分析一个学科是否重视学术回顾与反思,学术批评是否活跃等。CSSCI对每篇文章特别强调了这些信息的标注。
3 数据的结构组织与标准化
3.1 CSSCI数据库结构
为了使CSSCI便于数据处理、易于统计分析、提升检索效率,我们将CSSCI数据库分割成9个数据库。其中核心库主要是来源文献数据库、论文作者数据库和引用文献数据库,其他数据库主要用于数据输入时的数据质量控制或统计分析时数据核对。整个CSSCI数据组织详见图2。
图2 CSSCI数据组织框架
图2中各数据库作用与数据组织说明如下:
来源文献数据库:记载CSSCI收录的所有来源文献。主要字段有:文献标识(唯一)、篇名、期刊、语种、文章类型、年代、卷期、页码、中图分类号1、中图分类号2、学科分类号1、学科分类号2、学位分类号1、学位分类号2、关键词、基金项目内容与基金项目代码等。
论文作者数据库:记录CSSCI收录论文的每位作者信息,由于一篇论文可能会有多个作者出现,为了节省空间,也为方便以后的各类操作和应用,将论文作者单独建库。主要字段有:文献标识号+作者序号、作者、机构、地区、机构类别代码,其他等。
引用文献数据库:所有收录的来源文献引用的文献均记录在此数据库。主要字段有:文献标识+引文序号、作者、篇名、期刊或出版社、文献语种、文献类型、引用类型、其他说明字段、年代、卷期、起止页码等。
来源期刊字典库:记载所有被收录进CSSCI的期刊。主要字段有:期刊名称、期刊编码、出版频率、主办单位、通讯地址等。
机构类别字典库:记录所有作者的机构及类别信息,在进行分类统计机构发文和被引时使用。主要字段有:机构名称、机构类别编码等。
地区编码字典库:记录所有作者所在地区的编码信息,用在地区发文和被引的统计分析中,也用于地区检索。主要字段有:地区名称、地区编码等。
期刊沿革库:记录期刊刊名变化等信息,为期刊被引统计时的归并提供线索。主要字段有:期刊名称、期刊编号、创刊年、该名称启用年、该名称终止年、该名称之前使用名等。
机构变化库:主要记录机构名称变化之信息,特别是近20年来,我国高校名称变化为机构发文、被引统计带来了诸多影响,该库主要用于机构发文和被引统计的合并处理。主要字段有:机构名称、变化类别(合并、改名等),改名(合并)时间、之前机构名称1、之前机构名称2等。
公共字典库:主要记录CSSCI数据输入、检索、统计中使用的各类代码,如文章类型、文种类型、引文类型、基金类别等。主要字段有:数据类别(如文献类型、文种类别)、内容名称、名称编码等。
3.2 数据的编码设计
数据经过编码可以使系统发挥更大的效能,通过对CSSCI的数据编码,能够更准确和深入地统计分析我国人文社会科学研究的状况和特征。我们在以下方面作了尝试。
(1)文章的学科分类。CSSCI将收录的每篇文章采用三个分类体系(中国图书馆分类法[5]、中华人民共和国学科分类国家标准[6]、国务院学位办学科分类[7]),通过这三个学科分类体系可以分别从不同角度考察我国人文社会科学学科发展状况。
(2)文章类型编码和引用文献编码。CSSCI采用数字化为不同类型的文章进行编码,如研究论文(10)、综述文章(2x)、评论文章(3x),对综述文章再分下位类,如会议综述(21)、学术综述(22)等。评论文章分学术评论(31)、书评(32)等。引用文献类型编码主要有:被引文献语种编码(如中文“01”、英文“02”……)、被引文献类型编码(如期刊论文“01”、图书“02”……),等等。
(3)机构类型编码。CSSCI将机构类型分成八大类:高等学校、科研机构、党政部门、党校和行政学院、解放军系统、非上述五类的大陆各类机构、台港澳地区机构、国际机构等,分别用1-8表示。每一大类机构再细分下位类机构,如高等学校再划分为教育部直属、其他部委直属、省市直属和其他类,并用11、12、13、19表示,对高校第三层编码再细分:综合性院校、专业性或单科性院校、师范院校、师范专科院校……,分别对应编码为:1x1、1x2、1x3、1x4……。利用高校类型编码,可以对各类高校的科研成果进行分析比较。
(4)地区编码。地区编码由6位数字表示,主要按行政区划划分,前2位表示省份,3-4位表示地市级城市(所有省会城市为“xx01xx”),5-6位表示县区。地区编码为进行地区集中(按省统计)和分散(省内市级统计或省际城市比较)统计分析,以及同类城市的比较(如各省会城市比较)提供了有效的途径。
(5)基金资助项目编码。CSSCI除了将基金项目的内容(项目号、项目名称等)记入数据库,还将项目的类型进行了编码。如:国家基金项目、教育部基金项目、其他部委基金项目、省市基金项目、其他基金项目等分别用1、2、3、4、5……然后再分社会科学基金、自然科学基金、国家“863计划”、国家“973计划”等;以后再下分为:重大项目、重点项目、一般项目以及国家攀登计划等,都分别用数字表示。基金资助编码用三位数字表示。
CSSCI对有关数据进行编码后,使统计更加细致、方便、有效,加深了分析的深度和广度,我们也做了许多研究实践,具体讨论详见下文。
4 基于CSSCI的分析研究
学术论文中的引文,蕴含着许多信息。它不仅仅表现了文献之间的联系,更重要的是将这种引用串联成一条引用链,可以映射出一条科学知识的源流,能够发现新的研究领域和学科的形成过程。引文索引还能够帮助我们分析学科研究特征,探索学科研究的热点和趋势等。另外,通过论文的跨学科分析,可以挖掘出隐藏其中的学科交叉点,找到学科研究新的增长领域等。
4.1 学科研究特征分析
如何通过引文分析来发现学科的研究特征,这是我们在研制引文索引之初就一直在思考的问题。我们充分分析了引文索引可著录项目,特别是能够反映学科特征的引用文献,通过测试并与各学科专家交流,发现可以通过引文分析来客观地评价学科的研究特征。
(1)学科学术规范度及学科活跃度分析。在统计了不同学科的引用文献数量,并进行了学科间的比较后,发现了学科间的差异,这个差异实际上也反映出一个学科研究群体的学术规范程度、研究习惯、研究深度、治学态度、治学风范和学术道德。例如,作为求真求实的历史学学科,研究中需要大量的文献考证,分析多家之言,从历史学论文的引文数量上也反映出这一点,该学科论文的平均引文数量已达到20篇左右,而新闻学与传播学论文的篇均引用文献数量只有4-5篇。这种差距不仅仅是由学科研究对象确定的,也反映了两个学科之间的学术严谨度,各学科间的差异可参见文献[8-9]。我们认为,任何一项研究通常是建立在他人的研究基础之上,其成果不可能是空中楼阁,需要借鉴、引用他人成果。一般来说,研究深度越深,引用的文献也会越多。一个学科整体学术规范程度越高,引用的文献也相对较多。总之,一个学科整体引用文献多,表明了该学科学者具有良好的研究习惯和严谨的学术作风。我们从逐年的引文数量比较来看,2000年CSSCI收录的论文的篇均引用文献数量只有4.6篇[8]7,到2011年已达13篇左右[2],说明我国人文社会科学学术研究的整体规范度正朝着更加良好的方向发展。
另外,从各学科文章类型的统计数据可以反映出这一学科的一些特征,如评论性文章较多说明这一学科注重学术批评,学术活跃;综述性文章则可以帮助学界进行学术回顾和反思。这两类文章是促使学科健康发展的重要组成部分。根据数据分析发现,我国人文社会科学的许多学科学术批评文章非常之少[9]11,这种现象可能来自于期刊杂志社的障碍(杂志社担心争议和怕惹麻烦),亦或目前的学术氛围迫使学者不愿得罪人或招惹麻烦,造成学界表面上的“一团和气”。通过对不同学科的学术评论文章、学术综述文章数量进行比较分析,发现学术的活跃与繁荣、学科的健康发展,非常需要这两类文章。
(2)学科研究的国际化程度分析。学科研究的国际化程度可从两个方面体现出来:其一,是否在国外发表了大量的论文;其二,是否和国外研究领域密切关联。从引文分析的角度进行引用文献语种的统计比较,就可以从一个方面来分析该学科研究的国际化程度。引用文献的语种分析可以发现一个学科的研究与国外研究接轨的状况,如对国外研究成果、学术理念、研究方法的引入情况。通过对引用文献的语种分析,也能看出一个学科研究人员的整体语言能力和获取学术资源的范围。一般说来,引用外文文献较多的学科,该学科研究的发展较为迅速,与国外研究接轨的能力也越强。
通过数据分析对比(除去主要以本土研究为对象的学科,如中国文学、历史学、考古学、民族学、中国语言学等和以国外资源为研究对象的学科,如外国文学、外国语言学),我们发现,马克思主义、哲学、政治学等学科引用翻译作品比较高,说明我国早期翻译的大量哲学、政治学经典著作对这些学科研究产生着重要影响;心理学、管理学、经济学等学科引用外文文献的比例很高,说明这些学科借鉴国外研究成果较多或者说该领域的研究与国外接轨度较高;而新闻传播学、图书情报学等学科的研究领域本身与国外没有较大的地域差别,但引用国外文献却较少,这种现象需要引起这些学科的警觉。
(3)学科的成熟度与成长性分析。一般来说,在人文社会科学中,图书所反映的研究成果比论文更加成熟一些,而论文由于出版周期短,也代表着学者的即时研究成果。因此,借助引用文献的类型分析,可以考察一个学科的成熟度以及学科的新颖度。一般来说,新兴学科以及成长较快的学科,引用文献中期刊论文、研究报告等类型的文献较多;而较古老的学科以及较为成熟的学科,引用文献中图书的比例较大。例如,自然科学整体上发展迅速,其引用的期刊论文占整个引用文献的70%以上,而人文社会科学的引用文献中55%以上是图书[8]8,[9]10。
通过分析发现,人文科学论文引用的图书较多,基本在70%以上;社会科学论文引用论文的比例较高,基本在60%以上[5-6]。这恰恰说明了我国人文科学的发展相对社会科学而言更加成熟一些,而社会科学研究相对人文科学而言发展更快、研究更活跃一些。在对一些学科的引文类型分析中,还发现图书情报学引用网络信息比例很高,已经达到20%左右,如果从网络的利用水平或者说最新成果的利用方面,该学科确实领先于其他学科,但从学术的严谨度考虑,应当引起这个学科的警觉。其一,网络上的信息可信度值得商榷;其二,网络上的信息虽然可信手拈来,但由于可信度存在疑问,应当查阅原文或原出处,否则易养成学术的懒惰性。
4.2 重要学术论文和学术著作
在学术研究中哪些论文或著作对学术研究产生较大影响,过去往往来自于专家的推荐,但这些推荐必然存在一定局限性,也可能由于个人的偏见,使推荐图书缺乏全面性和客观性。引文索引恰恰可以补充专家推荐带来的主观性和局限性,因为引文索引产生的数据完全来自于广大作者在论文中的引用,体现了客观和全面性。
(1)重要学术论文分析。通过统计引文索引中被引论文的数量,可以发现哪些论文得到学者的关注,哪些论文在他人的研究中发挥着作用。当CSSCI研制成功五年以后,我们开始进行这方面的统计分析。统计发现,一些经典的论文,即使发表后20年、30年甚至更长一些时间,依然会被大量引用,而且会发挥越来越大的作用。例如,横跨经济学和公司财务与治理两大领域的大师级学者Michael C.Jensen在1976年发表在Journal of Financial Economics上的文章“Theory of the Firm:Managerial Behavior,Agency Costs and Ownership Structure”,在我们两次报告[8]681,[9]596的统计中均排在经济学论文引用的首位,并且被引数量逐年上升,如2000年被引只有10余次,2006年已上升到110多次。在我们所进行的论文学术影响力统计分析研究中还发现这样一种现象,在我国人文社会科学领域,国外具有很大学术影响的论文即使发表了十年甚至几十年,依然对我国学术研究产生很大影响,而国内具有较大学术影响的论文,发表五年以后,其学术影响力会逐渐减弱。
这样的分析结果说明一个问题:在我国人文社会科学领域,目前的学术浮躁之风较盛,一些评估体系催生了大量学术垃圾的产生,十年或数十年磨一剑的研究,已被按成果数量评价学者的评估体系所“击垮”。学界越来越迫切地需要能够经得住时间考验,并具有较强学术影响的精品出现。
(2)重要学术著作分析。在人文社会科学领域,著作的影响要大于论文。学者也更看重专著的出版,许多作者在论文发表后,还会将其归集到一本书中出版。因此,讨论图书在人文社会科学中的学术影响,具有十分重要的意义。引文索引为我们发现重要学术著作提供了非常客观的数据,我们也为此进行了大量研究。
2007年开始,我们正式启动了“中国人文社会科学图书学术影响力”的研究,并出版了158万字的《中国人文社会科学图书学术影响力报告》[9](以下简称《报告》),在《报告》中,我们推出了对中国人文社会科学产生较大学术影响的3140本图书,该《报告》在我国国内产生了很大反响,其意义在于,这是一项基础性、开创性的研究,为我国哲学社会科学研究提供了更为有效的参考资源,向学者推荐应当阅读的学术著作,帮助图书馆或研究机构补充馆藏。推动出版社注重学术著作的出版,促进我国哲学社会科学研究的繁荣等。这也是首部全面评价我国人文社会科学图书学术影响力的大型专著。
从《报告》中得到了很多有学术价值的信息:①政治家(领袖)著作对我国人文社会科学研究的指导作用凸显,这也是我国人文社会科学研究区别于他国的显著特征;②哲学、政治学、经济学、管理学等学科的国外经典著作对我国许多学科研究产生重要影响;③我国学者对国外原著的阅读缺乏,大量的阅读来自译著;④我国近30年来人文科学的经典著作尚显缺乏,在人文科学中引用较高的著作基本是30年以前出版的,社会科学被引用次数较高的著作主要在世纪之交前后出版。
4.3 学科研究热点和趋势分析
借助引文索引分析学科研究热点和趋势,是一个非常有效的途径。借助CSSCI对中国人文社会科学各学科的研究热点和趋势进行了客观、科学的分析,产生了较好的效果,得到学界首肯。
(1)学科研究热点分析。借助CSSCI分析学科研究热点的思路与方法:针对每篇文章标引的关键词进行统计,出现频率较高的关键词所涉及的研究领域可视为研究热点。但考虑到只统计一年会出现许多偶然性,因此通常统计分析3—5年的关键词,然后综合分析确定研究热点。在研究热点分析方面,还注重关键词的学科属性分析,同时,也考察关键词所代表的文章的学科分类,找出学科间的研究交叉点,更加有效地确定学科研究热点。
(2)学科研究趋势分析。引文索引用来预测学科发展趋势,在我们研究之前尚未见过报道。因此,我们尝试利用CSSCI进行了各学科研究趋势的分析,即未来几年研究热点的预测。采取的方法是,建立CSSCI来源文献中关键词数据仓库,包含有关键词、标引关键词的文章学科、标引各关键词的文章发表时间、各学科领域研究半衰期(根据数据分析得到)等,并对这些数据进行多维关联,为学科研究的趋势分析奠定了数据基础。
具体分析方法为,将各关键词各年度的数量变化情况形成队列,提取数量逐年上升的关键词,记录最早出现的年份,计算最早出现年份到当前年份是否大于这个关键词所属领域的研究半衰期。如果小于这个半衰期,并且近几年该关键词也达到一定数量,则预测该关键词所涉及的研究领域在未来几年里将成为重要的研究热点;若关键词的数量虽然在上升但还有差距,可预测为潜在的研究热点;若等于这个半衰期,说明该研究领域正处在高峰阶段,再有一两年将会脱离热点研究领域;若大于这个半衰期,说明该研究领域已经不再是研究热点了。这个预测较为成功,例如2006年,我们对图书情报研究领域的预测[10],当时根据这个算法得出结论:“图书馆自动化”研究领域将成为过去;“数字图书馆”在未来十年内仍将会是图书情报领域的研究热点;“本体”、“语义检索”、“网格”、“网络计量学”等将成为未来几年的研究热点,这些预测都和后来的研究发展相一致。
4.4 学术网络建立
通过学术网络可以发现学术研究中的许多特征和规律,探索学术研究中存在的各类联系关系,对科学研究的发展、繁荣科学研究、探索学科之间的关系都具有促进作用,同时对增进学者间的联系与合作、推荐学术资源的阅读也具有一定现实意义。可以认为,引文索引是探索学术网络最恰当的工具或平台之一。
近十年来,我们利用CSSCI进行了许多有关学术网络的研究。例如,利用作者之间的相互引用关系,构建了作者引用网络,借此发现同领域学者群以及各领域的核心学者;再如,借助期刊间的引用关系,建立了期刊引用网络,并发现同一学科、不同学科之间的期刊中论文的引用关系,由此还发现了一些期刊存在的学术不规范行为,如相互间的互惠引用、期刊间建立引用联盟的循环引用等;为了探寻机构、作者之间的合作研究状况,我们根据论文合作作者数据建立了作者合作网络、机构合作网络、地区合作网络,以此发现合作研究群体、跨机构的合作研究群体等。
5 结语
引文索引诞生之初,是为了建立文献之间的联系关系,发现科学的源流,以后逐渐引申了科学的评价功能。但在我国,学界更多地把它看成是评价的工具,因此,说到引文索引,就把它和评价联系在一起。实际上,引文索引最重要的功能应该是三个方面:探索科研规律,促进科学研究;科学引用数据,分析评价成果;分析学科特征,指导规划管理。这也是我们当初建立中文社会科学引文索引(CSSCI)的初衷。
自CSSCI创建以后,我们利用CSSCI在引文分析方面做了大量研究,撰写此文的目的也是希望学界注重引文索引的学术价值,更多地利用引文索引探索我国人文社会科学的研究特征,从而促进我国人文社会科学更加健康和繁荣发展。
标签:中文社会科学引文索引论文; 学术价值论文; 文献回顾论文; 网络热点论文; 论文; 文献检索论文; 中国社科院论文; 文献综述论文; 外文文献论文;