论我国学术期刊文献计量评价体系的客观性与评价结果的准确性_评价指标体系论文

我国学术期刊文献计量评价体系的客观性与评价结果的准确性探讨，本文主要内容关键词为：客观性论文,评价体系论文,文献论文,学术期刊论文,准确性论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

长期以来，我国的学术评价一直奉行“专家评审”制。这种以定性为主的评价方法有它的优越性，但也有明显的不足。评价行为往往会受到组织者的主观倾向、评委的产生程序以及评委自身的人际关系、学术水平、道德水准等多重因素的制约[1]，评价的主观性和随意性较大，学术评价机制不尽如人意，评价制度不健全。同时，作为学术评价的一部分，衡量学科众多的学术期刊的学术水平也是一件比较专深而且复杂的事情，需要大量的专家学者、良好的学术环境、组织者和同行专家投入大量的时间和精力。即使在一些发达国家，也没有出版管理部门制定衡量该国学术期刊学术水平的客观标准[2]。

科学的期刊评价体系必须建立在一定的理论基础之上，定性评价与定量评价相结合，定性是定量的前提和依据，定量是定性的基础和准确化，定量评价指标为同行评议公平合理性提供参考依据，提高了期刊评价结果的客观性和准确性。

1 文献计量评价体系是期刊评价的主要内容

作为文献计量学研究的重要组成部分，期刊评价对学术期刊的发展规律和增长趋势进行量化分析，揭示学科文献数量在期刊中的分布规律[3]，为优化学术期刊的使用提供重要参考。期刊评价理论与实践源于国外。美国著名情报学家加菲尔德博士在20世纪60年代对期刊文献的引文进行了大规模统计分析，得到了大量被引用文献集中在少数期刊上，而少量被引用文献散布在大量期刊中的结论。引文分布规律开创了文献计量研究的新时代，也是期刊评价的理论基础之一。

在我国，核心期刊的遴选和评价活动开始于20世纪70年代，随着我国文献计量学研究的深入和应用的日益广泛，文献计量学方法被越来越多地应用于测定核心期刊。经过30多年来不断发展和完善，我国建立了比较完备的评价指标体系，并相继编制了评价报告，期刊测评工作取得了很大的成就，并扩展用于科研成果评价和期刊编辑水平的评估，在学术界、科研管理部门和期刊界都得到了认可。如北京大学图书馆研制的《中文核心期刊要目总览》（以下简称《总览》）、中国社会科学院文献信息中心研制的《中国人文社会科学核心期刊要览》（以下简称《要览》）和南京大学社会科学研究评价中心的《中文社会科学引文索引》（以下简称“索引”）。《总览》、《要览》、《索引》等，都是大规模地采用文献计量学方法对学术期刊进行统计分析和研究的结果。尽管各家研究机构选定核心期刊的方法、评价指标不完全相同，但都是以布拉德福文献集中与分散规律为理论依据，并建立在期刊文献数量分布的基础之上的[4]。

期刊文献计量评价体系由评价理论基础、评价方法、评价指标体系等构成。尽管同其他任何事物一样，期刊评价不可能尽善尽美，存在着局限性，但它仍然得到了社会的认可，被广泛用作评价期刊质量和学术水平的标尺之一。这是由期刊评价理论基础的经典性、期刊评价指标体系的客观性、评价方法的科学性，及由此得出的评价结果的可靠性所决定的[5]。

图书情报部门对期刊评价的本质是一种文献统计的定量方法，其遴选标准以期刊中所载信息量的多少及其被使用情况为主要指标。期刊评价指标体系中所采用的以表征期刊信息数量的载文量和表征期刊学术影响力的总被引频次、影响因子、即年指标等指标的确定，增强了文献信息集中与分散规律的可信度，并能有效地凸显文献信息的核心区的范围[6]。某学科核心期刊的排序代表着该学科期刊信息量大小的排位，而学术期刊能否成为核心期刊是根据遴选规定的某一特定时期的文献计量指标值的变化而变化的。

2 期刊文献计量评价体系的构建及其客观性分析

历经30多年的发展，目前核心期刊研究呈现出多种评价方法、多种评价标准、多种评价指标体系并存的状况。尽管核心期刊选定方法多种多样，但都是利用文献计量学方法按照一定的步骤和标准来确定的。研究方法相对稳定，定量与定性相结合，评价数据不断丰富，研究成果多、影响大等成为核心期刊研究的特点。在筛选标准上，以数量为主要依据，定量评价明确、具体的同时，又辅以专家的定性评价，实行定量与定性的结合，这样既避免了单纯依靠统计数据的局限性，引文的不确定性和复杂性，又在一定程度上避免了单纯定性评价存在的随意性、主观性。核心期刊上所刊载的论文，也因为它们大多都经过了专家评审，且被选用率、转载率都是统计分析的结果，其质量相对来说具有一定的保证[7]。

2.1 期刊评价的统计源刊

作为评价的数据来源，统计源刊的选定，直接影响到评价结果。因此，选作统计源的必须是学科全面、选刊恰当、编辑规范、数据准确、卷期齐全、用户量大、权威性高、统计方便的期刊。虽然目前各种文献数据库较多，但质量参差不齐，必须对它们进行认真的比较、分析和鉴别，从中选出较为合适的作为评价指标统计源，才能保证评价的结果具有相当的可信度和合理性[8]。

2.2 期刊评价指标体系

评价指标体系是期刊评价工作中最重要的环节之一，它决定着期刊评价成功与否。随着我国期刊评价工作的开展，建立科学合理的评价指标体系是评价结果产生的基础，是期刊评价中极为重要的环节，也是各评价单位共同关心的问题。按不同属性，指标可分成各种类型，如数量指标与质量指标、基本指标与特色指标、软指标与硬指标等[9]。目前，在期刊评价中，存在着指标的选择过少或过多、数据是否可靠、指标是否能引导期刊质量提高等几个问题。显然，评价指标过少或过多均不合适。指标过少，不能完整反映期刊的真实情况，难免片面；指标过多，则烦琐，采集数据困难或不可能，且可操作性差。在众多能反映期刊学术质量和水平的因素中，应该选择那些核心效应明显、统计源收录全面完整、可采集的、具有可操作性的因素作为评价指标。

目前，我国的期刊评价一般选用载文量、总被引频次、影响因子、即年指标、他引总引比、被引半衰期、基金论文比等评价指标。如，《总览》（2004年版）核心期刊评价指标体系由七个评价指标组成：被索量、被摘量、被引量、它引量、影响因子、被摘率、获奖或被重要检索工具收录；《要览》（2004年版）评价指标有七个，分别是：期刊总被引、影响因子、期刊即年影响因子、学科自引量、学科载文量、引文率、摘转率，最后由专家鉴定；《索引》（2008年版）的评价指标主要有三个，分别是被引量、影响因子和专家评审。以上多数评价指标是国际上进行期刊评价时所惯用的指标。实践证明，这些指标能够客观地反映出一次文献在期刊中的分布规律、二次文献的分布规律和引文分布规律[10]。

2.3 定性与定量相结合的评价方法

在期刊评价中，定性评价就是请学科专家根据学科知识和用刊经验，对期刊作出各种等级的评价。这是传统的对期刊进行评价的一般方法，其优点在于权威性高，缺点是专家的个人主观意识和偏见会影响到评价结果的客观性。另外，由于专家的精力有限，关注点有限，不可能了解数量庞大的所有期刊的情况，则评价时难免会有局限性和片面性。

定量评价就是通过对反映期刊内在价值的客观指标进行文献计量统计，根据分析的结果对期刊进行排序和评价。从理论上讲，定量评价应该是最理想的评价方式，但事实上，由于评价方法的选择、评价指标体系的建立及指标权重的赋值多少带有主观性，因此评价结果并不完美。而且，评价方法和评价指标本身会存在某些固有的局限性，这些都会影响到统计数据的客观性，进而影响到统计结果的准确性。因此，在定量评价的基础上，请学科专家对评价结果进行定性的评审，纠正偏差，才能得到更为符合客观实际的评价结果。定量评价和定性评价相结合，优势互补，才能够提高期刊评价结果的客观性和准确性[11]。

2.4 期刊评价中的学科划分

学科的划分对核心期刊评选结果有很大影响，学科划分过大，小学科学术性强的期刊会被淹没，学科划分过细，小学科的一般性期刊就会进入核心区。因此划分学科时要考虑多种因素，如：学科类目的科学划分、学科的期刊数量、期刊的性质等。学科类目划分既不能太粗，又不能太细，以保证学科核心期刊表的合理性、准确性[12]。

国内的期刊评价机构多是采用《中国图书馆图书分类法》为学科分类基础，虽然它的学科体系有些部分已经滞后于科学技术的发展和学科自身的发展，但因为我国多数文献检索工具都采用《中国图书馆图书分类法》对期刊文献进行分类。为了能采集到分学科的统计数据，各评价体系仍然采用其学科体系划分学科。另外，学科分得过宽或过细都会对备选期刊的数量产生影响，特别是人文社会科学论文涉及题材广泛，综合性和跨学科趋势明显，学科分得过细会出现论文归类不合理的现象[13]。

2.5 期刊评价结果的动态性

采用不同评价指标体系和权重，得到的评价结果也是不相同的，有的差别还很大。核心期刊的数量是根据需要确定的，因此根据不同评价需要得出的核心期刊表是不同的；由于期刊是不断发展的，统计数据是动态变化的，因此期刊评价结果也是动态变化的。此外，统计工具总会存在这样那样的问题、筛选方法总是有这种或那种缺陷，因此综合筛选结果也不会完全理想，实际筛选结果只能从总体上反映学科期刊的状况。可见核心期刊表的数量和排序都是相对的，不是绝对的[14]。

2.6 期刊评价中统计数据的累积性

从期刊评价指标体系中的载文量、影响因子、5年影响因子等指标看，各期刊要有较长时间的统计数据才能反映该刊在一段时间内的文献发布和学术影响力水平。此外，从统计学角度看，极小的数量差异可能是由于偶然因素造成的，不具有实质性的统计意义，被评价的两种期刊的同一指标数据相比，如果仅有很小的差异，并不一定确实表示他们之间的质量差异。因此统计的样本要大，统计数据才能有意义[12]。

3 期刊文献计量评价结果的准确性剖析

3.1 期刊评价结果具有较高的可信度

首先，从期刊评价的理论基础来看，文献计量学的三大经典理论，即布拉德福的“文献离散定律”、加菲尔德的“引文分析体系”、普赖斯的“文献老化指数和研究峰值理论”，共同构成了“核心期刊”的理论基础。在此理论基础上进行的期刊评价无疑具有科学性。

其次，从期刊评价指标体系来看，目前我国的期刊评价一般选用能表征期刊发文信息的载文量、基金论文比等指标，能表征期刊学术影响力的总被引频次、影响因子、即年指标、他引总引比、被引半衰期等指标，能表征第三方评价效果的二次文献转摘或被重要数据库收录等指标。这些指标也是沿用国际上进行期刊评价的惯例。实践证明，这些指标能够客观地反映出一次文献、二次文献和引文在期刊中的分布规律。

再次，从期刊评价采用的具体方法来看，在期刊评价过程中，普遍采用了求逻辑和法、加权平均法、模糊数学法、主成分分析法等统计学和数学的方法对数据进行处理。因此，核心期刊的评价属于理性的定量评价范畴。

最后，从期刊评价的结果来看，由于建立在文献计量学的经典理论基础之上，又采用了科学的评价指标体系和数据处理方法，其评价结果也必然具有较高的可信度[14]。

但同时，我们也应认识到，基于文献计量学的核心期刊评价有着一切量化评价本身都不可避免的局限性。“核心期刊”最早被发现并使用于图书情报领域，其最初意义只是反映特定学科相关论文的分布情况，属于文献计量学范畴。核心期刊中的“核心”指的是信息情报的集中区，是一个数量概念（其中也涵盖了一定的质量因素）。另外，期刊的评价主要采用文献计量学的方法，是统计学意义上的评价。“由于统计工具（检索期刊或数据库）总是存在这样或那样的问题，筛选方法总是有这种或那种缺陷，因此实际筛选出来的核心期刊只能从总体上大致反映学科期刊的状况”[11]。不同的期刊评价机构也承认，采用不同的评价指标体系和评价方法，得出的评价结果也是不同的[15]。但这种局限性是任何评价都不可避免的，期刊评价也不例外，尤其是在操作层面上出现的问题，更是在今后的评价实践中应该尽力避免或尽量控制在最小范围以内。

3.2 来源刊未经评价主体的严格遴选

在来源刊的遴选方面，国内的评价机构所采用的统计源多是借用现成的电子数据库资源，如，中国学术期刊（光盘版）电子杂志社研发的清华同方《中国知网》，万方数据股份有限公司研发的万方数据，重庆维普期刊全文数据库等，没有经过评价机构自己的严格遴选标准，部分期刊可能不太符合评价的要求，如科普类期刊，它们不符合期刊评价对象学术性的要求。

3.3 期刊评价方法中存在的缺陷

目前，国内外对期刊评价采用的理论依据主要是布拉德福定律，但该定律只是一个统计经验公式，必然存在一定的缺陷，这就使得核心期刊评价理论具有不完备性和不充分性[16]。如果评价方法本身就存在着不可克服的缺陷，那么评价结果则不可避免地会在一定程度上有失精准和公信力。如，载文量法的缺陷在于只以数量取胜，那么选出的刊载文献数量大的期刊作为核心期刊，结果必然有失偏颇。又如，引文分析法也有一定的缺点，即源期刊的数量及选择是否恰当，不同学科被引的峰值出现的时间不同、文献老化的速度不同，不同类型文章的引用数量存在着很大差异，引文本身的缺陷：不恰当的自引、批判性引用等，都影响到引文分析的可靠性。

3.4 核心期刊评价中的测定标准和规范化问题

在核心期刊测定中，确定一个恰当的临界标准十分重要。例如，在采用累积百分比法测定核心期刊时，通常将标准定为80％；文摘法的标准一般定为70％。无论采用哪一种定量测定方法，都必须要有足够的有代表性的数据支持，并且在数据来源的选择、统计指标和范围的确定、时间跨度的长短、数据量的大小、基本步骤的操作、结果的检验和分析等方面，都必须按照一定的标准、规范和要求来进行。然而，在我国目前的核心期刊测定中，有的仅选择几种母本期刊，有的只统计一年的样本数据，不仅数据量很小，而且缺乏代表性、可比性和权威性；在操作方面也不规范，标准不统一，随意性和偶然性很大[17]。

其次，核心区和非核心区之间的界线往往很难划分，处于核心期刊与非核心期刊临界点的期刊的质量往往不相上下，加上核心期刊的截取量一直是学术界的一大难题，而正是这个量的多少决定着核心表对某种或几种期刊的取舍。因此，核心期刊与非核心期刊的论文质量并非存在绝对的差异，学术界应该对此保持理性的认识。

3.5 期刊评价指标体系

有关期刊评价的指标主要有：总被引次数、影响因子、即年指标、载文量、基金论文比、被引半衰期等。观察期刊评价指标体系不难看出，载文量、影响因子、被引半衰期、总被引次数等，都可以归为科研产出率和学术影响力两类。反映科研产出率的载文量指标可以体现出期刊能够容纳的论文数，而影响因子、总被引次数等反映学术影响力的指标则体现期刊刊载论文受关注的程度。期刊发文数量达到一定的积累才能引起期刊论文学术影响力，即期刊质量这个质的飞跃[14]。从文献收集、读者利用的角度来选刊，当然就要同时考虑文献的数量和质量。但从评价指标的性质来看，表征期刊发文数量的载文量、基金论文比，与表征期刊学术影响力的总被引频次、影响因子、即年指标、他引总引比等表明，“核心期刊”遴选不是纯粹对期刊质量的评价，是留有数量和质量两种基因的混合物[16]。如果某刊载文量较大，那么这一指标在某些期刊评价体系中就会发挥数量上的优势作用，产生由量变到质变的效果，有时甚至会起到决定性的作用。

此外，我国学术期刊的引文还不够规范。据《索引》的有关统计，1998年期刊发表的论文中，没有任何引文的占收录文章的40.6％，而那些有引文的论文，却又程度不同地存在着不规范的现象，从而大大地影响引文分析的准确性[18]。而用而不引、引而不用、错引、否定引用等不规范的引用行为，均影响了对期刊论文学术质量的判断，暴露出引文分析方法本身就存在着的一些先天性不足之处[16]。

4 期刊文献计量评价体系的完善

4.1 良好的学术环境是期刊评价的重要保障

一般来说，目前国内外的期刊评价主要有两种方式：一是采用同行评议制度，即专家的定性评价；另外一种就是采用文献计量学方法进行的统计学意义上的期刊评价。由于我国处于社会转型期，还缺乏良好的社会信用制度、公众参与意识与公民科学素养，伴随着科研绩效评价机制的不健全，我国还不具备有效地进行同行评议与社会公议的社会基础与制度保障。因此，后一种方法因其可行性与可操作性，成为目前国内主要的期刊评价方法。图书情报部门对核心期刊遴选评价的本质是一种文献统计的定量方法，其遴选标准以期刊中所载信息量的多少及其被使用情况为主要指标。而健康的学术环境与规范的成果发表机制的建立，也是目前我国进行发文统计与引文分析评价的首要工作，舍此则等于舍本求末。如果我们能营造良好的政策环境、社会环境与学术环境，期刊评价、学术评价的实践必会取得长足发展，评价理论研究也会趋向科学化。

4.2 期刊评价指标的设计要避免数据上的人为操作

核心期刊的筛选只是从客观上反映了学术文献的一种非平衡分布状态。但是，目前期刊评价的直接后果之一就是，人们关注的焦点不再是如何选择那些真正的、原创性的优秀成果论文，而是如何有针对性地提高期刊的各种统计参数，从而提高期刊的各项指标。这样导致的一个最严重的后果，就是大量“学术泡沫”的产生。这样，也使得学术期刊界原本有序的自由竞争变得非常的不公平，受学术上“马太效应”的影响，学术资源的分配和流向完全为所谓的期刊评价结果所左右[19]。在少数“核心期刊”不断发展壮大的同时，还有很大一部分期刊还在谋求生存之道。这些社会问题的存在，为期刊评价的可持续发展提出了新的课题。如何获取真实意义上的期刊文献被使用的统计数据，而又能科学地纳入期刊评价指标体系，如何选择能反映期刊学术影响力的评价指标，而又能避免被评价对象对统计数据的人为操作？这是今后期刊评价主体要思考并解决的主要问题。

4.3 人文社会科学类期刊评价应突出本土化

人文社会科学研究成果评价与自然科学成果评价的不同之处，在于其明显的本土化与区域性特点。自然科学知识不分国界，科研成果评价方法也较容易直接借鉴国外经验，但是在人文社会科学成果评价领域，简单地移植国外评价方法则难以奏效，甚至会出现事与愿违的结果[20]。人文社会科学评价几乎不可能使用单一量化标准，因为社会科学评价涉及价值判断、时间（历史）判断和性质判断，这些都无法量化。社会科学评价需要时间的积淀和历史的评价[21]。无论在学科建制方面，还是在科学研究的规范与科研活动的管理方面，我们都缺乏必要的历史积淀与文化土壤。这也许就是无论国外的“同行评议”还是“文献计量”评价方法移植到国内都会失去评价的有效性，甚至还会出现一系列负面的社会效应（如学术失范、抄袭剽窃、学术浮躁等）的深层原因。

目前，各学术期刊大多采用的是《中国学术期刊光盘版》的著录规范，从实际效果来看，这个规范只是有利于计算机识别和统计，并不符合学术研究的规范，尤其不符合中国人文社会科学学术规范。这种漠视人文社会科学引文著录的特点，使学术期刊完全量化管理方式的合理性遭到了质疑和批评。“从深层次看，极端的量化管理方式所推崇的是片面的、技术至上的工具理性。这种管理方式忽视了人文社科期刊的文体特点[22]”。

另外，期刊评价采用的引文分析在人文社会科学评价中也遭遇了瓶颈。人文社会科学学术期刊的学术影响力主要是看其刊载的文章被其他研究者引用并推动知识进步的情况，但我国人文社会科学研究者利用参考文献的习惯与引文规范意识的缺失又使文献计量与引文分析方法的科学应用进展缓慢。与国外社会科学家严谨的学术研究方法与规范的引文习惯不同，近年来国内许多人文社会科学研究者认为参考文献是可有可无的而不屑一顾。这是与我们长期形成的学术规范意识的缺失分不开的。

我们应尝试从更宽广的研究视角对人文社会科学学术期刊进行评价，其评价指标不仅包括学术界内部的评价，还涉及成果的社会与经济效益的评价；不仅采用同行评议方法对成果的直接指标进行评价，还采用文献计量方法对成果的间接指标进行定量评价。

4.4 学术论文网络化数据评价平台的搭建

信息化和网络技术的飞速发展，为微观学术评价系统的建立提供了技术基础。国家可通过制定相关法规与技术标准，进一步加速我国学术期刊数字化水平，并成立有关的研究、管理机构，搭建网络化学术论文传播平台和数据评价分析中心，同时要建立科学的学术论文评价体系，通过对各种评价指标的统计分析，定期发布有关结果，从而为学术评价提供科学依据[23]。

4.5 期刊评价指标的发展与国际化

各评价体系正在不断汲取新的东西，充实和完善自己的评价体系，如有的已经注意到文献老化速度对影响因子的影响，并增加了相应的评价指标，如5年影响因子等；有的也已经对网络时代电子期刊的出现与评价给予关注，在评价指标中已经增加了如Web下载率等新的评价指标。

由清华大学图书馆和中国科学文献计量评价研究中心联合研制的《中国学术期刊综合引证报告》提供的评价指标有：总被引频次、影响因子、5年影响因子、即年指标、他引总引比、被引半衰期、载文量、基金论文比、Web即年下载率和引证指标分类平均值。2006年又增加了“被引期刊数”和“h指数”两项新指标，特别是后者，反映了它们对国际文献计量领域研究前沿的跟踪和探索[24]。

数字化时代在丰富了文献计量学研究手段的同时也赋予了它更多的新内容，期刊评价也是随着不断发展和完善的，评价指标、评价方法和评价体系也应该是不断创新和改进[25]。

5 结语

当然，任何科学的理论和方法都存在着局限性，期刊文献计量洋阶也不例外。总之，我们不能否认文献计量评价的科学性、适用性，也不能否认其局限性，只有这样，才能科学地、充分发挥文献计量学在科学研究、管理、评价上的积极作用。

随着期刊的网络化传播，对于网络读者来说，由于阅读的范围非常广阔，所以，他们关注更多的是论文内容而不是所载的期刊，而学术期刊的读者很大程度上同时又是作者，这无疑从客观上为所有的期刊创造了一个平等竞争的空间。今后，在期刊评价理论的研究方面我们需要更好地与国际研究保持一致，同时结合我国期刊工作的具体实践，及时补充适应Web环境下的新的评价指标，注意评价指标体系设置的科学性、合理性、完整性和可操作性，以促进我国期刊评价的可持续发展。

收稿日期：2008-11-23

修回日期：2009-02-27

标签：评价指标体系论文; 文献计量论文; 文献论文; 学术期刊论文; 文献分析法论文; 定性指标论文; 影响因子论文; 评价体系论文; 客观性论文; 核心期刊论文; 科学论文; 人文社科论文;

论我国学术期刊文献计量评价体系的客观性与评价结果的准确性_评价指标体系论文

猜你喜欢