测定核心期刊的新方法——主成分分析法,本文主要内容关键词为:新方法论文,分析法论文,成分论文,核心期刊论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 主成分分析法测定核心期刊的必要性
目前,测定核心期刊方法采用最多的是布拉德福测定法、引证法、文摘法等。但利用布拉德福测定法测定核心期刊对于期刊登载论文较少而却是对口的期刊来说就有可能排除在外;文摘法测定核心期刊时由于一此小型专业期刊,相对载文量少,被二次文献摘录少,但它的载文质量高,有权威性,却被排除在核心期刊之外,另外,文摘员也具有一定的人为主观性;引文法也有其局限性,有些期刊被引证次数低,未必质量不高,因为被引证次数受一些因素(例如:正文使用的文种、出版者地位、专业范围、论文数量等)的影响,从而影响测定的可信度;流通率法根据期刊流通状况衡量其质量,确定核心期刊,只能鉴别本馆既有期刊的质量,受本单位、本地区的局限,且存在相同读者间的重复借阅,借了不用和指导性期刊的借阅次数少等情况,因而其统计结果也不能全面反映实际情况。由于在测定核心期刊时,单一使用任何一种方法都可能造成某些方面不同程度的片面性,因为客观事物具有多种属性、多个侧面,各个侧面是互相联系、互相制约的,且各自的重要程度不一,如只从一个角度,只依据一个方面对客观事物进行评价,片面性在所难免,因此单一使用上述任何一种方法确定核心期刊都不够理想。
罗式胜的《核心期刊综合鉴定法探讨》一文中提出“综合鉴定法”。所谓“综合测定法”就是利用布拉德福法、引文法、文摘法、流通率法分别测定出四个核心期刊子集S[,1]、S[,2]、S[,3]、S[,4],然后以这四个子集的逻辑和S[,1]∪S[,2]∪S[,3]∪S[,4]作为所要测定的核心期刊。综合测定法的思路对人很有启发。它力图克服片面性,兼顾期刊载文的数量和质量,是很有实际意义的。但按该方法得出的逻辑和中以载文质量为基础的引文法测出的核心期刊子集同以载文数量为依据的布拉德福法测定出的核心期刊子集处于同等地位,这又不符合客观实际。按理说,运用引文法比布拉德福法失真度要小,可信度相对要大。运用综合法要区分出这两种不同类型方法所起的不同作用,设法将测定出的核心期刊的虚假部分除掉,是很困难的。而要使综合法臻于完善,应考察各种方法测定时各自所占的地位及所起作用的大小。基于以上认识,试提出测定核心期刊的新方法——主成分分析法。
2 主成分分析法的基本原理
在实际中讨论统计问题时,为了获取充分的信息对问题作出较为可靠的推断,我们往往选择许多个指标进行观测,而这些指标甚至会多到十几个或几十个,因为每个指标都在不同程度上反映所研究问题的信息。但是指标个数太多常常会增加对问题分析的复杂性。因此,人们自然希望选取的指标个数较少而得到的信息量较多。在许多情况下,这些指标之间有一定相关关系。当两个指标有一定相关关系时,可以解释为这两个指标反映的信息有一定的重迭。于是,从数学上考虑,就是要求这样一种数学方法,对原来提出的p个指标综合成尽可能少的m个综合性指标,且要求这m个指标既能充分反映原来的p个变量反映的信息,又能使这m个综合变量之间互不相关,从而运用这m个综合变量进行样本的综合评价。
设有p个指标n个样本的观察值,共有np个数据,形成原始指标数据矩阵X,即:
这样p个指标经过数学处理,就压缩为m个互不相关的综合指标,它是X的线性函数,所以每个主成分都含有尽量多的原始指标信息,从而使问题的分析大为简化。
现在我们可以根据这m个综合指标,对样本进行综合评价。也就是要把这m个指标再综合为一个评价值,以它的大小作为比较样本的依据。由于各主成分反映原始信息量的作用不同,因此计量样本的评价值的地位也有区别,即所占的权重也是不等的,自然可以用各个主成分的贡献率K[,i]来作为与W[,i]相对应的权值。那么,样本的综合评价值的计算式为:
3 主成分分析法测定核心期刊的步骤
根据前述原理和测定核心期刊的10个常用指标(载文量、被引量、引文量、影响因子、即年指标、自引率、被自引率、出版周期、流通率、文摘量),运用主成分分析法测定核心期刊的步骤如下:
(1)收集原始数据 选用某一专业有关的尽可能所有期刊作为考测的样本,并采用以上10个指标,统计并且计算,构成一个统计数据矩阵X。
(2)原始数据标准化,并计算相关矩阵 由于X[,i]代表不同性质的指标,因而其计量单位一般也是不同的。为了消除不同单位的影响,使各个指标具有可比性,以利于主成分的含义解释,对搜集的原始数据应进行标准化处理,使其平均为零,方差取1。令:
4 主成分分析法测定核心期刊存在的几个问题
(1)样本的选择和指标的设置 科学地设置指标体系,合理地选择样本乃是准确地测定核心期刊的前提,也是测定中的关键之一,其中的一个问题是可比性。
首先,要考虑期刊之间的类同性。比较期刊应选择类型、性质等基本类似的期刊。其次,要注意指标选择的可能性和相对性,应较多地采用相对比较指标。再次,要注意指标之间的同向性。一般地说,指标值的大小对期刊的作用存在两种相反的情况,一是其值越大越好,二是其值越小越好。为了使指标之间具有可比性,必须把所有指标都表示为同一方向。
(2)数据的收集 为了使测定取得较好的效果,并符合实际,需要有充足的样本容量,一般样本个数应大于指标项数,如能大到二倍以上则更为理想。如果样本个数少于指标数,则测定效果可能不大显著。
(3)数据处理 对于主成分分析法来说,样本和指标的数量多,从而数据也多,但计算方法比较单一和规范,便于将计算结果程序化,而运用计算机编制一小程序,可用于处理数据,从而简化了许多的手工计算。例如,可以参考运用蒋耀松编撰的《多元统计分析方法》一书附录部分的“主成分分析子程序”。
5 结论
(1)常用的测定核心期刊的方法总是存在着这样那样的局限性,从而在测定中影响着结果的可信度。
(2)主成分分析法从测定核心期刊的众多指标中,选择出起决定作用的若干指标,作为测定的主成分。运用这几个主成分测定核心期刊,方法简单,可以包含所有原始信息量的85%以上。
(3)主成分分析法通过原始数据计算出新的矩阵C和R的特征值,从而可以计算出能够获得计算综合加权主成分的权值,进而得出期刊的综合评价值。根据这些评价值的大小可进行排序,从而确定出核心期刊。
(4)由于在统计中存在着许多问题,例如:馆藏的完备程度等,而且统计量非常大。故本文没有从具体的数量上进行论述,只是从数学的角度考察了它的可行性。希望有兴趣的同仁们能来验证这一方法的可信度。