共链与共引聚类的实证对比研究,本文主要内容关键词为:实证论文,引聚类论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2011-05-22
0 引言
20世纪90年代中期,伴随着网络技术的快速发展,网络资源数量急剧增加,使得传统的文献计量学等已无法适应网络信息的测度和计量,这就促成了一种新型的网络信息计量工具的应运而生,即网络计量学的诞生。网络计量学被认为是传统文献计量学在网络这个媒体上的延伸,文献计量学中的多种手段都可以应用于网络中。在网络文献逐渐多样、快速和普及化的今天,网络计量学研究方法也日益受到重视。在这些方法中,较为突出的就是共链分析,相对应的就是文献计量学中的共引分析。
1 研究背景
网络计量学作为文献计量学的一个新兴分支,其与文献计量学的关系也是较早被提出的一个特征。国际知名学者Mike Thelwall曾综述了近50年来文献计量学的发展历程,其中对网络计量学也进行了深入研究,介绍了多种网络计量学与文献计量学的研究方法和应用情况,其中包括了共引分析和共链分析[1];国内中国科学院文献情报中心周倩从分析共链与共引的关系入手,对共链分析方法及应用展开研究[2]。
除了以上对共链与共引的理论探索外,国外还曾进行过不少共链分析的实证研究,证实了共链分析在竞争情报中具有一定作用。加拿大著名学者Liwen Vaughan等人通过对企业网站间链接动机的研究发现,企业网站上的大部分链接是出于商业目的而设置的,因此,链接可以作为企业竞争情报挖掘的工具。但是,绝大多数企业网站都不与其竞争对手的网站相链接,它们却往往同时被第三方网站链入。由此可见,企业网站间直接的链接关系并不能为企业竞争情报提供有价值的信息,但是,企业网站间的共链频次却可以用来度量这些企业在经营范围、产品种类等方面的相似性,从而揭示企业间的某种竞争关系[3]。其在具体的研究中采用了技术内容关键词与网络共链分析结合的方法对全球WiMAX技术情况进行了聚类分析,证实了该方法的可行性[4]。在国外网络计量学研究蓬勃发展的带动下,近年来,我国网络计量学的研究也逐渐兴起,并出现了一些针对于具体技术的网络计量学研究。如周秋菊等人对纸业公司进行共链聚类分析[5]。但纵观国内外的研究,虽然从技术角度采用了网络计量学共链分析,但都未曾实质性地对比研究文献计量学共引分析与网络计量学共链分析的关系,也未就技术专利、学术论文和网络文献三者的研究结果相互印证。笔者曾对论文与专利的文献计量学做过多次研究[6-7],发现了两者在产业公司与学术机构的共引聚类上既有相似性,也存在差异性。而这些产业公司与学术机构恰恰也可以进行网络计量学的共链分析。因此,希望将其共引结果与共链分析结果进行对比研究,以寻求两种方法的相通性。同时也将针对技术专利、学术论文和网络信息三种不同文献形式之间的聚类进行探讨,探索三者之间的互补性。
2 研究方法
为了与之前的技术专利与学术论文共引结果比较,首先要进行相同技术的网络计量学共链分析研究,然后将其聚类结果分别与技术专利与学术论文的共引聚类结果横向对比,以发现两两之间的关系。之前的研究采用了固体氧化物燃料电池(SOFC)作为研究技术,因此,本研究继续沿用该技术。
2.1 共链分析的对象选择 网络计量学是对网络信息的统计分析,对于技术而言,较难采用技术本身进行网络计量学分析,按照国外的做法[4,8],即选取重点公司作为代表,进行技术公司的共链分析。在之前的研究中[6-7],已经分别得到技术专利方面的重点公司和学术论文方面的重要机构。从中分别选取专利被引量(或论文被引量)前20的公司、专利合作申请率(或论文合作发表率)前5的公司和专利申请量(或论文发表量)排名前5的公司作为共链研究对象。
2.2 共链分析的搜索引擎 搜索引擎是网络计量学的重要工具,其需要数据覆盖面广,功能强大。目前被广泛采用的主要是Google、MSN和Yahoo三个搜索引擎。在这三个搜索引擎中,总体上,Google的数据库数据量最大、覆盖面广、信息量大。它尽量把与关键词有关的页面都呈现给搜索者,虽广泛但缺乏精度;MSN的搜索更侧重网站,因此数据量小于Google;Yahoo的数据与Google有相似性,但其也非常重视新闻的搜索。在上述三个搜索引擎中,目前支持反向链接数据获取的只有Yahoo。因此,对于以采集反向链接数据为主的共链分析来说,研究的搜索引擎定为Yahoo。而在研究过程中发现,Yahoo全球主页(http://www.yahoo.com)也突然取消了反向链接获取功能,在对其众多不同国家的Yahoo搜索引擎进行试验后,发现英国Yahoo(http://www.yahoo.co.uk)和日本Yahoo(http://www.yahoo.co.jp)还支持反向链接功能。由于SOFC领域中较多为日本公司,因此,研究数据全部在日本Yahoo中采集。
2.3 共链分析的数据采集 对之前得到的公司和机构,分别进行两两之间的共链数据获取,并分别制作出专利代表的重点产业公司和论文代表的重点学术机构的共链矩阵。在这其中,借鉴了Liwen Vaughan等人的研究结果[4],其认为在策略中加入技术关键词得到的聚类会更为准确。据此,制定了以下共链数据获取策略,见表1。
2.4 共链矩阵的数据处理 经数据采集后得到共链数据矩阵,每行和每列都对应了一家公司。第m行和第n列交叉位置的数字即公司m和公司n的共链数量。虽然该矩阵可以直接进行分析,但由于不同公司的网站规模存在差异,原始共链数据可能并不能真实反映两家公司的相关程度。为了精确测试两家公司的关系程度,将原始矩阵通过Jaccard系数进行归一化:
归一化共链数=n(A∩B)/n(A∪B)
其中,A代表链接至公司m的网页数,
B代表链接至公司n的网页数,
n(A∩B)代表同时链接至公司m和公司n的连接数,即共链数,
n(A∪B)代表链接至公司m或公司n的连接数。
举例来说,公司m和公司n的链接数分别为100和200,共链数为50,则通过Jaccard系数归一化后的共链数为50/(100+200-50)=0.2。
2.5 共链矩阵的数据分析 将归一化后的共链矩阵数据导入SPSS,进行多维尺度分析(MDS)。在SPSS中,具有两种模式的MDS分析,一是PROXS-CAL,另一是ALSCAL。其中PROXSCAL既适合相似矩阵,也可对非相似矩阵进行分析;而ALSCAL仅适合非相似矩阵。显然,共链矩阵属于相似矩阵,因此采用PROXSCAL模式进行聚类,得到网络计量学的专利产业公司共链聚类图与学术论文机构共链聚类图。
2.6 共链聚类与共引聚类的对比研究 将技术专利重点公司的网络计量学共链聚类图与相关的技术专利共引聚类图进行比较;将学术论文重点机构的网络计量学共链聚类图与学术论文共引聚类图进行比较;分别发现两两之间的相同与差异点。同时,针对技术专利与学术论文的共链结果与共引结果进行整体比较,探究共链与共引方法之间的关系。
3 实证研究——SOFC的网络计量学共链分析
3.1 技术专利代表的重点产业公司共链聚类 按照之前公司选择标准,去除重复的公司后,共有29家公司,其中一家公司没有官方主页,剩下 28家公司进行共链聚类研究。表2为这28家公司及其网址。
采集上述公司两两之间的共链数,并整理成28×28的矩阵,经归一化后导入SPSS中,得到技术专利代表重点产业公司的共链聚类图(见图1),其拟合度为0.01084。
图1 SOFC领域重点产业公司的网络共链聚类
3.2 研究论文代表重点学术机构共链聚类 按照之前学术机构选择标准,去除重复的机构后,共有20家机构(见表3),将其进行共链聚类研究。
将上述学术机构两两之间共链数量整理成20×20的矩阵,并归一化,然后导入SPSS中,得到SOFC重点学术机构的共链聚类图(见图2),其拟合度为0.00237。
图2 SOFC领域重点学术机构的网络共链聚类
4 共链聚类与共引聚类的对比分析
共引分析可以得出相关公司(或机构)在专利技术或学术研究上的竞争关系;而共链分析,则可以得出不同公司(或机构)在网络推广内容上竞争地位。因此,两者比较可以看出各家公司(或机构)在不同载体上所采取的不同策略。
4.1 网络共链聚类与专利共引聚类的比较
a.聚类构成相同个体有差异:网络共链聚类把产业公司划分成3个群,其中DELP和SIEI两家公司各为一个群,其他众多公司构成一个群;这个现象与共引聚类的结果相似,其也是两家公司单独成群(MITO和WESE),其他公司一个大群。但不同的是,独立成群的两个产业公司均不同,专利共引中的单独公司MITO和WESE在网络共链聚类里与其他公司紧密地团结在一起,反而是在专利共引大群中的SIEI脱离了出来。这个现象反映了不同产业公司在技术专利和网站内容上是有差别的。MITO和WESE在专利技术上区别于其它公司,有其独特点,但是在商业推广的网络内容建设上却采取了与其它公司相近的内容;相反,SIEI和DELP公司可能在专利技术上并不突出,但在网站内容推广上却有着自己特色,也形成了他们孤立成群的现象。
b.多数产业公司在专利技术与网站商业推广上策略相似:在两个聚类中,多数产业公司均处于唯一的大群中,且各个公司的位置都较为接近,反映出多数产业公司在专利技术与网络商业推广上采取了较为接近的内容和策略,可以认为相近技术的产业公司在网络内容建设上也会有一定程度的联系。
4.2 网络共链聚类与论文共引聚类的比较
a.聚类构成不同个体也有差异:学术机构的网络共链聚类只形成两个孤点和一个大群的三个类群,而共引聚类则形成两个孤点和两个大群的图形,两者的构成并不相同。同时,两个聚类中的各自孤点所代表的学术机构也完全不同。表明了不少学术机构在学术论文研究和网站内容推广上的视角具有不少差异。如共链聚类中的两家独立成群的机构TOHOKU和NAGOYA在共引聚类中各分别属于两个大群,表示这两家日本大学在学术研究上与某些机构相近,但在网站建设推广上却各具特色。
b.学术机构在研究与网站推广方向上存在差别:在共链聚类的大群中,各家学术机构的点较为紧密,其中多家公司几乎重复或交叠;而在共引聚类的两个大群中,各家机构的位置较为松散;表明各个学术机构在学术研究方向上虽然相近,但还有差别,但在网站推广内容上却更为相近。
4.3 两种聚类中的产业公司与学术机构之间的反差
共引聚类中,技术公司与学术机构聚类有差别,专利技术代表的产业公司集群较为集中,而研究论文代表的学术机构则较为松散;而在共引聚类中两者都较为紧密,反映了在网络内容上,产业公司与学术机构的一致性更强。
4.4 共链聚类与共引聚类的比较
a.方法相似:共链聚类与共引聚类作为相近的分析方法,都可以较为客观地得出各自的聚类群,也都反映了一些本质现象。两种方法的映衬比较也证实了学术界一贯支持的两种方法同源的观点;在共链方法中使用了反向链接数据,在网络计量学中,反向链接查询是判断对手网站竞争实力的重要工具,在网站建设、网站分析和优化也十分重要。在国外,其理论已趋向体系化,在各大搜索引擎优化实践也证明了这一理论的正确性,例如Google搜索引擎的排名算法主要依赖反向链接的权重值,其是排名优化的主要研究内容。相对于共引方法,反向链接类同于他引,同样是分析方法中重要的一环。
b.作用各有差异:共引分析主要是通过专利或论文之间的技术关联进行聚类,其对技术的关联性较强;但是专利从申请到公开一般需要18个月,即使提前公开一般也需要3~6个月,论文从投稿到发表周期也将近半年。这段时间对于如今竞争激烈的市场竞争来说可能很漫长,在及时性上有所欠缺;而共链分析通过企业网站间的共链频次可度量这些企业在经营范围、产品种类等方面的相似性,从而揭示企业间的某种竞争关系。而且如今大型公司对其主页的新闻动态性普遍较强,同时,链接获取的方式也方便快捷,因此,共链分析对多数行业的竞争态势研究具有普遍适用性和更强的及时性,其对竞争情报的价值更多地体现在市场间的竞争以及更快的速度上。
c.共链聚类更偏向产业聚类:共链聚类是网站内容与推广之间的联系,其更偏向于商业行为,产业公司共引聚类反映了产业界的技术关联。由于产业公司所采用技术就是为了推广产品,因此,两者在聚类上也存在较多相似;而学术机构的共引聚类反映了基础学术群体情况,其目的更多是学术探讨,而在其网站中则可能是将其中有希望产业化的技术进行推广介绍,两者的目的性不同,也造成了两者聚类构成的差异较大。
d.两种方法构成互补:正是由于两者的差异,表现出不同角度的分析结果,也正好从两个方面反映了这些公司(或机构)之间的多种相通或区别之处。结合两种方法,可以更全面、更客观地互补了解基础学术研究、专利技术开发与商业推广行为三者的真实情况。因此,通过两种方法、三种文献形式的整体研究.可以全面关注整个行业各个时期,从基础研发、产业开发到市场推广中,不同公司(或机构)所采取的策略差异,了解各个时期公司集群(或学术集群)的分布,从而在竞争情报分析中,做到知己知彼,有的放矢。
5 存在问题及改进
在研究过程中发现,共引数据较为系统且真实,而共链数据存在不少问题。首先,数据获取难度加大。目前提供反向链接的搜索引擎越来越少,仅有Yahoo网站中少数几个国家的Yahoo网站还提供该功能,开放多久还是未知数;今后,可能需要通过API等方式收费获取,虽然每个IP地址具有5000次/天的限制,但一般使用已足够;其次,不同国家的Yahoo搜索结果存在很大差异。同样的对象,在英国Yahoo和日本Yahoo中所得到共链数据相差几倍甚至更多;再次,政府或商业上的干预也造成了数据的不确定。一些国家对其主要竞争对手的信息进行了屏蔽或处理,造成在检索该公司部分数据时出现与事实不符的现象。另外,在分析中,反向链接数据也存在一些虚拟非真实数据,虽然Yahoo搜索引擎已进行改进,但部分数据仍不可靠,而且这些数据对于评价的权重也应该不同,这些都需要在今后加以完善。
虽然网络共链分析仍然存在不少问题,但通过以上比较仍然可以发现,其可以反映部分的行业本质,特别是商业推广上的相关度。而网络共链与专利共引、论文共引三者的结合既可以完整反映一个行业的整体情况,也可以较好地避免单一视角带来的分析误差,可以作为行业竞争分析的有效手段之一。
标签:聚类论文; 反向链接论文; 学术机构论文; 文献计量学论文; 差异分析论文; 网站分析论文; 矩阵论文; 专利论文;