链接分析:知识基础、研究主体、研究热点与前沿综述——基于科学知识图谱的途径,本文主要内容关键词为:热点论文,图谱论文,科学知识论文,主体论文,途径论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 自互联网诞生以来,其演变和发展一直影响并渗透到经济、技术、科学研究和社会生活的各个层面,网络科学(Web Science)也成为近几年许多学科和领域所共同关注的研究焦点。超链接(HyperLink)是互联网知识表现层中最典型、最重要的元素和现象,超链接的指向质量和密集程度直接关联该网站或网页的信息质量和可用程度,也能直接影响用户对该网站或网页的访问频度。通过对链接特征的分析,可以深入了解网络信息资源的拓扑结构及资源分布状况。超链接也是追踪和发现信息资源、资源聚类和自动分类、搜索反馈相关度排序、网络信息传播、竞争情报挖掘以及评价信息资源质量的重要指标,因此引起了包括图书情报学、计算机科学、经济学、社会学、物理学以及传播学等众多学科及其分支领域的关注,演变出不同的链接分析研究范式。链接分析通过对网页间链接的数量、类型、集中与分散特征、变化特征等内容进行分析,用于网络信息资源评价和网络信息挖掘等领域。 随着网络技术的发展和更广泛的用户参与,特别是大数据时代(big data era)的到来,链接分析领域还涌现出许多新的科学问题:以隐藏链接(hidden link)为代表的链接作弊行为,以博客链接和链接推荐为代表链接社会性行为,用户利用链接浏览和获取信息资源的持续性、频率和效率评价问题,垃圾链接与不安全链接引发的链接利用排斥问题,链接缓存引发的链接内容知识产权纠纷问题等。在商业领域,精准营销和在线用户行为研究中也密切关注到个人媒体或用户的链接利用行为。这些问题的出现,使得链接分析不能再局限于传统的链接的静态结构、数量的研究,而是涉及更多用户链接利用的动机、用户认知、用户信念以及用户互操作等与行为科学密切相关的科学命题。在理论研究中,国内外一些学者也关注到传统链接分析理论在逻辑上并不严密,主要体现在没有及时清除链接中的无效链接、没有对链接进行有效分类以及没有深入地探究用户的链接动机等方面,尤其是在链接动机的理论方面,目前国内外系统的研究并不多。同时,不同学科的链接分析领域也一直处于相对孤立和并行发展的模式,计算机科学视角、社会科学视角和图书情报学研究视角的交叉研究也不多,不利于一些复杂性较高、交叉面较广的综合性链接分析问题的解决。 链接分析研究领域众多科学问题和科学命题的出现,使得我们有必要利用文献计量与信息可视化分析技术,更加清晰直观地展示出国内外链接分析研究的主体、知识基础、研究热点与前沿,通过这种途径能够使读者和相关研究人员对国内外链接分析研究概况、众多科学问题的解决情况和新兴科学命题的研究情况(是否有学者关注这些问题和命题,并取得重大进展)有一个更加清晰深入的认识和了解,使他们在链接分析研究中少走弯路、不再盲目,更快速地定位自己的研究方向和要解决的问题,更有针对性地选择合作对象和查找文献去提升自己,有利于链接分析领域众多科学问题的解决。同时研究主体的可视化分析能够清晰地展示出不同视角的交叉研究情况。 目前,国内外链接分析领域中利用知识图谱对其研究主体、知识基础、研究热点与前沿的全方位可视化解读的文献非常少。研究主要集中于两个方面:定性的解读和定量的统计分析。在定性解读方面,李江等基于文献调研和定性分析的方法,从网络计量学、检索优化、Web结构挖掘以及Web结构图建模的视角,详细地分析了链接分析的研究现状、存在问题及发展趋势[1],但不够系统全面,且定性的归类,说服力不够强,没有涉及研究热点的归类及其综述。定量统计分析方面,曾晶晶等和汪传雷等利用统计分析的方法分析了国内链接分析研究论文的年度数量分布、来源期刊分布、作者分布及主题分布情况[2,3];郑曦等和邱均平等基于Web of Science数据库中国际链接分析研究的文献数据,从载文量、来源期刊、作者、地区和关键词等角度统计分析了它们的数量分布情况[4,5]。不过使用的方法较简单,揭示的内容较少且仅限于国内外链接分析研究文献的表面特征分析。目前为止,尚未发现国外这方面的研究文献。在科学知识图谱的使用上,陈超美等基于国际情报学12本权威期刊,利用自己开发的CiteSpace Ⅱ绘制国际情报学研究文献引用的共被引聚类图谱,识别出国际情报学的研究热点与知识基础[6]。马海群等利用CiteSpace Ⅱ软件,分别绘制中国情报学的共现网络和共被引网络,展示出中国情报学的研究主体、研究基础、研究热点和研究前沿[7]。本文虽然在一定程度上借鉴了这两篇文章的内容结构,但在工具的使用上,研究领域,研究内容的点和面上都有所延伸和拓展。比如,我们采用工具融合的途径解决单一工具无法处理不同格式数据的问题,领域上选择尚未被研究的领域,研究内容的点和面上,把国内外的情况结合起来进行全方位研究。 2 研究数据及其提示的链接分析发展趋势 2.1 国外研究数据及其揭示的链接分析发展趋势 自1996年McKiernan提出Sitation这一术语研究网页之间的引用关系[8~10],链接分析已经有十多年的研究历史。通过仔细研读2012年国家自然科学基金项目《融合范式视角下的链接分析理论集成框架及其实证研究》对链接分析的分类综述和查看各个类范畴下链接分析论文的标题、摘要和关键词,构建了一个链接分析研究密切相关的检索式:TI=(“internal link” OR “external link” OR “self-link” OR “inlink” OR “hyperlink” OR “Web link” OR “hidden link” OR “link analysis” OR “co-link” OR “colink” OR “spare links” OR “Iink Spam” OR “link mining” OR “link structure” OR “pagerank” OR “HITS algorithm” OR “web impact factor”)去精确检索Web of Science的四大索引库(检索时间:2013.7.16):科学引文索引库扩展版(SCIEXPANDED,Science Citation Index Expanded),社会科学引文索引库(SSCI,Social Sciences Citation Index),科学技术会议录引文索引库(CPCI-S)和社会科学与人文会议录索引库(CPCI-SSH)。检索到652条记录,在人工逐一查看,去掉无关记录62条之后,得到1996年至2013年7月16日期间,国外学者发表的590篇链接分析密切相关的研究文献。文献的来源及年度分布情况如表1所示。表中文献总量656,表明CPCI-S,CPCI-SSH库中有66篇会议论文发表到SCI和SSCI收录的期刊上。

结合表1和图1可以看出,国外链接分析研究从1996~2008年一直保持快速增长趋势,发表的论文数量从1996年的1篇一直增长到2008年的72篇,增长了72倍。不过在2008年达到高峰值之后,开始急速下降。从2008年的72篇,一直下降到2012年的41篇,下降了近2倍。另外,国外链接分析领域学者不仅注重研究,更注重同行之间的交流。例如,1996~2013年国外学者发表的会议论文数量(358篇,不包括发表在期刊上面,未被CPCI-S和CPCI-SSH收录的会议论文),比此期间发表的期刊论文数量(298)多出了60篇。

图1 国外链接分析论文的年度分布图 2.2 国内研究数据及其揭示的链接分析发展趋势 利用上述英文检索式相应的中文检索式:(TI=′链接分析′OR TI=′外部链接′OR TI=′内部链接′OR TI=′入链′OR TI=′超链接′OR TI=′Web链接′OR TI=′网络链接′OR TI=′网站链接′OR TI=′隐藏链接′OR TI=′共链′OR TI=′链接作弊′OR TI=′链接挖掘′OR TI=′链接优化′OR TI=′链接结构′OR TI=′pagerank′OR TI=′HITS算法′OR TI=′网络影响因子′)于2013年7月16日检索中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库和中国重要会议论文全文数据库。检索到847条记录,通过人工逐一查看,去掉无关记录122条之后,发现国内链接分析研究最早开始于2000年。比国外晚了4年。在2000年,对外经济贸易大学宋钧对世界著名公司主页中的超链接部分进行一个语言学分析[11];复旦大学法律学系杨迅和李风华探讨了超链接的法律问题[12,13]。截至2013年7月16日,国内学者共发表725篇链接分析密切相关的研究文献。论文的来源及其年度分布情况,如表2所示。

从表2可以看出:在发表的725篇论文中,期刊论文和学位论文分别占80%和17%,说明“链接分析”已经成为国内学者的主要研究主题和研究生(主要是硕士)的主要开题方向。就链接分析主题进行会议交流的学者也逐渐增多,如2000~2002年期间没有学者进行链接分析方面的会议交流,但到2006~2008年,交流性文献达到12篇,不过与国外相比,国内链接分析方面的会议交流仍然很少,尤其近几年变得更少。另外,国内链接分析研究自2000年开始,呈逐年快速增长趋势。比如,2000~2002年3年共发表论文28篇,到2009~2011年3年,增长到266篇,增长了近10倍。 3 研究工具与方法[14~17] (1)基于Web of Science数据库中链接分析文献的13188条有效引文数据,利用CiteSpace II软件的引文共被引分析功能绘制引文共被引聚类图谱,探索链接分析研究的起源和知识基础。 (2)基于国内外链接分析文献的作者题录数据,首先使用文献题录信息统计分析工具SATI 3.1获得国内外的高产作者,并构建高产作者的共现矩阵,然后使用可视化软件NetDraw绘制国内外链接分析领域高产作者科研合作的共现网络,识别出国内外主要科研团队及其之间的合作情况。 (3)基于Web of Science数据库中链接分析文献的引用期刊和发文国家数据,利用CiteSpace II软件的期刊共被引分析功能和国家共现分析功能绘制主要引用期刊的共被引聚类图谱和主要国家科研合作的共现网络,识别出链接分析研究参考引用的主要期刊、主要发文国家及其之间的合作情况。 (4)基于国外链接分析文献历年的关键词数据,利用CiteSpace II软件绘制全时段术语和关键词(术语来自施引文献标题和摘要分词所得的名词短语,而关键词来自施引文献作者标的主题词和系统标记的标引词)混合共现的知识图谱,识别出链接分析研究的热点主题;同时绘制分时段的术语和关键词混合共现知识图谱,通过对比分析两个不同时间段的研究热点,识别出国际链接分析研究的前沿热点。 (5)基于国内链接分析文献历年的关键词数据,结合使用SATI 3.1和NetDraw可视化绘图软件绘制全时段关键词的共现聚类网络,识别出国内链接分析研究的热点,同时绘制分时段的关键词共现聚类网络,识别出国内链接分析研究的前沿热点。 4 结果分析 4.1 链接分析研究的起源和知识基础 一个领域所有文献的引文(或称参考文献)集合是该领域的知识基础,其中奠基性、高被引和高中心性的领域相关引文集合构成该领域的核心知识基础。奠基性文献是指领域相关引文集合中被引年代最久的高被引或高中心性引文,同时其也代表领域研究的核心起源。我们以链接分析领域所有文献的13188条有效引文为数据源,将CiteSpace II软件平台的时间范围参数设置为1996~2013年,时间分割(Time Slicing)设为1年,引文筛选标准设置为1996~2013年链接分析领域各年文献引文集合中的Top1%高被引文献,选择路径发现算法和路径网络融合简化算法,可视图显示为静态聚类视图和合并网络视图。运行软件,得到引文共被引的时间线图谱(图2)和聚类图谱(图3和图4)。图谱中的圆圈大小表示引文的被引频次,圆圈之间连线的粗细表示两个引文的共被引频次。

图2 链接分析研究领域引文共被引的时间线图谱

图3 链接分析研究领域引文共被引的聚类图谱(按被引频次标注节点文献标签,字体越大,说明文献的被引频次越高)

图4 链接分析研究领域引文共被引的聚类图谱(按中心度标注节点文献标签,字体越大,说明文献在网络中的中心度越高) 图谱中越靠近左边的节点,说明文献发表的年代越早。通过分析图谱节点所代表的文献数据,我们发现起源较早的三篇高被引或高中心性文献:Freeman 1979年发表的名为Centrality in social networks conceptual clarification《社会网络中心度概念解读》的文章(被引13次,Google Scholar上被引5815次)、Wasserman1994年出版的名为Social network analysis:Methods and applications(社会网络分析:方法和应用)图书(被引31次,Google Scholar上被引16196次)和Golub 1998年出版的名为Matrix Computations(Johns Hopkins Studies in Mathematical Sciences)(《矩阵计算》)图书(被引34次,Google Scholar上被引778次)。这三篇文献尽管在主题上与链接分析领域研究并不太相关,然而他们经常与链接分析领域两大核心研究主题:网络影响因子(Web Impact Factor)和PageRank算法相关的高被引或高中心度文献一起被链接分析领域文献引用。因此他们是链接分析领域研究的一般知识基础。从三篇文献的主题看,链接分析领域研究需要掌握计算机学科和社会学方面的相关知识。 从链接分析领域相关的高被引或高中心性引文及其发表时间看,1998年Brin发表名为The anatomy of a large-scale hypertextual Web search engine(《大规模超文本Web搜索引擎剖析》)的文章、Ingwersen发表名为The calculation of web impact factors(《网络影响因子计算》)的文章和Page发表的名为The PageRank Citation Ranking:Bringing Order to the Web(《PageRank引用排序算法:将排序带给无序网络》)的文章是链接分析领域的奠基性文献,也是链接分析领域研究的核心起源。 从图2、图3和图4可以看出,链接分析领域的核心知识基础由3篇奠基性文献、5篇高被引文献和5篇高中心度文献组成,其中同为高被引和奠基性的文献1篇,同为高被引文献和高中心度的文献1篇,同为高被引、高中心度和和奠基性的文献2篇。因此链接分析领域的核心知识基础由表3所示的7篇文献组成。

从表3中各文献的标题可以看出,链接分析研究的核心内容包括“面向搜索引擎的链接分析核心算法:PageRank研究”(第1、第3、第5和第6篇)、“链接分析应用于信息情报获取的研究”(第4和第7篇)和“链接指标”(第2篇)等主题。从文献来源的质量来判断,链接分析核心知识基础文献的质量普遍较高。从文献主题及来源期刊的学科性质和交叉性来看,国外学者多从计算机学科和图书情报学,以及两者交叉的视角来进行链接分析领域的研究。 4.2 国内外链接分析领域研究主体及其之间的合作情况分析 4.2.1 国外链接分析领域主要研究团队及其之间的合作情况 利用文献题录信息统计分析工具SATI 3.1从590篇国外链接分析文献的题录数据中抽取出作者信息并统计作者的出现频次,然后从中选择出现频次大于或等于2的Top100位作者,构建作者之间科研合作的100*100共现矩阵。然后将该矩阵导入到Netdraw绘图软件,绘制国外作者科研合作的共现网络,如图5所示。图中的圆表示作者节点,节点及其标签的大小代表节点度(Degree)的大小(节点及其标签颜色的不同表示节点度的不同)。节点度是指与该节点有直接连线的节点数量,表示与该作者有过直接科研合作的作者数量,它的大小能够揭示出作者的合作偏好及其在合作网络中所处的地位。节点之间连线的粗细表示两个作者之间共现频次或合作程度的不同(连线颜色的不同代表共线频次的不同)。

图5 国外链接分析领域作者科研合作的共现网络 从图5可以看出,国外链接分析领域发文数量Top100作者之间形成了26个至少2位作者构成的科研团队,10个至少3位作者构成的科研团队。其中至少5人组成的较大科研团队有1个:Park,Han Woo—Thelwall,Mike—Zuccala,Alesia—Kim,Jang Hyun—Barnett,George A.从网络的结构模式来看,此科研团队合作网络的结构模式是星型合作模式,即团队各成员在一个核心成员(网络中度最大的作者)的带领下进行科学研究[18]。从此科研团队成员的科研简历和研究主题可以看出,他们侧重从社会学(主要是社会网络)和图书情报学(主要是信息计量学、科学计量学和网络计量学)的视角研究链接分析。 4.2.2 国内链接分析领域主要研究团队及其之间的合作情况 基于725篇国内链接分析领域文献的题录数据,利用上节中同样的方法绘制国内链接分析领域作者科研合作的共现网络,如图6所示。从图6可以看出,国内链接分析领域发文数量Top100作者之间形成了19个至少2位作者组成的科研团队,6个至少3位作者构成的科研团队。其中至少5人组成的较大科研团队有2个:①刘璇—王尧—文庭孝—张洋—段宇峰—邱均平—李晔君—任全娥—陈太洋—李江—孙建军—潘云涛—郭红—袁军鹏—马峥—张玉华;②程学旗—王斌—杨志峰—刘悦—张刚。其中第一个科研团队合作网络是一个由16人组成的多中心复合式超大型合作网络模式,分别由湘潭大学文庭孝、武汉大学邱均平、中国社会科学院任全娥和浙江大学李江为核心的四个星型合作网络,南京大学孙建军为核心的一个直线型合作网络,以及中国科学技术信息研究所潘云涛为核心的一个聚集型合作网络组成。其中武汉大学邱均平、浙江大学李江(武汉大学硕士和南京大学博士)和南京大学孙建军是连接六个子网络的中介中心节点。第二个科研团队合作网络是一个由5人组成的聚集型合作网络模式,即团队各成员的科研实力都非常强(比如各成员的度都较大),因共同科研兴趣或共同科研任务经常互相合作发表文章(各成员之间的连线都较粗)。从两个科研团队成员的科研简介和研究主题得知,第一个科研团队的成员主要从事信息资源管理、信息计量学、科学计量学、知识计量学和网络计量学研究,更多的是从图书情报学和计量学的视角研究链接分析。而第二个研究团队主要从事互联网搜索与挖掘、网络科学与社会计算、网络信息安全和自然语言处理等,主要从计算机学科的视角研究链接分析。

图6 国内链接分析领域作者科研合作的共现网络 4.2.3 主要引用期刊及其之间的合作情况 从国内外学术数据库中很容易发现链接分析领域文献的主要发表期刊,但无法发现链接分析领域研究主要参考哪个学科期刊的知识。因此我们基于链接分析领域文献引用的7961本期刊,从各年文献引用的期刊集合中选择TOP30个期刊,利用4.1节中同样的方法绘制国际链接分析领域主要引用期刊的共被引聚类图谱,如图7所示。

图7 国际链接分析领域主要引用期刊的共被引聚类图谱(圆圈和字体大小表示期刊被引频次) 从图7可以看出,链接分析领域学者在写文章时主要参考Journal of the American Society for Information Science and Technology(引用155次)、Computer Networks ISDN(引用130次)、Journal of the ACM(引用110次)、Lecture Notes in Computer Science(引用79次)、Internet Mathematics(引用71次)、Information Processing & Management(被引70)、Science(被引69次)、Scientometrics(被引69次)、Journal of Documentation(被引62次)、Nature(被引57次)和Computer Networks(被引53次)等期刊的文章。从这些高被引期刊之间共被引情况来看,它们经常单独出现在作者的参考文献集合中,很少同时被一位作者所引用。另外,从期刊的主题和学科性质来看,链接分析领域学者倾向于引用图书情报学和计算机学科的知识。 4.2.4 国际链接分析领域主要国家及其之间的合作情况 从各年国际链接分析研究文献的发文国家集合中选择TOP30个国家,利用4.1节中同样的方法绘制国际链接分析领域主要发文国家的共现知识图谱,如图8所示。

图8 国际链接分析领域主要发文国家的共现知识图谱(圆圈和字体大小表示国家出现频次) 从图8可以看出,美国是国际链接分析领域发文量最大的国家(发文165篇),其次是中国(发文140篇,包括台湾16篇),日本和英国分别以54篇和37篇的发文量居第三和第四。从国家之问的共现情况看,这些链接分析领域发文量较多的国家之间在此领域的合作与交流非常少,而发文量较少国家与发文量较多国家在此领域的合作与交流较多。 4.3 链接分析领域的研究热点 4.3.1 基于术语和关键词混合共现知识图谱的国际研究热点探测 基于590篇国际链接分析文献的2092个术语和关键词数据,将它们的数量选择设置为每年的TOP 10%高频关键词,筛选出200个高频术语和关键词。然后利用4.1节同样的方法绘制融合术语和关键词的共现知识图谱,如图9所示。图中的圆形节点表示术语和关键词,节点和字体的大小表示术语或关键词的出现频次。节点和字体越大,表明节点关键词被作者使用最多,极有可能代表学科的研究热点。节点之间的连线表示节点之间的共现关系,连线的粗细表示节点之间共现频次的高低。

图9 术语和关键词融合的共现知识图谱 从图9可以看出,链接分析领域的研究热点主要表现为以下几个方面:①从检索优化的视角研究链接分析。例如,链接分析两大核心算法:Pagerank算法(至少被使用94次)和HITS(Hyperlink-Induced Topic Search)算法(至少被使用14次),以及两大算法在改进Web检索(Web Search,被使用18次)、信息检索(Information Retrieval,被使用17次)、搜索引擎(Search Engine,被使用31次)、网页排名(Ranking,被使用7次)和聚焦爬虫(Focused Crawler,被使用4次)中的应用。②网络计量学(Webometrics,被使用17次)和评价的视角研究链接分析。例如,学术机构(Academic Institutions,被使用4次)的Web影响因子(Web Impact Factors,被使用7次)和引用(Citation,被使用9次)研究;网站(Sites,被使用18次)的影响因子(Impact Factors,被使用13次)、引用(Citation,被使用16次)和共引(Co-citation,被使用4次)研究。③竞争情报的视角研究链接分析。例如,基于共链分析(Co-link Analysis,被使用5次)竞争情报(Competitive Intelligence,被使用5次)研究;基于Web使用挖掘(Web Usage Mining,被使用3次)、贪婪算法(Greedy Algorithm,被使用2次)、网页共引(Pages+Cocitaton,两个词同时被使用4次)、搜索引擎(Search Engine,被使用11次)和社会网络(Social Network,被使用7次)等的有用信息(Information,被使用35次)获取研究。④信息挖掘的视角研究链接分析。例如,基于主题敏感(Topic-Sensitive,被使用3次)的Web信息检索(Web Search,被使用18次)研究;基于引用分析(Citation Analysis,被使用7次)网络信息爬虫(Crawler,被使用7次);基于Web使用挖掘(Web Usage Mining,被使用3次)用户网络使用行为信息挖掘研究。⑤社会学的视角研究链接分析。例如,基于社会网络(Social Network,被使用14次)的链接分析(Link Analysis,被使用47次)研究;基于社会网络的有用信息获取研究;基于链接分析的网络社区(community,被使用9次)研究;基于链接分析的学术网络(Academic Web,被使用9次)交流模式(Communication被使用12次,Patterns被使用9次,两者共现9次)。⑥链接分析自身特征研究。例如,链接分析算法(Algorithms,各类算法共被使用140多次)研究、链接分析框架(Framework,被使用7次)研究、链接结构(link structure,被使用8次)研究、超链接(hyperlink,被使用8次)分析研究等。 4.3.2 基于中文关键词共现网络的国内研究热点探测 利用SATI 3.1从1399个中文关键词中,选择5%频次大于或等于5的70个高频关键词,构建70*70的中文关键词共现矩阵,然后将其导入到Netdraw可视化软件中,绘制中文关键词的共现网络,如图10所示。图中节点和字体的大小表示关键词的度(degree),也就是与此关键词节点直接共现的关键词节点数量,关键词的度越大,说明此关键词越是处于网络中的核心位置,很可能是链接分析领域的研究热点,节点之间连线的粗细表示两个关键词之间的共现频次,连线越粗,说明两个关键词之间的关系越密切。

图10 中文关键词的共现网络 从图10可以看出,国内链接分析领域研究热点与国际研究热点相似,主要表现为以下几个方面:①从检索优化的视角研究链接分析。例如,链接分析两大核心算法:Pagerank算法(被使用215次)和HITS算法(Hyperlink-Induced Topic Search,被使用67次),以及两大算法在链接分析(被使用175次)、搜索引擎(被使用104次)、信息检索(被使用14次)、排序算法(被使用12次)、Google(被使用16次)、Web数据挖掘(被使用14次)、超链接分析(被使用8次)、主题漂移(被使用18次)、主题爬虫(被使用9次)、网页或页面排序(被使用19次)、Web结构挖掘(被使用27次)等中的应用。②网络计量学(被使用38次)和评价的视角研究链接分析。例如,网络影响力(被使用7次)和网络影响因子(被使用46次)研究;网站(被使用26次)和数字图书馆(被使用8次)等的评价(被使用24次)研究;网页或页面排序(被使用19次)研究等。③竞争情报视角下的链接分析研究。例如,基于共链分析(被使用17次)、网络链接分析(被使用8次)、网络影响力(被使用7次)、社会网络分析(被使用14次)和网络计量学的竞争情报(被使用8次)研究。④信息挖掘视角下的链接分析研究。例如,基于链接分析及其核心算法的Web挖掘(被使用12次)、Web结构挖掘(被使用27次)、Web数据挖掘(被使用14次)和主题爬虫(被使用9次)等研究。⑤社会学视角下的链接分析研究。例如,基于社会网络分析(被使用16次)的链接分析和共链分析研究;基于链接分析的Web社区(被使用8次)研究;⑥法学视角下的链接分析研究。例如,基于网络链接(被使用44次)和网站链接(被使用5次)行为和动机等分析的侵权责任(被使用12次)、间接侵权(被使用7次)、知识产权(被使用13次)、著作权(被使用33次)、信息网络传播权(被使用5次)、合理使用(被使用8次)、商标权(被使用8次)、不正当竞争(被使用19次)和侵权(被使用18次)研究。⑦链接分析自身研究。例如,链接分析(被使用175次)和链接分析法(被使用14次)研究、链接分析算法(共被使用330多次)研究、链接结构(被使用24次)研究、超链接(被使用75次)分析研究、共链分析(被使用17次)研究、外部链接(被使用10次)、链接分类聚类(被使用9次)研究、链接行为和动机(被使用11次)研究等。 4.4 基于分时段关键词共现网络的前沿热点识别 4.4.1 国外链接分析研究的前沿热点 我们将某领域近一段时期内的前沿热点定义为“在过去一段时期内未出现,而近一段时期内新兴的研究热点(用高频或高中心度关键词表示)”。为探测链接分析领域近一段时期(近5年)内研究的前沿热点,我们分别基于国内外过去5年(2004~2008年)和近五年(2009~2013年)的中英文关键词数据,绘制两个时期内的中英文关键词共现网络(篇幅有限,不再给出这些图谱),识别出过去5年(2004~2008年)和近5年(2009~2013年)国内外链接分析研究的热点关键词,如表4和表5所示。


根据我们对前沿热点的定义,对比分析表4中两个时期内的热点关键词,发现近5年(2008~2012年)国外链接分析研究的前沿热点主题有:社会网络(social networks)、网页排名(ranking)、共链分析(co-link analysis)和链接作弊(link spam)等。另外,我们对比分析一下两个时间段中的低频关键词,我们发现近5年来链接引用行为(behavior,被使用2次)和基于链接分析的竞争情报(competitive intelligence,被使用3次)获取也得到日益增多的关注等。 从表5中两个时期内热点关键词之间的主题差异可以看出,近5年(2009~2013年)国内链接分析研究的前沿热点主题有:Web数据挖掘、共链分析、主题漂移、社会网络分析、竞争情报、链接行为和动机、链接作弊和Web社区研究等。 5 结语 链接分析领域发展至今,理论和实证研究体系已日臻成熟和完善,有必要对链接分析领域的研究文献进行全面梳理和解读。鉴于使用定性分析方法和文献调研方法解读链接分析文献的研究较多,且比较全面,而使用定量分析方法全面揭示链接分析研究知识基础、主体、热点与前沿的文献较少,我们基于Web of Science和中国知网中“链接分析”方面的文献数据,融合Citespace II、SATI 3.1和Netdraw等文献计量与可视化软件分析和比较了国内外链接分析研究的知识基础、主体、热点与前沿。研究发现:①链接分析研究起源于1998年Brin、Ingwersen和Page发表的三篇奠基性文献:The anatomy of a large-scale hypertextual Web search engine(《大规模超文本Web搜索引擎剖析》)、The calculation of web impact factors(《网络影响因子计算》)和The PageRank Citation Ranking:Bringing Order to the Web(《PageRank引用排序算法:将排序带给无序网络》);②链接分析领域的核心知识基础由1篇高被引文献、2篇高中心度文献、1篇同为高被引和奠基性的文献、1篇同为高被引文献和高中心度的文献和2篇同为高被引、高中心度和奠基性的文献组成。③国外链接分析领域发文数量Top100作者之间形成了26个至少2位作者构成的科研团队,10个至少3位作者构成的科研团队,其中至少5人组成的较大科研团队有1个。而国内有19个至少2位作者组成的科研团队,6个至少3位作者构成的科研团队,其中至少5人组成的较大科研团队有2个。这些科研团队形成四种合作模式:星型合作模式、多中心复合式合作模式、聚集型合作模式和直线形合作模式。④国际链接分析研究主要参考Journal of the American Society for Information Science and Technology、Computer Networks ISDN、Journal of the ACM、Lecture Notes in Computer Science、Internet Mathematics、Information Processing & Management、Science、Scientometrics、Journal of Documentation和Nature等高水平期刊中的文章;国际链接分析领域发文量最大的国家是美国,其次是中国。⑤链接分析领域的研究热点主要表现在:检索优化的视角研究链接分析、网络计量学和评价的视角研究链接分析、竞争情报的视角研究链接分析、信息挖掘的视角研究链接分析、社会学的视角研究链接分析、链接分析自身特征研究等方面。⑥国际链接分析研究近5年(2009~2013年)的前沿热点主题主要有:社会网络、网页排名、共链分析和链接作弊等;而国内链接分析研究近五年的前沿热点主题有:Web数据挖掘、共链分析、主题漂移、社会网络分析、竞争情报、链接行为和动机、链接作弊和Web社区研究等。 收稿日期:2013年12月4日 注释: ①表3中JOD是Journal of Documentation的缩写;TKDE是IEEE Transactions on Knowledge and Data Engineering的缩写;JACM是Journal of the ACM的缩写;CNIS是Computer Networks and ISDN Systems的缩写;JASIST是Journal of the American Society for Information Science and Technology的缩写。
标签:聚类分析论文; 相关性分析论文; 关键词排名优化论文; 网络热点论文; 文献综述论文;
链接分析:基于科学知识地图方法的知识基础、研究主题、研究热点和前沿研究综述_聚类分析论文
下载Doc文档