基于共现关系的学科知识深度聚合研究_网络模型论文

基于共现关系的学科知识深度聚合研究,本文主要内容关键词为:学科论文,深度论文,关系论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      DOI:10.13663/j.cnki.lj.2014.01.002

      0 引言

      科学结构是科学知识长期积累而形成的有机结构,不仅可以反映整体科学的逻辑关系,也可以反映某个单一研究领域或学科的知识结构。分析科学结构及其演化可以从宏观和微观两个角度出发,宏观角度主要分析科学的总体结构及其演化,分析不同学科之间的交叉发展和演化情况等;而微观角度主要是分析单个研究领域或学科的知识结构及其演化过程[1]。因此,通过学科知识的深度聚合,分析和挖掘学科知识结构,是一种微观角度的科学结构研究,是文献计量学研究的重要组成部分。通过学科知识结构的挖掘,可把握学科的总体知识结构,有助于学者更快地捕获学科发展前沿及研究热点,有助于为科研决策者和管理者提供决策依据。

      杜晖博士在毕业论文中,将某一研究领域的学术信息资源界定为由学术文献和学者两种类型的知识载体(文献是显性的知识载体,而学者则是隐性的知识载体)所组成的一种网络形态的知识体系[2]。本文认为,学科知识也可以分为显性知识和隐性知识,某一学科的学术文献是显性知识的载体,而该学科的学者则是隐性知识的载体,学术文献和学者可以认为是知识节点,知识节点间的关联可以看成是联系知识节点的边,这样就构成了一个基于知识关联的知识网络。通过对这种基于学者或者基于文献的知识关联进行深度聚合,得到相应的知识网络,进而可以分析出该学科的知识结构。在基于学者的知识网络中,可以发现在研究兴趣上高度相似的学者群体,形成学术社区;在基于文献的知识网络中,则可以发现内容高度相似的文献簇,从而可以直观地揭示该领域的研究分支及其研究主题。通过对这些学术社区和研究分支的分析,就可以清晰地呈现出该学科的知识结构。本文提出从共现关系的角度出发,以学术文献和学者两种知识节点为中心对学科知识进行聚合。根据共现关系的分类和聚合方式,构建了基于共现关系的学科知识深度聚合模型,将聚合分为四个层次,并以文献的两个外部特征(作者和关键词)为例分析了不同聚合层次挖掘学科知识结构的特点以及学科知识聚合的深度。同时,笔者认为聚合深度应同时包含聚合层次和共现强度这两项内容,为聚合深度的度量提供一个新的视角。

      1 学科知识深度聚合研究现状

      1.1 学科知识结构研究现状

      分析和挖掘学科知识结构已经成为情报学研究的热点之一,邱均平、王菲菲从作者互引的角度分析科学计量学领域的知识结构[3];卫军朝、蔚海燕系统分析了4种知识结构划分方法:即同被引分析方法、文献耦合分析方法、共词分析方法、引文分析和共词分析相结合的方法[4];葛菲、谭宗颖将知识结构划分的方法分为3类:基于引文分析的方法、内容词分析方法和基于引文-内容词的混合分析方法[1];任红娟提出用最大相似性函数,将文献的标题和摘要内容特征与文献耦合引用特征融合进行知识结构划分的方法[5]。以上几种知识结构划分方法各有优劣,正如Morris[6]用盲人摸象图的形象隐喻,从一个特征或关系来刻画领域的知识结构具有局限性和片面性。Dangzhi Zhao[7]通过作者耦合的分析来研究作者之间的研究兴趣并探测学科的知识结构,基于耦合关系的分析,能较好地展现出一个学科的知识结构,并且是作者同被引挖掘学科知识结构的有益补充。马瑞敏认为作者耦合分析能够较好地分析和挖掘一个学科的“前沿知识结构”;而作者同被引分析则可以更好地分析一个学科的“基础知识结构”,两者紧密结合,可以更好地展现一个学科总的知识结构[8]。宋艳辉等比较了作者文献耦合(ABCA)与作者关键词耦合(AKCA)两种学科结构探寻方法,ABCA可以探寻到比AKCA更多的研究主题,而AKCA比ABCA能显示更多的信号来反映学科的技术突破以及研究前沿的发展,二者不可互相替代,两种方法结合是探寻学科知识结构及其发展的理想方法[9]。邱均平、董克挖掘了不同类型作者共现关系之间的潜在关联,进而利用聚类和网络关联分析比较了这些不同共现网络在学科领域结构揭示能力上的差异[10]。因此,从多个特征和多种关系对学科知识进行深度聚合,挖掘学科知识结构,已成为科学结构研究的新趋势。

      1.2 深度聚合研究现状

      1.2.1 聚合研究现状

      在图书情报领域,聚合是对数字资源的聚集与融合,将分布在不同载体、不同类型的资源汇集到一起,将分散的资源有机地整合到一起,形成对有关领域更深层次的理解和认识。随着信息计量学研究的深入,基于计量学的知识聚类被应用到馆藏资源聚合的研究中来,国内外计量学专家提出了很多有价值的信息聚合模式和方法,邱均平、董克利用引文关系权重与文献节点权重确定核心文献,从阈值和权值“高地”两个角度对核心文献进行聚合[11];邱均平、王菲菲根据计量学中共现与耦合方法在馆藏资源聚合中的应用,从文献特征关联、利用过程关联、知识关联、用户需求关联四维角度探讨了八种馆藏文献资源聚合模式,构建了基于共现与耦合的馆藏数字文献资源聚合四层模型[12];杜晖[2]基于耦合关系的不同类型,从文献耦合关系与作者耦合关系两个视角,对学术信息资源进行聚合。还有学者从关联数据、用户需求等方面进行资源聚合,如游毅、成全提出基于关联数据的馆藏资源聚合模式,包括馆藏资源关联数据化与图书馆关联数据链接管理两部分[13];李劲等[14]以用户需求为导向,提出了基于语义的馆藏资源深度聚合模型,通过类聚、融合和重组使分散无序、相对独立的馆藏资源重新组织为一个新的有机整体。张玉峰、何超则利用层次信息可视化方法对海量馆藏资源聚合结果进行动态展示研究[15]。贺德方、曾建勋[16]从OPAC、跨库检索、引证关系和元数据的聚合以及相应的整合工具与方法等多个方面对国内外馆藏资源语义聚合进行了概述。知识聚合成为图书情报学,尤其是计量学领域的研究热点之一,基于计量的知识聚合,成为聚合研究的一个新突破点。通过学科知识聚合,能够分析和挖掘学科知识结构,以便于学科领域专家更快地捕获学科发展前沿及研究热点,为其提供全面的知识服务,更好地指导学科的发展。

      1.2.2 聚合深度研究现状

      根据百度百科释义,“深度”是指深浅的程度,或者事物向更高阶段发展的程度,也指(工作、认识)触及事物本质的程度。在口腔医学中,光固化复合树脂的聚合深度用梯级表面硬度测量[17]。在图书情报领域,对聚合深度的研究较少,还没用统一的认识和规范的定义。目前仅有的研究大多用知识关联的测度方法进行聚合深度的测度。不同的知识关联结构和系统有不同的测度指标和方法,文庭孝等提出知识关联的测度主要包括有无关联的测度、关联强度的测度、关联方式的测度[18]。关联强度是指知识单元间联系的紧密程度。在知识网络中,一般用知识节点间的距离、连线的长度、连线的粗细来表示。目前常见的关联强度测度包括:相似度、相关度、耦合强度、共被引次数、共现次数等指标。基于以上关联强度的测度方法,杜晖[2]在实现学术信息资源的深度聚合时,提出聚合深度主要是指对知识节点之间的关联强度的定量化测度,用知识节点(学者和科学文献)间的耦合关系强度表示。邱均平和王菲菲在基于共现和耦合的馆藏文献资源聚合模型中,将聚合深度用耦合强度和共现强度来度量[12]。以挖掘学科知识结构而言,聚合深度是指聚合“触及”学科原本知识结构的程度。仅以耦合强度和共现强度等知识关联的测度方法测度聚合深度,显然不够全面,尤其是在以挖掘学科知识结构为目的的学科知识聚合研究中。

      2 基于共现关系的学科知识深度聚合模型

      2.1 共现关系及其分类

      共现分析是一种重要的相关性分析方法,在生物学、医学、社会学等很多学科都有广泛应用。在情报学中,共现分析方法包括共词、同被引、合作等,这些方法都是以学术论文的某一个外部特征为基础,通过其共现关系揭示科学发展的深层次内容。随着计量学研究的深入,仅仅是文献的某一个外部特征已经不能满足分析的需求,利用文献不同外部特征的多种关联关系进行研究成为一种趋势,如耦合分析方法。耦合分析的提出较早[19],但相关研究和应用一直局限在引文耦合,自2008年Dangzhi Zhao提出作者文献耦合[7],耦合分析方法才被学者们广泛应用,成为研究学科知识结构及其演变过程的有效方法。耦合关系也是共现关系的一种,我们称之为基于耦合的共现关系,或者耦合形式的共现关系。基于耦合的共现关系拓展性很强,从形式上来看,作者之间通过使用相同的关键词能够产生作者关键词耦合,引用相同的文献能够产生作者文献耦合,同在某些固定期刊上发表文献则会产生作者期刊耦合等,这些基于耦合的共现形式对于挖掘学科的知识结构具有重要意义。

      基于此,笔者将共现关系分为四类:基于作者合作的共现关系,主要反映的是作者之间通过合作发表文章而产生的一种关联关系;基于共被引的共现关系,包括作者共被引、文献共被引和期刊共被引三种,主要反映作者(文献或期刊)因被共同引用而产生的关联关系;基于共词的共现关系,揭示关键词所代表的研究主题之间的关联关系;基于耦合的共现关系,包括作者关键词耦合、作者文献耦合、作者期刊耦合、文献关键词耦合、文献引文耦合、文献期刊耦合六种关系。杨立英总结了9种文献不同特征项的交叉共现并称之为异共现[20],那么以上共现关系都是同一特征项的共现,称之为同共现。在本文中,文献不同特征项之间的异共现主要有作者-关键词共现、作者-引文共现、作者-被引期刊共现、文献-关键词共现、文献-引文共现、文献-被引期刊共现,还有作者与主题、文献与主题之间的异共现。

      共现关系的分类情况如表1所示。同时,根据共现关系的不同分类,学科知识聚合方式也可以分为四种类型:第一类是以合作、共被引、共词三种基于文献同一特征项的共现关系实现学科知识聚合;第二类是以文献不同特征项的异共现关系实现学科知识聚合;第三类是以基于耦合的同共现关系实现学科知识聚合;第四类是以作者(文献)与主题的异共现关系实现学科知识聚合。

      2.2 学科知识深度聚合模型

      根据不同的共现关系和聚合方式,构建基于共现关系的学科知识深度聚合模型,如图1所示。将学科知识深度聚合分为四个层次:文献特征项同共现的学科知识聚合;文献特征项异共现的学科知识聚合;基于耦合的同共现学科知识聚合;作者(文献)与主题的异共现学科知识聚合。下文以作者和关键词两个文献特征项为例阐述该聚合模型。

      

      

      图1 基于共现关系的学科知识深度聚合模型

      第一层:关键词共现和作者共现。通过文献关键词的共现关系进行聚类,可以揭示关键词所代表的研究主题之间的关联关系,并根据这些关系分析关键词所代表的学科和主题结构及其变化,透视领域研究热点。作者共现分为作者合作和作者同被引两种,作者合作共现是通过分析学术论文作者合作发文的情况对作者进行聚类,揭示领域研究人员的合作关系,进而根据合作作者的研究方向透视学科知识结构;作者同被引则是通过不同的作者被同一文献共同引用的关系,揭示领域科学家的关系网络,进而挖掘学科知识结构。该层中,学科知识聚合的深度较浅,无论是作者,还是关键词,都只能从单一方面描述学科知识结构:基于关键词共现的聚合,只能反映学科主题结构,不能揭示主题与作者之间的关系;基于作者共现的聚合中,作者合作不能分析独立发文作者,聚合范围有限,学科结构不全面,而作者同被引虽考虑了全部的作者,但其分析结果更多的是反映学科的“基础知识结构”。

      第二层:作者-关键词共现。根据作者在学术论文中选择使用关键词的情况而产生的一种关系,通过对作者-关键词二模矩阵进行多维量表分析,可得到作者-关键词关联聚合。作者-关键词关联聚合,可以反映活跃作者与哪些关键词之间关联紧密,也可以反映出高频关键词与哪些作者之间关联紧密,因此作者-关键词关联聚合可以形象地展示作者与关键词之间的关联关系,也能较好地反映出学科的知识结构。该层中的聚合深度有较大提高,可以形象地展示学科的显性知识节点(作者)与以关键词为代表的主题之间的关系。但这种关系缺乏量化的测度,不能给出更多有关学科结构量化方面的分析,也不能直接反映出作者与作者之间的关系。这种通过关键词连接作者的结果过于零散,为得到完善的学科领域知识结构,需要进一步提高聚合深度,以获得最合适的结果。事实上,作者-关键词关联聚合作为一种新型的拓展,其目的仍旧是在分析以作者为表征的知识聚合和知识结构,因此,如果将作者-关键词的二模结构转化为一模结构,一方面可以涵盖传统的合作分析结果,另一方面将更进一步解释作者之间的关系,从而形成新的、更深层次的聚合。

      第三层:作者基于关键词的共现关系,即作者关键词耦合。根据作者在表达自己研究内容所选用的专业术语的交集来描述作者研究内容上的相似性。刘蓓等将具有相同关键词的研究人员所构成的网络称为隐藏的关系网络,并称为“共词网络”[21],在此基础上,刘志辉、张志强提出作者关键词耦合网络[22],可用于分析作者之间的潜在合作关系[23]。作者基于关键词的共现关系,反映作者之间研究方向的相似性,基于这种相似性对作者进行聚合,可得到以作者为载体的学科隐形知识的聚合。学科隐性知识聚合使得具有相同研究方向的作者聚合在一起,可直观地呈现出学科的学术共同体,通过对学术共同体的进一步分析,就可以挖掘出学科知识结构。在该层中,聚合深度进一步提高,可以发现作者与作者之间的基于共同研究主题的关联关系,网络结构更加完整,揭示关系更加清楚、明确。不足之处是学科隐性知识聚合可视化结果的解释主要依靠分析人员重新根据内容进行标注和说明。如果在聚合中能同时反映出作者与主题紧密程度、作者之间的紧密程度,不用重新根据内容进行标注和说明,这种聚合达到的深度将会是最理想的,揭示的学科知识结构将更加具有可读性。

      第四层:作者-主题共现。根据作者关键词耦合关系,进一步对作者进行聚类,获得作者耦合网络,具有相同或相似研究方向的作者被聚集在一起。在此基础上进行因子分析,提取相同的研究主题,并将作者归并到各个研究主题,得到作者-主题关联聚合,具有相同或相似研究方向的作者聚集在共同研究主题的周围。基于作者与主题的共现关系建立作者-主题关联聚合,可以直接找到作者与某一研究主题之间的关系、哪些作者有相同的研究主题、哪些作者同时涉足几个研究主题等结论,并且其可视化结果也更加具有可读性,学科知识结构一目了然。相对于其他三个层次,该层的学科知识聚合深度最大,揭示的学科知识结构更加清晰、全面,更加具有可读性。作者-主题关联聚合与作者-关键词关联聚合比较,有较大改观,作者与主题之间的关系清晰明了,规范化的程度更高。其与学科知识隐形聚合相比,可以清楚地展现出作者共同的研究主题以及各个作者与各个主题之间的关系,其可视化结果不需要进一步标注,可读性更高。

      3 结语

      在基于共现关系的学科知识深度聚合模型中,每个聚合层次对学科知识聚合的深度不同,揭示学科知识结构的程度不同,学科知识聚合的目的也有不同之处,各有特点。第一层主要是通过分析以关键词为代表的学科主题结构,透视学科研究热点;通过作者合作情况或被引情况揭示学科专家的关系网络,从作者角度透视学科基础知识结构,聚合深度较浅。第二层通过展现作者与关键词之间的关联关系而透视学科结构,作者-关键词关联聚合作为一种新型的拓展,其目的仍旧是在分析以作者为表征的知识聚合和知识结构,聚合深度有较大提高。第三层通过作者研究方向的相似性进行学科隐形知识聚合,分析学术共同体,基于学术共同体透视学科知识结构,聚合深度进一步提高。第四层聚合深度相对最高,通过作者-主题关联聚合直接展现作者与学科主题之间的关系,是学科隐形知识聚合的深入分析,挖掘的学科知识结构更加清晰、易于解读。因此,在学科知识聚合研究中,可以根据不同的聚合目的,不同的聚合深度要求,选择不同的聚合层次,使得聚合结果更具有针对性,以满足不同用户的需求,为用户提供更好的知识服务。

      同时,笔者认为在学科知识聚合研究中,仅仅以耦合强度和共现强度[2,12]等知识关联的测度方法测度聚合深度不够全面,聚合深度的分析应同时考虑聚合层次和共现强度,这样的聚合深度才有意义,真正反映出学科知识聚合的程度和效果。深度聚合的目的是尽量提高“触及事物本质的程度”,即通过学科知识节点或知识单元之间的不同关联关系,达到对学科知识的聚合,从而尽可能准确、全面地呈现出一个学科的知识结构。不同的耦合强度或者共现强度,是对既定知识网络的关联关系的一种度量,反映的是学科知识不同节点的联系紧密程度,是整个学科知识结构的某一部分的特性。在挖掘学科知识结构的过程中,基于不同的知识节点和知识单元、不同的知识关联关系,聚合得到的学科知识结构是不同的,揭示学科知识结构的完整程度也是不同的。比如作者耦合是分析和挖掘学科“前沿知识结构”,而作者同被引分析则是分析学科的“基础知识结构”[8]。并且邱均平、董克[10]也证明基于不同作者共现网络的学科知识聚合在学科领域结构揭示能力上是有差异的。因此,只有从定性和定量双重角度出发,同时考虑聚合层次和共现强度这两项内容,学科知识的聚合深度才更切合实际意义,挖掘的学科知识结构才更全面、清晰且易读。

标签:;  ;  ;  ;  

基于共现关系的学科知识深度聚合研究_网络模型论文
下载Doc文档

猜你喜欢