科学发现的结构与时间属性_聚类论文

科学发现的结构与时间属性,本文主要内容关键词为:属性论文,结构论文,发现论文,时间论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       中图分类号:G305 文献标识码:A

       “科学发现的本质”是一个涉及学科范围广泛的基本问题。哲学家、社会学家、心理学家、计算机科学家、信息科学家等都研究过这个问题。科学发现无法回避对“洞察本质”的研究,即好的想法是如何从一个科学家群体传播到另一个群体。最近,我们提出了一种解释性和计算性的科学发现理论[1],并用诺贝尔奖获奖情况和其他的获奖情况做案例来加以说明。现在,我们用一些概念和原理进一步阐释这种理论并丰富原有的理论。

       我们首先将科学发现的研究文献进行了可视化分析;然后以此为基础讨论了我们的一些相关研究;接下来,介绍一些从其他领域引入的概念,并阐释我们的理论为什么和如何能提供一个相符的科学知识创造和传播的概念。

       度量(Metrics)

       我们从科学发现主题的可视化网络开始。将Web of Science中录用的科学发现文献(检索式为“scientific discovery”的article类型文献,1980年—2008年)记录输入到CiteSpace软件[2],生成文献共被引可视化网络。图1显示的是网络中的最大联通图。整个网络呈现出清晰的结构和聚类,模块值①为0.9017,平均轮廓值②为0.8747。这两个数值说明网络的组分(component)是相对彼此分离的,聚类(cluster)内部连接要比聚类间连接更趋紧密。

      

       图1 基于“科学发现”研究文献生成的文献共被引网络的最大联通图(1980-2008)

       CiteSpace参数:时间分区=2,每个时间分区选择前30个高被引文献,372个节点,1635条连线。

       标注出来的文献是关于科学发现的基础文献。聚类标签词(红色)是从引用该聚类的文献中提取出来。这样,聚类标签就为我们研究基础研究是如何影响随后研究提供了语境线索,我们引入∑值(sigma)③来探测那些中介中心性(betweenness)和被引突现程度都高的节点。∑值最高的节点包括23号聚类“计算机支持的发现环境(computer-supported discovery environment)”中的Langley P._1987(0.39)[3],15号聚类“绘制路径(charting pathway)中的Stent GS_1972(0.32)[4],18号聚类“基于文献的发现(literature-based discovery)”中的Swanson DR_1997(0.24)[5]和26号聚类“学术事业(academic career)”中的Kulkarni D_1988(0.22)[6]。

      

       图2 若干共被引聚类的时间线可视化图谱

       图2展示了共被引聚类的时间线视图。聚类标签的大小与聚类的规模成正比,标签越大,聚类中的节点越多。树年轮不仅表达了被引频次的信息,也传达了时间信息。红环表示被引率快速增长的时期,被称为引用突现(citation bursts)。例如,18号聚类中的斯沃森(D.R.Swanson)“基于文献的发现”一文近些年一直保持着被引率快速增长的态势,相比较之下兰利(P.Langley)的文章在早些年表现出引用突现,近些年情况就不一样了。但需要注意的是,兰利的文章节点带有紫色外圈,这表明这篇文章很可能跨越一个结构洞(structural hole)。换句话说,这篇文章在连接相邻聚类方面作用很大,如果没有这篇文章,25号聚类“规则归纳(rule induction)”与18号聚类“基于文献的发现”之间将无法关联。

       我们之所以对兰利这样的文章所发挥的作用特别感兴趣主要基于两点原因:1)它连接着不同的聚类,没有它,聚类间没有实质的关联;2)它有引用突现年。我们曾提到兰利的论文在知识网络的组分间发挥着桥梁作用。假设我们从网络中移走兰利的这篇论文,它将带走很多聚类间的实质连接。在兰利这篇文章发表之前,我们可以想象那是一个连接松散的或彼此分离的聚类集合。为便于讨论,假定18号聚类和28号聚类“支持科学发现学习”(supporting scientific discovery learning)是分离的。兰利这篇文章在整个主题演变过程中的意义就在于它扮演着连接两个聚类的中间人角色。这意味着什么?这种中间人模式在科学网络中常见吗?接下来,我们将研究一系列中间人模式的案例。

       中间人角色(Brokerage Patterns)

       第一个例子是基于恐怖主义的文献共被引网络(1996年—2007年)。图3显示的最大联通图由一些密集的共被引聚类组成。上半部与下半部之间的连线是最为重要的。重要的局部连线有两条,即位于左下角的连接着14号聚类“生物恐怖主义(biological terrorism)”和15号聚类“美国外交政策(American foreign policy)”的连线,以及位于上半部的连接着6号聚类“恐怖袭击(terrorist attack)”和7号聚类“媒体报道(media coverage)”的连线。节点Mallonee S_1996[7]的西格玛值最大,为0.72,其次是节点SchmidAP_1988[8]。

      

       图3 恐怖主义研究网络的最大联通图

      

       图4 恐怖主义研究网络的最大联通组分的时间线图谱

       网络的上下部分是仅靠一条连线连接,即上方的节点North CS_1999[9]和下方的节点Mallonee S_1996之间的连接。我们发现这个连接涉及到6篇施引文献(见表1)。最早的一篇是2003年发表在《美国预防医学学报》(American Journal of Preventive Medicine)的Berrios-Torres文章[10];2004年有3篇,分别发表在《外伤》(Trauma)、《预防医学》(Preventive Medicine)和《急诊医学》(Emergency Medicine);2006年还有2篇文章,其中有1篇是我们早先分析恐怖主义的文章。

      

      

       图5 节点Mallonee S_1996文章有个高达3.8057的突现率,中介中心性值为0.70,西格玛值为0.72两个被引峰值对应于美国俄克拉荷马州城市爆炸和911恐怖袭击

       节点Nortn CS_1999和Mallonee S_1996(图5)两篇文献在恐怖主义研究演进过程中发挥着重要的作用。它们在网络中的位置如此重要,以致成为后续研究中必不可少的参考文献。在这个例子中,尽管这两篇文章并没有显示出引用突现,但清晰地标示出两个不同研究领域的边界。网络的上半部分的研究主题主要是关于911恐怖事件引发的心理学问题,而下半部分的研究主题主要是受俄克拉荷马州城市爆炸驱动的。节点North CS_1999和Mallonee S_1996两篇文献对于在更广泛的范围,理解这两个部分及其之间的相互联系是非常重要的。例如,节点North CS_1999文献是关于俄克拉荷马州城市爆炸受害者的创伤后紧张症(PTSD)的研究,它为随后911恐怖袭击的PTSD研究提供了范例。7号聚类“媒体报道(media coverage)”为区分早期PTSD研究与911后PTSD研究提供了一个重要线索。

       图6中的节点Freeman LC_1979(0.44)[11]和Wasserman S_1994(0.42)[12]文献扮演着相似的角色。Freeman LC_1979文献突现率为7.71,中介中心性为0.41,西格玛值为0.44。Wasserman S._1994文献同时被上方的“复杂网络分析-无标度网络”和下方的“社会网络”两大阵营引用。Wasserman S._1994文献中介中心性最高,为0.58,被引突现率为11.84,西格玛值为0.42(见图7)。另外,1998年发表在Nature上的节点Watts DJ_1998[13]文章是复杂网络分析的奠基性文献。

      

       图6 复杂网络分析研究中的最大通图(1980-2009)

      

       图7 节点Wasserman S_1994文献在1998-2000年间被引突现

       图8显示了信息科学(1996-2008年)的最大联通子网。∑值最大的两个参考文献是节点Garfield E._1979(0.56)[14]和Lawrence S._2001(0.49)[15]。

      

       图8 信息科学研究网络的最大联通图(1996-2008)

       我们发现不同研究领域中存在着一些反复出现的共性。像节点LangleyP_1987,MaloneeS_1996,WassermanS_1994和GarfieldE_1979文章扮演着至少两种角色。在社会网络分析中,它们是守门人或经纪人。在异质群体间传播方面,它们是边界客体。接下来,我们将介绍边界客体的概念并解释为什么边界客体是不同于经纪人的,边界客体为何更适用于知识传播和发现理论。

       边界客体(Boundary Objects)

       在“基于文献的发现”研究中最著名的假设就是ABC模型。如果A→B,并且B→C,然后搜索的目标就是要找到支持A→C的证据。显然,B这个词汇或概念是关键。同理,A,B和C可能被更复杂地概念化。在恐怖主义研究中,A是关于俄克拉荷马州城市爆炸造成的身体伤害研究,B是关于身体伤害和创伤后恐惧症的研究,通常对象是指现场受害目击者,C是关于扩展的创伤后恐惧症研究,它的研究对象扩展到大众传媒覆盖的范围。一个概念、一个理论或一个方法的转换是在这种中介概念和具体的研究结果的作用之下发生的。这个观察导致依据结构和时间属性描绘中介概念特征进行搜索的研究。

       边界客体的概念引入有利于理解有着不同的观点、不同的专业背景和偏好的参与者之间是如何有效沟通的。不同学科领域的科学家合作通常会处于这种状况之下。边界客体最有价值的属性在于,它足够稳定以至于在沟通过程中保持自我一致,而且,还具有足够的灵活性以提供想象的余地。例如,地图就是一个很好的边界客体。它有很多信息层。另一方面,它为不同观点的探索留有余地。人们可以自由地示例说明自己的解读,这种解读便于彼此不了解的双方进行沟通。

       我们曾亲历过信息科学家与天文学家之间的跨学科合作,一个有效的边界客体就是宇宙图谱[16]。我们共同使用一些基本概念和测量尺寸,如赤经、秒差距、百万秒差距和光年。我们也共同使用同一种计算机编程语言,但是我们对如何绘制宇宙和宇宙的科学知识如何演化有着不同的思想。边界客体本身在不断进化,它促进了我们跨学科沟通。

       传播(Diffusion)和实际应用(Practical Implications)

       边界客体能够加速知识传播。

       信息觅食理论(Information foraging theory)为科学发现的传播和推广提供了一个具有普遍意义的理论解释。该理论的核心问题是我们的决策主要是受什么因素的影响。在形形色色的表面下,许多看似不同的问题却有着深刻的共性。影响我们决策的因素可分为两类,即定义非常广泛的风险和回报。信息觅食理论认为最关键的问题是二者的相互作用,也就是利润。科学发现本身对我们的认识的影响之一就是它能降低我们对风险的估计,因为它证明了过去没有实现过的想法并非完全是异想天开。这样也就提高了我们对整个利润的估计,从而使我们更容易沿着科学发现所引导的方向行动。这样看来,具有突出中介中心性的节点所起的作用不光是简单地连接了不同的其他节点,更重要的是它连接了不同类型的节点,使得过去难以想象的联系变的合情合理,容易为人所接受。

       在合作中,不同观点是有价值并有潜在生命力的。边界客体有助于不同观点的综合,并能丰富备择假设,这是单靠一种视角无法实现的。结构洞理论和信息觅食理论从不同侧面说明了为什么我们应该特别关注各个节点是如何与其他节点连接的,为什么创造性和网络的结构相互关联,为什么网络的结构能影响我们决策时对外在世界产生新的认识。

       结论(Conclusions)

       总之,创造性的源泉在于跨学科合作(interdisciplinary)而不是单纯的多学科合作(multidisciplinary)。通过用不同的思想来阐述同一问题使我们能够更深地理解问题的实质。

       解释性理论能够指引和描述科学是如何演进的。这样的理论同时给我们提供了具体实施的方法。计算理论有助于我们识别有前途的领域和方向,并有助于减少由于信息不完备而产生的决策偏差和不确定。下一步便是要通过实证研究来调查这种现象在科学发现和技术创新中普遍存在的程度。

       紧密耦合的价值链将数据分析、发现和传播整合在一起。

       致谢:

       NSF.合作者:Michael S.Vogeley.博士生:Jian Zhang,Don Pellegrino.WISELab of DUT.

       本文系作者对在“COLLNET 2009”国际研讨会(The 5th International Conference on Webometrics,Informetrics and Scientometrics and the 10th COLLNET meeting.Dalian,China.Sept 13-16,2009)上的主题报告《Structural and Temporal Properties of Scientific Discovery》整理而成,略有补充修改。

       注释:

       ①2004年纽曼(M.E.J.Newman)提出了一个社团识别效果的评价,即模块性(Modularity)。计算公式为:Q=∑[,i](e[,it]-a[2][,i])其中i是划分好的社团编号,e[,ii]是指社团内部连线占全图所有连线的比例,a[,i]是指与社团i相关的连线占全图所有连线的比例。聚类的效果越好,社团内部连线就会越多,从而e[,ii]越大,Q值越大。Q值一般在[0,1]区间内,Q>0.3(经验值)就意味着划分出来的社团结构是显著的。

       ②1990年,考夫曼(L.Kaufman)卢梭(Peter J.Rousseeuw)提出了另一个评价聚类效果的参数,即平均轮廓值。单个样本点的轮廓系数是S[,i]=1-a/b,其中a为点i与所在类中其它点的平均距离,记b为点i与最接近点i所在类的类中各点的平均距离。平均轮廓值是各样本点轮廓值的平均数。一般的,当轮廓值在0.7时,聚类是高效率令人信服的,在0.5以上,聚类一般认为是合理的。

       ③Sigma指数(∑)是对网络中节点中介中心性和突变性综合考虑的度量节点新颖性的指标。

标签:;  ;  ;  

科学发现的结构与时间属性_聚类论文
下载Doc文档

猜你喜欢