基于网络生态链的学科资源配置研究_网站分析论文

基于网络生态链的主题资源分布研究,本文主要内容关键词为:生态论文,主题论文,资源论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

doi:10.3772/j.issn.1000-0135.2010.05.005

1 引言

Web信息资源已成为各个领域可利用的最大信息资源库,但其过度增长的规模已超越了人们传统的利用能力,且这种态势还在进一步加强。如何从海量Web资源中快速准确地获取主题资源已成为各个领域关注的重要研究课题,互联网信息资源的分布状况与分布规律的发现是其中的关键。

本文尝试以生态学的视角分析互联网资源的分布状况,期望从纷繁杂乱的互联网资源中发现蕴含的主题资源分布规律,以便为主题资源的采集和利用,以及主题网站的建设与发展提供新的思路。

2 以生态学视角分析互联网资源分布的可行性

传统的观点认为,互联网资源是由节点和超链接构成的有向图[1],网页间的超链接成为web信息自动化采集的主要线索。因此,对于通用搜索引擎而言,理论上以随机访问方式就能遍历整个互联网络;于主题资源而言,其链接分布则更倾向于有关联关系的主题资源。针对这种Topic Locality现象[2],1994年De Bra和Post提出了FishSearch主题资源发现算法[3];1998年Hersovici等在改进FishSearch算法的基础上又提出了SharkSearch算法[4]。这些算法对主题资源的采集无疑都是有效的,但其局限性在于用网络漫游的方式对预采集目标进行判断,而对互联网的整体资源分布特性缺乏进一步的研究,因而容易导致资源采集的局部化,且在规模庞大的互联网间漫游还容易迷失方向。PageRank等用基于Web超链图评价的方法[5]虽然有助于发现权威网站,但却并不关注信息资源类别,因而不利于主题信息的发现。

对整个Web链接结构的研究已有不少有益的探索。2000年Broder等分析了Alta Vista数据库的链接结构,提出了bow-tie模型[6],将页面数据分为如图1所示的五大部分。

图1 bow-tie模型[6]

图1中,SCC的页面之间都存在彼此指向的链接;OUT是指那些不在SCC中,但可从SCC链出的页面集合;IN则是指SCC中页面不可直接到达,但却可链入到SCC中的页面集合;Tendrils指不在IN、OUT或SCC中,而与IN或OUT有链接关系的页面集合;Disconnected指剩余页面,这些页面不以任何方式与其他页面链接。

此后,不断有人以此为基础进行更深入的研究[7~11]。

第一项关于“链接-内容”的大范围研究始于2002年,由孟买的印度技术研究所(Indian Institute of Technology,IIT)的研究团队提出,并与一位来自普林斯顿NEC研究机构的研究者合作完成。其研究结果显示,某一主题的页面倾向于引用其他具有相同主题的页面;交叉主题间的链接不是随机的,各主题页面不是均匀地链接到其他页面,而是有偏好的,实验显示,页面链接倾向于那些具有相似词汇的页面,页面间的平均词汇相似度随着页面间的链接层次的增加而(呈指数级)降低[12]。对此观点,Menczer也通过不同的方法和假说给予了证实[13]。

Bjrneborn在bow-tie模型的基础上进一步分析了学术网站主题间的链接关系,提出了如图所示的链接模型[14]。

图2 学术网站主题结构图[14]

在图2中,单个主题的内部结构对应于bow-tie模型的五个部分,主题与主题之间存在部分交叉与链接。

至此,对Web链接结构和内容结构的研究成果已凸现出了互联网主题资源分布的生态特点。

从互联网的形成与发展看,它是人类智慧的结晶,也是人类社会活动的延伸,由此诞生的新型社会——网络社会——则是由人类社会进化而来的,是从人类社会分化出的一种表面虚拟,其实质是人类社会生活的另一种社会形态,它的底层是技术层面,中层是社会学层面,上层是人类自身对其终极意义的哲学追求[15]。正如人与自然环境所构成的生态系统一样,网络主体与网络环境构成了网络生态系统,它不是一个仅仅强调技术因素的系统,而是与网络发展有关的社会环境、信息与信息主体组成的庞大系统。因此,从抽象层面看待互联网是有局限性的,如果站在上位角度,融入人的因素,将信息的产生、加工处理、传递与共享等看做是人与人交互作用的结果,网站的构建、运营、生存及其发展壮大所采取的合作、竞争等策略在一定程度上则是人的思想的反映,于是,映射到技术层面上的站点间的关联关系变化就蕴含了生态学的意义。

3 基于网络生态链的主题资源分布分析

3.1 网络生态链含义

“网络生态链”(Network Ecological Chain)是我们分析互联网主题资源分布规律及其形成过程的基本概念。所谓网络生态链可定义为:基于主题相关的网站为了信息共享和生存需要,彼此之间通过超链接或内容引用而形成的环环相扣的链条式依存关系。

网络生态链是网站主题相对于特定内容而表现出的特殊的关联关系。超链接是技术实现层面的概念,网络生态链则与主题内容密切相关。对于前者,处在不同位置的链接是平等的,而对于特定的内容,不同层次的链接其地位、作用及价值等方面则表现为质的差异,例如,有些链接对于这一主题具有重要的价值,而对于另一主题则可以忽略不计。另外,除超链接可形成关联关系外,站点间内容的引用也可构成网络生态链。

3.2 主题网站群与主题资源的分布

基于上述观点,从生态学视角分析互联网站点间的关联关系,则其分布呈现显著的网络生态特性。

假设以网站为分析对象,以网站间的链接数、内容引用数及是否相互指向等要素为变量考察网站的分布状况可以发现,网站间呈现疏密不等的关系,聚集在一起的网站将自然形成网站群。根据文献[2]、文献[12]~[14]等多项研究成果证实,网页间的链接倾向于在内容相似的网页间建立,由此可以推断,群内的网站在主题上表现出较高的相关性,这样,特定时间聚集在一起的网站集合可视为主题网站群(Topic-Web Group)。

进一步研究还发现,在主题网站群内,不同网站的地位和作用是不同的,其中有些网站因其规模、口碑、权威性等因素,在群内有非常重要的地位和作用,它们影响着整个主题网站群的发展,成为群内的核心网站,核心网站的集合构成核心网站层。核心网站的站内资源因具有数量大、更新快、质量高、访问量大等特点而成为该主题的核心资源。另外,还有一些网站则游离于主题网站群的边缘,作为主题网站群的有益补充,但其影响相对较小,从而形成了外围网站,外围网站的集合构成外围网站层。核心网站与外围网站的地位并不是永恒不变的,有的网站会随着优势资源的扩张逐渐被用户认可而成为核心网站,同时,有些网站则会在竞争的压力下退出核心网站层。例如,有不少大型门户网站最初就是从个人网站发展而来的。

如果用空间中的点表示主题网站,用距离表示网站间关系的紧密程度,用连线表示网站间是否存在网络生态链,则可以得出如图所示的互联网主题网站群模型图。

图3 主题网站群模型图

在图3中,中心区域表示核心网站层,中间区域表示外围网站层,虚线外围表示与主题网站群有关联关系的泛主题(Broad Topic)内容。

主题网站群的分布特征与生态学中的生物群落具有惊人的相似性。在自然界中,同类生物聚集在一起形成生物群落,群落内部结构松散边界模糊,群内的生物种类及其相互关系决定了生物群落的结构和生态功能[16];在互联网中,聚焦在一起的网站在内容上则具有较高的相关性,主题相关的网站彼此抱团而形成主题网站群,不同主题网站群间存在一定的交叉与联结关系。

在生物群落中,优势物种控制着种群的能量流动,其数量、大小及其在食物链中的地位强烈影响着其他物种;在主题网站群中,核心网站层的站点类似于生物群落中的优势种,这部分网站在主题网站群中数量虽少,但因其地位和作用处于网络生态链的顶端,它们决定了关联网站群属于这一主题而非另一主题。沿核心网站层向外扩展,会发现网站的影响力和主题相关度通常呈递减之势,主题网站群边缘的网站是网络生态链的末端,它们或者规模较小;运行不稳定,或者主题特性不明显,因而较少受到用户的青睐;反之,由主题网站群边缘指向核心网站层,其主题相关性和影响力则呈加强之势。

3.3 主题网站群的形成分析

主题网站群的形成是一个由多方网络参与者互动的结果。当一个新生主题出现时,网站经营者预期该主题具有较强的价值,或者从已有的网站中裂变出新的主题网站或频道,或者建立新站点。依托原有网站裂变出的新主题借助已有的资源与人气优势往往容易受到用户的信赖,而新生主题站点则为了生存,在技术、资源等方面会相互借力,共享资源,优势互补,共同开辟新的市场和应对风险。在发展过程中,有的网站凭借信息资源丰富、质量高,更新快、技术水平高等优势,逐渐受到网络用户的好评,从而吸引更多的网络用户访问,并赢得商机,在提高自身的人力、物力、财力的前提下,有能力进一步提升网站规模与质量,这样就进入了一个良性循环,逐步成长为该主题领域中的核心网站。为了获得资源的优势互补,核心网站之间也会通过友情链接、合作伙伴、内容引用等方式彼此建立网络生态链,以便获得共同的进化优势,提高生存能力。同时,核心网站还会通过提供免费空间、赠予二级域名等多种形式,吸引更多主题资源建设者参与其中,由此奠定了核心主题网站群的基础,并使之不断发展壮大。

另有一些追随市场参与其中的中小网站,由于网站规模、品牌声誉、创新能力等多方面的限制无法成为核心网站。但其中不乏个别具有一定竞争力的,它们依附于核心网站,同时其有价值的资源也会被核心网站所引用,这样就会与核心网站形成相互转载资源的现象。还有一些中小网站竞争力虽弱,但有一定的创新能力,虽然其主题资源没能被核心网站认可,但却得到了部分用户的信任,这些网站就构成次外围主题网站层。

3.4 网络生态链的实证研究

为了验证上述分析,我们以汽车主题为例进行了实证研究。首先选取搜狐网汽车频道①(以下简称搜狐汽车)为种子网站,沿友情链接逐层扩展,用人工方法判定网络生态链的主题性质。

之所以选搜狐汽车为调研入口,是因其作为搜狐网的主题频道,站内资源丰富,影响力较大,受到网络用户的普遍认可,在通用搜索引擎的检索结果中排名也比较靠前,因此可认定为核心主题网站。选择友情链接是因其广泛存在,而且便于人工观察和跟踪,能一定程度说明问题。

网站层级的划分是依据链接层数赋予的,具体算法如下:设搜狐汽车为第0层,它链接的北青网汽车频道为第1层,北青网汽车链出的则为第2层,依次类推;如果北青网汽车反向又链接搜狐汽车,则它与搜狐汽车之间存在互为链接,应视为同一层,其层次属性也应为0,其后链接的网站层可随之改变,见表1。

从表1数据可以看出,第0层网站与汽车主题具有高度的相关性,因此可以断定核心网站层的存在。由核心网站层向下,随着链接层级的增加主题相关比由100%降低到5.44%,此所谓“主题漂移”。同时还可以看出,前三个层级的网站在主题网站群中所占比重很大,三层累计占主题资源的78.55%,究其原因,主要在于类似搜狐汽车、中国汽车网,爱卡汽车、车天下等在业内具有较强影响力的网站倾向于相互指引,彼此抱团,从而形成一组核心主题网站环链;而另一些影响力较弱的汽车类网站及汽车配件、汽车保养、洗车等主题相关网站则依附于核心网站的周围。第3层虽然数量较多,但主题相关比很低,与其有关联的网站绝大多数在前三个层级中已存在,因此可以认为,该层之后的网站层为该主题的网络生态链边缘,其站内资源绝大多数属于泛主题性质。

同时,我们还对财经类、军事类、教育类、旅游类等主题的网站进行了不完全跟踪统计,分析结果显.示,其分布特点与汽车主题基本类似。

由此可见,互联网资源的分布呈现主题生态特性,通过网络生态链,主题相关的网站彼此关联形成主群网站群现象,整个互联网络可以看作在特定时空由多个主题网站群及其硬件环境所组成的复合体。

4 小结与展望

基于网络生态链的分析方法是从生态学的视角看待互联网主题资源的关联关系,它为研究互联网主题资源的分布、形成及发展提供了一种新的方法。

目前,我们的研究主要侧重于理论层面的分析和个别类主题资源的实证研究,进一步的工作将关注网络生态链的类型、网络生态链层次算法、主题网站群分布的大规模实证研究等问题,期望更细致地刻画网络生态链的内部结构与形态变化,为主题资源的获取与利用以及主题网站群的建设提供理论指导与算法支持。

收稿日期:2009年7月10日

注释:

①对于综合类网站包含的多个主题频道,将其视为一系列独立的主题网站。

标签:;  

基于网络生态链的学科资源配置研究_网站分析论文
下载Doc文档

猜你喜欢