网络信息生命周期的实证研究_生命周期理论论文

网络信息的生命周期实证研究,本文主要内容关键词为:生命周期论文,实证研究论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络信息一般指以数字化形式记录,以多媒体形式表达,依附于计算机存储设备中,并通过计算机网络通信方式进行传输、识别、利用的,在一定时间内可稳定获取和固定访问的信息单元。网络信息时刻都在增长,同时新的信息又在不断地取代旧的信息。信息的效用价值随着时间的流逝逐渐损耗,直至存档甚至销毁,情报学界称之为信息的老化现象。自从1943年美国纽约大学的C.F.Gosnell最早探索文献老化现象以来,许多学者在此领域作了广泛而深入的研究,从一定程度上揭示了信息生命演化的规律,建立了一系列的理论和数学模型,取得了丰硕的研究成果。

J.Bar-Ilan和B.C.Peritz两人最早运用文献计量学分析方法彻底研究特定主题的网络文档在一段时间内的动态性[1]。结果表明,在特定时间段内信息计量学上的“网络文献”发生了实质性的变化,呈现出3种相辅相成的趋势:文档消失;有些内容被添加到网上并被搜索引擎发现;现存的个人文档的变化。W.Koehler研究了网页和网站的两种变化形式:内容和结构[2]。最终,这项研究致力于理解不同类别网络文档的稳定性和持久性现象。它认为从信息维护和检索的视角来看,万维网并没有表现出革命性的变化。与网站一样,网页在稳定性和持久性方面表现出显著的差异,大小随着时间变化会收缩或扩张,但总体上看是不断增长的。W.Koehler通过一个为期4年的研究发现[3],导航页面比内容页面的生存率更高,网页的寿命是由其类别和用途相互作用的结果。这项发现建议我们需要对网页和网站的目标、功能和利用等进行仔细的检查。

王宏鑫和邱均平指出[4],网络信息老化研究的主要任务是找出网络信息老化的测度指标,采用数学、统计学等各种定量方法对网络信息老化进行定量描述和统计分析,以便揭示网络信息老化数量特征和内在规律,建立相应的数学模型并提出理论解释体系。段宇锋在分析网络信息资源老化的原因及其特征的基础上,指出衡量网络信息资源的老化状况应该从网络信息资源自身的生命周期和被利用情况两个方面考虑[5]。他提出以静态半衰期、动态半衰期和生存期作为衡量网络信息资源自身生命周期的指标,以宏观网络信息资源半衰期和微观网络信息资源半衰期作为衡量网络信息资源被利用情况的指标。

本文试图通过实证的方法研究网络信息生命周期,选取中文学术资源网、外文学术资源网、论坛网站、新闻网站和大型网站为研究对象,采取引文分析法和链接分析法,对网络信息的生命周期现象进行了观察和记录,通过对数据的处理和分析,揭示了一般意义上网络信息生命周期的基本规律和特性。

1 网络信息的老化与生命周期

1.1 网络信息老化的原因

网络信息的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐渐降低,这与传统文献的老化一样,是一种普遍存在的现象[5]。网络信息老化的原因很复杂,可以概括为以下几个方面:

1)网络信息的增长。由于网络信息总量的快速增加,单位量的网络信息利用率降低,效用价值减少,呈现出老化的特征。苏联著名情报学家Mihailov指出:“当前,已发表文章的增长、老化和离散规律,理所当然地被视为标志科学文献发展的最根本的规律”[6]。科学文献既增长又老化,在老化之中不断增长,增长是文献信息流的主要趋势。网络信息的增长速度极其惊人,据中国互联网络信息中心的统计,截至2007年12月31日,我国网站数量已达150万个,年增长率达到78.4%;网页总数为84.7亿个,年增长率达到89.4%,如图1所示[7]。

图1 我国网页数量增长情况

2)网络信息的更新。网络信息的更新是指网络信息在载体形态、数据组织方式、网址等外在特征不变的情况下,所含知识和情报在内容上的变化。新的网络信息的出现导致旧的网络信息加速老化。有研究发现,97%的网站6个月内会发生变化,观察时间为1年,比例上升为99%。对于网页而言,此组数据分别为98.3%和99.1%[8]。

3)网络信息的消失。网络信息的消失是指网络信息被从系统中移除,不能再被访问和利用,这意味着网络信息生命周期的结束。有研究表明,68%的网页1年内将被从网上移除;12.2%的网站和20.5%的网页6个月后不能再被访问到,1年后分别上升到17.7%和31.8%[5]。

4)网络信息的语用衰减。语用是指网络信息对于接收者的效用价值。对于接收者而言,只有需求的信息才值得传递。即使是需求的网络信息,也存在着“饱和定律或边界效用”问题,这就是说,随着接收者需求的实现,虽然网络信息的客观价值没有改变,但接收者的效用价值却因为他已接受了同类信息而降低,如图2所示[9]。此外,网络信息的价值受时间的制约。科学理论、技术创造以及经济信息都有时间的范围,超出时间范围,其价值也就立即消失。

图2 信息饱和律图示

网络信息的老化还受到另外一些因素的影响,就内因来说,比如网络信息的类型、性质和发展阶段等;就外因来说,如科技的进步,用户需求的变化和社会环境的变化等。

1.2 网络信息老化的特点

与传统的文献信息相比,网络信息的老化呈现出一些新的特征,主要包括:

1)快速性。网络信息获取和传播的快捷性,导致其发布后将被迅速地利用,进而迅速地被新的信息取代,失去使用效值而老化。一般来说,网络信息老化的速度远远大于传统的文献信息。

2)非载体依赖性。传统文献外部形态和内容是不可分割的,即使载体上的信息完全失去了效用价值,载体通常还会被保存,信息不会消失。原有信息的修正与更新、新信息的产生必然伴随着新载体产生。因此,传统文献信息从数量上来说总是不断增长的。而网络信息的外部形态和内容可以是相互独立的,网络信息在丧失效用价值之后通常会彻底消失,新信息的出现可能会覆盖旧的信息,并不一定意味着信息总量的增长。

3)动态性。网络环境中的信息是介于产生后永久存在与即刻消失两种状态之间的第三类信息,它的更新和消亡是其存在和运动的常态[5]。网络信息的存在、更新和消失是网络环境下的一个动态平衡体系。

4)复杂性。传统文献具有载体依赖性,便于相关机构统一管理和控制。而网络信息的许多特性导致了其老化现象的复杂性,在研究中难以对其数量进行精确的计量,对其历史状态进行系统的回溯。

网络信息老化的这些特点之间是紧密联系、相辅相成的,是由网络信息本身的特点所决定的。网络信息老化的快速性导致其动态性,而动态性和非载体依赖性导致其复杂性。

1.3 网络信息生命周期的定义

生命周期原为生物学术语,是指一个生物体从出生到死亡所经历的各个阶段和整个过程[10]。经引申和扩展后,生命周期被广泛应用于物理学、工程管理、企业管理和信息计量学等诸多学科领域,成为一种重要的研究方法,即把研究对象从产生到消亡的整个过程,划分成一个个前后相继,甚至周而复始的阶段来加以研究的方法。

网络信息存在老化现象,也具有明显的生命周期特性。笔者从用户体验的角度,将普遍意义上的网络信息的生命周期定义为:网络信息从产生到失去效用价值所经历的各个阶段和整个过程。

2 网络信息的生命周期实证分析

研究采用AlkheWeb搜索引擎和NetGet软件收集数据,通过实验观察、引文分析、网络链接分析,并运用Excel和SPSS软件来进行数据处理和统计,对网络信息的生命周期进行实证研究。

引文分析法的许多支持者认为该方法是一种至关重要的方法[11]。引文分析法的一项重要应用是性能的评估,它基于这样一个假设,即引用显示出被引用文献对于后来研究的正的价值[12]。虽然引文分析法的批评者长期挑战着引用可以作为衡量质量、效用甚至影响的有效指标的假设[13-15],但是大量的研究成果支持着这一假设[16-17]。从某种意义上说,论文被引用的频率可以被用来粗略地描述它被认同的价值,因此,引用可以被看做是合法的研究对象[13]。正如中国科学院邹承鲁院士所指出的:“我们不能说文章被引频率越高,效用价值越大,但一般而言,被引频次与效用价值是成正比的”[18]。

一些研究已经把引文分析和其他文献计量学原理和技术(通常是经过修改的)应用于网页的特征和链接结构分析[19]。正如Larson所指出的:“引用的概念对于超文本网络是基本的原则,在此它提供了信息空间链接和导航的主要机制”[20]。引文索引原理在动态的、网状结构的网页上找到了它的影子[21]。如果引用能够被追踪、计算和加权,为什么网站的链接不可以呢[22]?

实证研究基于这样一个假设:即网络信息被利用得越多,说明人们对它越感兴趣,其效用价值就越高;被利用得越少,说明人们对它失去了兴趣,其效用价值就越低。利用的形式是多种多样的,比如引用、阅读、评论、链接,等等。

笔者分别从中文学术资源网、外文学术资源网、论坛网站、新闻网站和大型网站中分别选取中国期刊网、Wiley InterScience平台、人民网强国论坛、网易新闻中心和Alexa排名前50的网站为研究对象,对不同类型的网络信息的生命周期态势进行观察、记录和分析。

1)中文期刊电子文献被引用情况。选取情报学领域4种主要中文期刊1994年刊登的文章为具体研究对象,利用中国期刊网的高级检索功能,统计这些文章在1994-2006各年的总被引用次数,如表1(数据获取时间为2007年5月3日)所示。

对每一种期刊的数据分别作归一化处理后乘以100,并取各年份总被引次数的平均值,以各年份为横坐标,以各年份总被引次数的平均值为纵坐标,得到的折线图如图3所示。

图3 情报学领域4种主要中文期刊1994年的文献被引用情况

假设以文献被引用的次数来度量文献信息的效用价值,则图3反映了文献信息的效用价值随着时间的推移而变化的规律。正如P.Alvarez和I.EscMona指出的:论文的受关注程度将被反映在之后出现的论文参考文献中[23]。如果一篇文章被引用得越来越少了,表明人们对该领域的研究兴趣不断衰退,文章的受关注程度逐渐降低,即不断老化。与“受关注程度”相对应,论文在期刊上发表后的一段时期内,它被引用的情况有一个共同特征:在开始的一段时期内引用频次上升,随后下降。

2)外文期刊电子文献被引用情况。选取Wiley InterScience平台上发表于2006年的所有期刊论文的全部参考文献为研究对象,利用该平台的高级检索功能,统计这些参考文献中发表于1967-2006各年份的文章总篇数,如表2(数据获取时间为2006年12月27日)所示。

对表2中各年份的数据作归一化处理后乘以100,以各年份为横坐标,以各年份参考文献总篇数为纵坐标,得到的折线图如图4所示。

图4显示,Wiley InterScience平台上发表于2006年的所有期刊论文的参考文献数量,随着时间的前移越来越少。如果以参考文献总篇数来度量某年份文献的效用价值,则图4反映了文献信息的效用价值随着时间的推移而变化的规律。

图4 Wiley InterScience平台上2006年所有期刊论文的参考文献中1967-2006各年份总篇数

3)论坛信息被阅读情况。从人民网强国论坛上发布于2008年2月10-11日的帖子中随机选取100条,对其进行跟踪观测,利用该网站的自动记录功能和NetGet软件,统计每一条帖子发布后每半小时内被阅读的次数(共观测20次),选取被阅读总次数最多的20条帖子的观测数据,如表3所示。

对表3中各列的数据作归一化处理后乘以100,取各次观测数据的平均值,以观测次数为横坐标,以各次观测数据的平均值为纵坐标,得到的折线图如图5所示。

图5 人民网强国论坛帖子被阅读情况

假设以被阅读的次数来度量论坛帖子的效用价值,则图5反映了帖子的效用价值随着时间的推移而变化的情况。

4)新闻信息被评论情况。从网易新闻中心发布于2007年11月10-11日的新闻中随机选取100条,对其进行跟踪观测,利用该网站的自动记录功能和NetGet软件,统计每一条新闻发布后每2小时内被评论的次数(共观测15次),选取被评论总次数最多的20条新闻的观测数据,如表4所示。

对表4中各列的数据作归一化处理后乘以100,取各次观测数据的平均值,以观测次数为横坐标,以各次观测数据的平均值为纵坐标,得到的折线图如图6所示。

假设以新闻被评论的次数来度量新闻的效用价值,则图6反映了新闻的效用价值随着时间的推移而变化的情况。

5)大型网站链接更新情况。从Alexa排名前50的网站中任选10个(Google,Windows Live,Microsoft Corporation,Wikipedia,EBay,新浪新闻中心,Rndex,The Internet Movie Database,Seznam,Megaupload),用AlltheWeb网站的链接分析功能,统计这些网站的链接更新数按时间的分布情况(以每3天为一个单位,从2008年1月24日至2007年11月23日,共20个单位时间),如表5(数据获取时间为2008年1月25日)所示。

图6 网易新闻被评论情况

对表5中各列的数据作归一化处理后乘以100,取各次观测的数据的平均数,以观测次数为横坐标,以各次观测数据的平均值为纵坐标,得到的折线图如图7所示。

假设以网络链接的更新数来度量大型网站信息的效用价值,则图7反映了大型网站信息的效用价值随着时间的推移而变化的情况。

3 实证分析结果

将图3至图7中的折线分别记作L1,L2,L3,L4,L5,整合到同一个图中,如图8所示。

观察图8不难发现:5条折线虽然并不完全相同,但变化趋势具有较大的相似性,即网络信息发布后,其效用价值会在较短的时间内迅速达到最大值,然后在较长一段时间内逐渐衰减,趋近于零。

以图8中各条折线上纵坐标值最大的点为界,可以将L1,L2,L3,L4,L5分别分割成两条折线,分别记作L1a,L1b,L2a,L2b,L3a,L3b,L4a,L4b,L5a,L5b。对分割后的各条折线进行回归分析和曲线估计,各条折线的回归方程如表6所示。

由表6可知,L1a,L2a,L3a,L4a,L5a的拟合曲线是二次曲线,可统一记作Yna=a0+a1X1-(n=1,2,3,4,5),L1b,L2b,L3b,L4b,L5b的拟合曲线是幂曲线,可统一记作Ynb=b0×(n=1,2,3,4,5)。由SPSS的分析数据可知,这些曲线拟合优度较为理想,方程高度显著有效。

如果分别取图8中L1和L4上每相邻3点的横坐标、纵坐标平均值(横坐标范围分别是[1,12],[1,15]),将会得到新的相应的点,这些点构成新的折线,分别记作M1和M4。

同样地,如果我们分别取图8中12、13和15上每相邻5点的横坐标、纵坐标平均值(横坐标范围分别是[1,20]),将会得到新的相应的点,这些点构成新的折线,分别记作M2,M3和M5,新的折线如图9所示。

图9 五类网络信息生命周期观测结果的平均值

对图9中的折线进行回归分析和曲线估计,得到的回归方程如表7所示。

从表7可以看出,M1,M2,M3,M4和M5的拟合曲线是负指数曲线,可被统一记作Yn(n=1,2,3,4,5)。由SPSS的分析数据可知,这些曲线拟合优度较为理想,方程高度显著有效。

笔者发现这里的负指数曲线符合B.C.Brookes在1970年提出的负指数方程[24]。通过一项历时研究,Brookes先生发现随着时间的推移,科学期刊论文被引用频率的衰减过程近似符合简单的负指数方程。该方程可以写作C(t),其中C(t)表示t年前发表的文献的被引用频率;K表示一个常数,其值随不同学科而异;a表示文献的老化率;t表示时间。

4 网络信息的生命周期曲线

根据图8和表6中的实证分析结果,可定性地绘制出网络信息生命周期曲线图,见图10。

图10 网络信息的生命周期曲线图

图10中横轴表示时间,纵轴表示网络信息的效用价值,曲线定性地描述了网络信息从产生到消亡整个过程效用价值变化的大概趋势。本文将这一过程分为成长期(如A-B段所示)、成熟期(如B-C段所示)和衰退期(如C-D段所示)3个阶段,其中A点表示网络信息的产生,D点表示网络信息的消亡。

从图10可以看出,网络信息产生之后很快进入成长期,其访问量迅速上升,其变化趋势呈现出二次曲线的规律。接着进入成熟期,网络信息的访问量达到最大值,这一阶段价值将被充分利用。然后就进入到衰退期,此时网络信息的访问量将逐渐降低,趋近于零,其变化趋势呈现出幂曲线的规律。一般来说,A-B段的长度会远远小于C-D段的长度,即成长期远远短于衰退期。

M点代表处于衰退期甚至已经消亡的网络信息的效用价值被重新激活的情形。它将开始一个新的生命周期,同样按照成长、成熟、衰退三阶段发展下去。激活的原因可能是网络信息的更新、外界环境的变化等。例如,某网站因长期缺乏管理,内容陈旧,访问量极小。直到某机构接管该网站后,加强对其管理和维护,访问量又迅速提升。又如,有一张30多年前的照片,从新闻角度来说不一定有很大的价值,但是“9·11”事件以后,它成为互联网站最热门的照片,因为照片里面的一个人被认为是本·拉登小时候的样子[25]。再比如,国家机密文件达到一定年限后失去保密的效用价值,被解密公布后,其效用价值又迅速提升,因为有许多组织和个人对解密后的文件很感兴趣,会对其进行收集和利用。

5 结束语

本文从用户体验的角度通过实证研究的方法,揭示了一般意义上网络信息的生命周期的基本规律和特性,并初步对网络信息的生命周期进行了阶段的划分。然而,现实中的网络信息是非常复杂的,网络信息的整体生态环境在不断变化,不同类型的网络信息之间的差异很大。更进一步认识不同类型网络信息的生命周期特性,并将生命周期理论应用于对网络信息的有效管理和合理利用,是值得进一步研究的课题。

收稿日期:2009-03-16

标签:;  ;  ;  

网络信息生命周期的实证研究_生命周期理论论文
下载Doc文档

猜你喜欢