网络链路研究中的制约因素分析_搜索引擎论文

网络链路研究中的制约因素分析_搜索引擎论文

网络链接研究中的制约因素分析,本文主要内容关键词为:制约因素论文,链接论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G202 [文献标识码]A [文章编号]1003-2797(2004)06-0008-06

1 基础理论方面存在的问题

1.1 链接的定义

链接是网络最重要的构成要素,通过链接使得浩如烟海的网络信息资源形成一个庞大的整体。目前,绝大部分资料和研究者并没有给“网络链接”一个明确的定义,最常见的表述形式是“使用超文本中的链接可以从一个页面直接跳转到其他的页面、图像或者服务器”[1];“HTML使用锚标签(〈a〉)来创建一个联接到其他文件的链接。锚可以指向网络上的任何资源:HTML页面,图像,声音,影片等等。在锚的起始标签〈a〉和结束标签〈/a〉中间的部分将被显示为超级链接。”[2]显然,这并不是严格的定义。有些研究者在说明和描述的基础上进行了初步的概括,譬如:“所谓的超链接是指从一个网页指向一个目标的连接关系,这个目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是一个图片、一个电子邮件地址、一个文件,甚至一个应用程序”[3],但并没有阐明链接的本质。笔者认为,Charles F.Goldfard和Paul Prescod在《XML手册》一书中给出的定义相对比较准确,他们认为“链接就是简单地声明两个(或更多)事物之间的关系”[4]。根据这个定义,在使用HTML语言的网页中,至少有以下六种形式都可以认为是链接:

〈A HREF="page.htm"〉〈/a〉

〈IMG SRC=“url”〉

〈MAP〉〈AREA HREF="page.htm"〉〈/ map〉

〈FRAME SRC="page.htm"〉

〈META HTTP-EQUIV=REFRESH CONTENT="0;url=page.htm"〉

〈LINK REV="***"REL="***"HREF="URL"〉

由于研究者在链接概念上的分歧和对纷繁复杂链接形式认识上的差异,不同的研究采用的判定标准千差万别,这使得不同研究结论之间的比较和借鉴失去了基础。

1.2 链接的类型

对于网络链接类型的划分,研究者们依据不同的属性制定了多种网络链接的划分标准,得到了形式多样的分类结果。Robert C.Vreeland根据链接靶向的差异,将与网站相关的链接分成该网站指向其他网站的链接(luminosity)和其他网站指向该网站的链接(visibility)[5];Peter Ingwersen将指向特定网站和网页的链接(inlinks或inbound Iinks)分为来自外部的链接(external-citations)和来自内部的链接(self-citations)[6];Trigg R.将网站指向自身内部的链接分为普通链接和评论性链接,而Joslyn C.则将其分为实质链接与语义;刘书雁、方平则将其他网站指向某网站的链接分为推荐链接、合作链接、相关链接、资源链接、通讯链接和广告链接等6种类型[7]。在理论方面,较为系统地对链接进行分类的是张海涛等的研究,他们在《超文本系统信息结构组成元素——链的分析》一文中,着重对链接的类型进行了讨论。该研究认为,依据不同的标准可以将链分为多种类型。具体为:根据链的功能,可分为基本结构链、组织和推理链以及导航链。其中,基本结构链包括基本链、交叉索引链、节点内注释链;组织和推理链包括索引链、IS-a链、Has-a链、蕴含链和执行链;导航链包括迁移链、放大链、动链和视图链;根据链接的方式可分为实链和虚链(或称动态链)。实链是在超文本系统中真正存在的链,它是超文本系统设计者事先已经设计好,并且已经存在的链,不会随着系统的运行而变化。虚链是指链不是真正存在的,而是根据系统的运行环境,经过计算而生成的链;根据链的端点,可分为双端点链、多端点链、单端点链和无端点链[8]。

1.3 链接的目的

对链接目的的研究首先需要解决的问题是如何用客观标准衡量人的主观思维,只有这样才能得到客观的结果。迄今为止,这还是网络链接研究领域的一个难点。目前,这方面的文献很少,较全面而系统的是2000年Hak Joon Kim对学术型电子文献中超链接行为动机的研究。该研究表明,学术性电子文献中超链接行为产生的动机并不是学术期刊引用行为的简单延伸,具体来说,其动机可以分为四类:第一类是基于学术的动机。它又可以被分成12种,包括为了提供附加信息和背景信息;为了提供范例;为了证实和支持论点;对所阐述的问题以图像等直观的方式予以表明;对术语、概念、符号下定义和解释;提供历史背景;提供有关设想、概念和理论的基础;与自身进行比较;提供数据和统计信息;表明目前的研究状况;确定目前研究所处的阶段;描述所使用的方法。第二类是基于社会的动机。它包括:公开和宣传被链接的信息;对作者和机构荣誉的归属;出于被链接信息的作者或机构在该领域的显赫声望;证实自己掌握了该领域最重要的和最新的研究成果;编辑或编辑政策鼓励使用超链接。第三类是基于技术的动机。它又分为两种:一种是为读者提供便捷的存取方式,另一种仅仅是因为被链接的电子信息资源能以链接的方式获得而使用链接。第四类是将链接作为价值增值的手段。并且,研究者还指出,多数链接行为的产生是多种动机共同驱动的结果。期刊引用行为的发生是基于学术和社会因素的动机作用的结果,而链接行为除了学术和社会动机之外,基于技术的动机也具有相当重要的作用,有39%的链接至少是部分基于技术动机而使用的[9]。

1.4 研究的理论依据

目前,人们对网络信息的生产、传播和利用规律的认识非常有限,还没有形成成熟的理论和方法用以指导目前的研究。网络链接研究领域的情况更是如此。1996~1998年间,也就是网络链接研究的起步阶段,鉴于网络中的链接关系与传统文献计量学中文献之间的引用关系在形式上极为相似,一些学者主张直接将引文分析等文献计量学的方法和理论“嫁接”到网络链接研究中来[10~12]。在这一思想的指导下,各国学者开展了大量研究,并取得了一些成果,像Rousseau利用Alta Vista对涉及“bibliometrics”、“informetrics”和“scientometrics”网页的研究揭示,这些网页的域名和被链接数均符合Lotka分布[13]。但是,由于这些研究采用工具所固有的缺陷以及研究对象的局限性,其成果的科学性和可靠性一直备受争议。同时,一些研究者们开始反思网络链接现象的本质问题,对沿用传统文献计量学的思路和方法开展网络链接研究的可行性和科学性提出了质疑Stephen P.Harter和Charlotte E.Ford设计了一项研究,专门对此进行了剖析。他们选用了Harter1996年利用SCI进行引文分析相同的39种电子期刊,以Inforseek作为检索电子期刊被链接情况的工具,将所获得的结果进行比较。结果发现,首先,指向电子期刊的链接与期刊文献的引用是不同的,在指向电子期刊的网络链接中,有近半数是结构性自我链接,对于评价文献的学术价值和研究学术交流行为没有意义。而且,只有不到6%的站外链接直接指向具体文献。其次,利用引文分析对电子期刊进行排序的结果和利用指向电子期刊的链接数对电子期刊排序的结果完全不具有相关性。并且,被链接次数最多的电子期刊与ISI评价的影响力最大的电子期刊也不相同。再次,通过内容分析发现,具有指向这些电子期刊的链接的网页,其内容性质极为复杂,只有不到8%的网页是学术性的,而绝大部分属于信息指引性网页、作者个人主页和网上书目,这与ISI的收录范围存在着巨大的差异;同时,研究者还认为,由于目前存在的众多技术问题和电子期刊网站的复杂性,利用搜索引擎和网络链接进行研究在可靠性方面不如ISI的引文分析[14]。 Mike Thelwall的研究也证实网页之间的链接与传统期刊文献的引用是不同的。他通过对英国大学网站中被链接次数最多的100个网页进行分析发现,网页被链接次数并不能反映其学术价值。被链接次数多的网页往往是那些能够提供有助于进一步查找并获取丰富信息的网页,而其本身并不具备很高的学术价值[15]。这些研究有助于人们正确认识网络链接。

随着研究者们对链接认识的不断深化和研究的逐步深入,越来越多的研究者意识到网络链接分析和引文分析之间的差异多于共性,两者之间虽有可以相互借鉴之处,但需要一定的条件和依据,绝对不能生搬硬套地使用。更为可喜的是,无论是在理论还是在实践领域,我们在审慎地借鉴和发展文献计量学思想的基础上取得了一些令人瞩目的成果,譬如,网络影响因子(Web-IF)的提出、PageRank和 HITS算法的形成[16~17]。但是,我们也应该清醒地认识到,目前在网络链接研究领域,许多最基本的理论问题尚未澄清,几乎所有的研究都处于探索阶段。

2 研究方法方面存在的问题

2.1 研究对象的选择

我们研究网络链接与其他学科和方向的研究一样,必须首先确定研究对象和研究范围。从宏观的、抽象的角度来说,我们的研究对象是网络链接。但是,对于具体的研究而言,我们却置身于十分尴尬的境地:为确保研究的科学性,我们必须确知在研究所设定的范围内研究对象总体的数量、确切的位置,以及其他相关属性;然而,网络的开放性、动态性、分布性和组织管理的松散性使我们根本无法确知上述必要的信息。在相当多的情况下,我们甚至无法说明实际被考察的对象占总体的比例、是否具有代表性,以及研究结论的适用范围。这种情况在相当长的一段时间内也许根本没有办法妥善解决。资料表明,在1995、1996年,Lycos覆盖了网上91%的内容。而目前,Lawrence和Giles称,任何搜索引擎的网络覆盖率都不大于16%。并且,其索引对象还仅仅限于能够自由存取的静态网页,即“可索引网络(indexable Web)”。而“不可见网络(invisible Web)”,即网络数据库、动态数据等所包含的信息容量几乎相当于前者的500倍[18~19]。这意味着即使我们只从覆盖率这个表征数量的特征出发,或者以其中某种类型的网络信息载体作为研究对象也是不可能的。

在这个问题上我们可以再退一步从更为具体的角度讨论,即假设我们只需要对某个机构的网站,或者某个域、主机进行研究,仍然有许多相关问题难以解决。譬如,我们以计算某大学网站的网络影响力作为研究目的。这似乎是一个非常简单的问题,但在实际研究过程中却有许多问题令人感到非常棘手。我们姑且不讨论如何计量这所大学网站中的网页数、链接数,以及如何判定这些链接的类型和相互关系,但这个机构的网站有多少个网址是首先必须要明确的。我们发现,一所国际上知名的大学往往拥有多个B类和C类地址,这意味着这些机构在网上有多个网络域名和成千上万的主机,要详尽地获取这些信息相当困难,甚至是不可能的。

笔者认为,在目前的网络环境下,我们解决这个问题最好从缩小外延着手,通过层层限定,将研究对象锁定在我们能够掌控的范围和空间内,通过对不同研究结果的综合和审慎的外推,提炼出普遍适用的规律。

2.2 原始数据的获取

获取样本的原始数据是后续研究的基础和前提,然而,网络数据与传统信息资源的数据存在着许多重要的差异,加大了数据获取的难度。具体主要表现在以下几个方面:①网络数据的动态变化性。网络数据始终处于不断变化之中,譬如,信息内容的更新、URL的变更、存取权限的改变,甚至从网络中删除,Wallace Koehler在1996年12月的最后两周,使用“WebCrawler random URL generator”从 Web Crawler数据库中随机获取361个网址,以周为时间间隔,进行了为期一年的跟踪研究。结果表明,6个月后,有12.2%的网站和20.5%的网页不能被访问到;1年后,分别上升到17.7%和31.8%。根据网页的“Permanence”特征,他将网页分成“Permanence”、“intermittence”和“disappearance”三类,每周有0.5%的网页和网站消失,在任何时刻,都有 5%的间断出现的网页,即当时无法访问到,而随后又会出现。另外,在6个月和1年内网站发生变化的比率分别为97%和超过99%,对于网页,这组数据分别为98.3%和99,1%[20]。因此,他认为网络信息交流有别于以往的产生后永久存在的方式和产生后即刻消失的方式,是一种介于两者之间的人类新的信息交流方式。类似的,Bar-Ilan和Peritz在1998、1999年,以信息计量学为主题对网络信息的生命周期进行了研究。研究发现,在6个月内近50%的网页发生了变化,1年后68%的网页被从网上移除[21]。从样本的可比性出发,我们需要在同一时刻获得不同样本的原始数据,但这是极为困难的。②不可见网络信息资源。网络信息的组织包括自由文本组织方式、主题树组织方式和数据库组织方式,以自由文本和主题树方式组织和表达信息之间的关系基本上都是依靠链接来实现,而以数据库方式组织的信息则是利用数据库管理系统表达其特征和关系,网络通过特定接口实现对数据库中信息的访问。以数据库方式组织和存储的信息我们将其归入不可见资源。对于许多系统和网站,它们的大部分数据都是以数据库方式组织和管理的,这会使我们所获取数据的完整性受到极大影响。③动态链接。它是由JavaScript、VBScript等脚本语言根据环境和其他参数的变化产生的,在源文件中没有特定的表现形式。动态链接产生的方式多种多样,没有显而易见的规律可循,在链接分析过程中很难捕获。④非文本文件。它涵括的范围很广,如图像文件、压缩文件、动画、声频、视频、数据库等。非文本文件的数据格式各异,目前的数据处理技术很难实现文件中链接的自动识别,更不用说分析其类型和相互之间的关系。

2.3 研究工具的缺陷

目前研究所采用的工具主要分为两类:一类是具有链接统计和简单分析功能的商业搜索引擎,另一类是针对具体研究而设计和开发的专用程序或系统。

商业搜索引擎是网络链接研究最常用的获取数据的方法之一。对于网络链接,尤其是前期的研究,对搜索引擎的依赖是显而易见的。这主要是基于以下原因:①虽然网络链接与期刊文献的引用在目的和作用上所存在的差异是非常显著的,但两者在形式上却极其相似。Tomas C .Almind和Peter Ingwersen曾对网络信息的组织结构和特征与传统的ISI的引文数据库进行了比较,证实了两者之间的相似性[21]。②在1995、1996年,单一的搜索引擎有可能覆盖大部分网络资源,从而比较全面地反映网络信息的整体状况。因而,在当时利用搜索引擎开展网络链接研究具有合理的一面。③部分搜索引擎提供了诸如link、domain、host这样的检索指令,为开展网络链接研究提供了方法和手段,并且,一些研究确实也取得了阶段性的重要成果。然而,事实证明,商业搜索引擎不像SCI那样是专门为进行引用分析。而设计和开发的,因而从功能上来说,并不是开展网络链接研究的最佳工具。虽然Alata Vista、 Google、HotBot、AllTheWeb等搜索引擎提供了类似“link”、“domain”、“host”等指令,我们能利用这些功能对简单的网络链接关系进行分析,但对于聚类等复杂的链接现象仍缺乏有效的工具。并且,搜索引擎对网络信息的覆盖率、检索结果的准确性等问题对网络链接研究也直接造成了严重的影响。Lawrence和Giles于1999年2月发表在《Nature》上的“Accessibility of information on the web.”一文认为,任何搜索引擎的网络覆盖率都不大于16%。Mike Thewall的研究进一步发现,Alta Vista、Infoseek、MSN、Hotbot等搜索引擎对不同域网站的覆盖率存在着明显的差异。譬如,AltaVista对芬兰网站的覆盖率为82%,而对亚美尼亚的覆盖率仅为33%,对英国大学网站的覆盖率达97.5%,而对商业网站的覆盖率则只有57%;同时,搜索引擎对特定网站中网页的获取也是不全面的,利物浦大学网站的22250个网页,在AltaVista中只有15083个被索引,东英格兰大学9508个网页也只有1769个被索引。因此,Thewall认为,利用搜索引擎对网络影响因子进行研究,将会对结果造成极大影响[22]。Judit Bar-Ilan在2001年1月到2002年1月间,对AltaVista、Raging Search、Fast、Google、 Hotbot、Iwon和Northern Light进行了四轮研究,这一研究表明,利用这些搜索引擎所提供的链接检索功能,检索网站被链接情况所得结果是不完整的。在第一轮研究中,没有被检出的网页数占总网页数的比例分别为20%、32%、3%、70%、48%、14%、11%。因而,研究者认为,利用搜索引擎所提供的功能及获得数据计算网络影响因子是不合适的[23]。1998年Bar-Ilan和Bharat、Broder证实搜索引擎索引范围重叠程度很小[24]。其中,Bharat和Broder的研究表明,AltaVista、HotBot、Excite和Infoseek共同索引的部分只有220万个网页,占四者总覆盖率的1.4%[25]。Herbert Snyder和Howard Rosenbaum在1999年发表的文献中,对在Hotbot和Alta Vista中,各域(.COM、EDU、.ORG、.NET、.MIL、.GOV)网页数和域之间存在链接关系的网页数量进行了研究。结果显示,Alta Vista中包含的各域网页数是Hotbot的2倍甚至更多,如Hotbot中.COM域和.ORG域的网页数为26,287,080、4,276,123,而Alta Vista中的数量为67,949,180和8,618,739;但用“domain”和“link”/“linkdomain”对各域之间存在链接关系的网页数的计量结果却是Hotbot远远高于Alta Vista,两者相差近10倍甚至更多。这个结果表明,搜索引擎在对网络信息的类型和数量的覆盖率上存在着明显的差异,并且搜索引擎检索结果的精确性令人质疑[26]。同时,Ronald Rousseau的研究发现Alta Vista的算法存在缺陷。他从1999年7月27日到1999年12月20日,每日在相同的时间利用Alta Vista检索“saxophone*”、“trumpet *”、“pope”三个词,统计检出的页面数量,并以Northern Light作为对照,进行了为期21周的观察。结果表明,Northern Light的检索结果呈平稳的递增趋势,网络信息量的增长和搜索引擎数据的更新能很好地解释这一结果;然而,Alta Vista检索结果的波动程度极大,并且,在同一时刻使用不同的检索词,表现出的波动特性也不一致。因而,这种波动是不能用网络负荷过重解释的,只能认为其算法存在着缺陷[27]。搜索引擎的稳定性是衡量其检索质量的重要标准,因而,一些学者认为,目前搜索引擎的稳定性较差,这对于各种基于搜索引擎的网络链接研究足以直接造成研究结果的偏差。

针对具体研究而设计和开发的专用程序和系统尽管在网络链接分析的功能方面比商业搜索引擎要完善,但其覆盖率、链接识别能力则要逊色得多。

2.4 网页的计数原则不一致

网络影响因子和页面平均链接数是网络链接研究中最有价值、也是最常使用的两个指标,它们分别用以衡量网络主体影响力以及信息密度和信息组织完备程度。这两者的计算公式是:网络影响因子=网络主体的被链接次数/页面文件数;页面平均链接数=网络主体中含有的链接数量/页面文件数。从目前所报道的研究来看,页面文件数的计量可以通过两个途径实现:第一个是以搜索引擎索引的该网络主体页面文件的数量作为依据。这种方法存在三个问题。首先,搜索引擎对网上信息的覆盖率是极为有限的,而且还具有地域差异性。其次,所有搜索引擎中的信息都不是即时更新的,而网络信息的时效性强是其最主要的特点,网站中的链接是随着信息的更新而不断变化的,即使搜索引擎能索引网站中的所有网页,但那也是历史性的,不能反映网站当前的实际情况。再次,我们对搜索引擎判定网页的标准并不清楚,可能不同的搜索引擎采用的规则并不一致。第二种方式是使用网络下载工具将所研究的主体复制到本地后,采用专用软件进行分析和统计。当然,也可以设计一个与搜索引擎相同的网络资源自动搜索和索引工具,利用该工具实现对特定主体的分析和资源的统计。但是,采用这种方式仍然存在两个问题:首先是我们所采用和自主设计的工具的健壮性,其难点在于对动态链接的处理。其次,在于如何科学地确立页面数的判定标准。这个问题实际上还涉及两个方面,即:一要明确是以浏览显示对象作为标准还是以物理存储的文件实体作为衡量页面的依据,这主要涉及如何对带框架网页的计数;二是要弄清什么类型的文件可以视为页面文件。这两个方面既相互独立又相互联系。就笔者所见文献,对于前者,有研究者简单地进行过分析,但并没有形成明确的结论;而对于后者,迄今尚未见系统的探讨。

由于不同研究对网页计数方法和判定标准的差异,使得现有相当一部分研究成果相互之间不具有可比性。

3 应用研究方面存在的问题

网络链接的应用研究主要集中在五个方面,即提高网络信息的检索效率、探索网络信息空间结构、知识挖掘、网站评价以及在科学评价中的应用。从研究内容我们可以看到,网络链接分析与引文分析的应用领域具有惊人的一致性,这表明网络链接研究仍未摆脱传统文献计量学和科学计量学的影响,还没有真正领悟网络已经对现实生活所造成的深刻影响和它所具有的巨大潜在效用。因此,我们认为在网络链接的应用研究领域存在的主要问题是思路不开阔,缺乏创造性的思维和研究。当然,这个问题的产生是与目前网络链接研究的整体水平分不开的。人们对网络链接的认识非常有限,即使是最基本的理论问题我们都还没有达成共识,在研究方法上不仅没有形成自身的特征性研究方法,而且就连目前所采用的一般学科研究方法和借鉴其他学科的研究方法在运用过程中存在的种种问题也有待解决,更没有可供参考和遵循的普遍规律作为应用研究的理论依据,因此,在应用领域的突破是相当困难的。一言以蔽之,尽管目前绝大部分应用研究还停留在初步的探索阶段,但这也是网络链接研究必然经历的过程,只有当理论和方法逐步完善起来的时候,应用研究才可能取得突破性进展。

综上所述,网络链接在理论、方法和应用领域还存在许多问题有待解决,这些问题已经成为制约网络链接研究深入开展的重要因素。为此,我们必须正视存在的这些问题,联合各领域的专家,以科学、严谨的态度扎扎实实地解决每一个问题,使网络链接研究真正为网上信息的有序化组织和合理分布、为网络信息资源的优化配置和有效利用、为网络管理的规范化和科学化提供必要的理论支持和定量依据,从而改善网络的组织管理和信息资源管理,提高其管理水平,促进其经济效益和社会效益的充分发挥,推动社会经济信息化、网络化健康发展。

标签:;  ;  ;  ;  ;  ;  ;  ;  

网络链路研究中的制约因素分析_搜索引擎论文
下载Doc文档

猜你喜欢