网络计量核心领域的研究进展_文献计量学论文

网络计量学核心领域研究进展,本文主要内容关键词为:计量学论文,研究进展论文,核心论文,领域论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

20世纪60年代以来,在图书馆学、文献学、情报学和科学学领域相继出现了3个类似的术语:Bibliometrics、Scientometrics和Informetrics,它们分别代表着3个十分相似的定量性的分支学科,即文献计量学、科学计量学和信息计量学(以下简称“三计学”)。经过几十年的努力研究与推动,“三计学”都不同程度地取得了一定的进展,得到了国际学术界的广泛承认。

1 网络计量学概述

1.1 网络计量学的产生与发展

网络计量学(Webometrics)的诞生从本质上说是科学计量学、文献计量学、情报计量学和技术计量学在新的信息网络时代经过革命改造的结果[1]。

“网络计量学”一词首次出现是在1997年T.C.Almind和P.Ingwerse在“Journal of Documentation”上发表的文献《万维网上的情报计量学:网络计量方法门径》中。“从研究对象、方法、内容和目标等方面来看,网络信息计量学是采用数学、统计学等各种定量方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便揭示其数量特征和内在规律的一门新兴分支学科。它主要是由网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门交叉性边缘学科,也是信息计量学的一个新的发展方向和重要的研究领域,具有广阔的应用前景。”[2]这一定义既肯定了网络计量学对信息计量学的继承性,也没有把网络计量学限定在传统的计量学中。从某种意义上来说,网络信息计量学就是文献计量学、科学计量学、信息计量学在网络上应用的一门学科(见表1)。

网络计量学、信息计量学和科学计量学国际论坛暨国际科学合作研究第七届会议COLINET于2006年5月10-12日在法国东部城市南锡的洛林科学技术信息研究中心(INIST)举行。会议围绕科学计量学、信息计量学和网络计量学尤其是科学技术合作问题展开了研讨。美国科学计量学家比沃(D.de Beaver)强调上述计量学研究必须避免过度量化,力求将定性和定量方法相结合。网络计量学创始人英维尔森(P.Ingwersen)也对网络计量学研究的进展进行了梳理,并提出了网络指标、网络空间、网络链接和网络数据收集研究将是未来网络计量学的发展方向。英国学者麦克(T.Mike)对WISER进行了介绍,并认为该项目下一步的研究方向将是在链接创建尤其是学术文本的链接调查、时间序列分析、运用社会网络分析方法测度信息集合、大范围的社会科学研究、发展新的可视化方法等方面进行。这次会议对网络计量学等相关领域的发展前景提出了新的要求和目标,促进了这一领域的发展。

1.2 网络计量学的研究对象和研究内容

网上信息的计量对象主要涉及3个层次:①网上信息本身的直接计量问题。②网上文献、文献信息及其相关特征信息的计量问题。③网络结构单元的信息计量问题。

网络信息计量学的内容体系是由它的理论、方法和应用3个部分构成的,其理论是基础,方法是手段,应用是目的,三者相辅相成,不可偏废。在理论方面,主要研究网络信息计量学作为一门学科存在而必须解决的基本问题,研究网络信息计量的新概念、新指标和新规律,包括网上信息分布的集中与离散规律、著者规律、词频规律、增长和老化规律、引证规律、多媒体信息规律,以及这些规律的理论解释和数学模型的研究等;在方法方面,主要研究文献信息统计分析法、数学模型分析法、引文分析法、书目分析法、系统分析法等各种定量方法在网络信息计量分析中应用的原理、适用性和操作程序,以及必要的修正、改进和完善等;在应用方面,主要研究网络信息计量学在图书情报工作、信息资源管理、网络管理、科学学、科技管理与预测等多学科、多行业领域的应用。

2 主要研究方法

2.1 网络链接分析研究

2.1.1 引文分析 文献信息引证规律是文献计量学的基本规律之一,关于它的研究是文献计量学理论基础的重要组成部分,引文分析法自20世纪20年代产生以来,获得了普遍重视和广泛应用,SCI、SSCI、JCR等引文数据库的问世,为文献计量研究提供了强有力的工具。

所谓引文分析,就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析,以便揭示数量特征和内在规律的一种文献计量方法。引文分析有3种类型:一是等级序列分析,即从引文数量上进行研究;二是对引文链状关系进行分析,在等级分析的基础上对有代表性的分析对象进行“文献耦合”和共引或多共引聚类分析;三是从引文链反映出的主题相似性方向进行研究,找出引文索引和主题索引的联系和区别,提高检索的查准率和查全率。借鉴引文分析的理论体系和方法,可以把链接关系分为自链接(Selflink)、互链接(Reciprocal Link)、传递链接(Tranversal Link)、同被链接(Co-inlinks)以及链接耦合(Co-outlinks)5种形式。

2.1.2 链接分析法 1996年,美国爱荷华州立大学图书馆的G.McKiernan根据文献计量学中引文(Citation)的含义,首次提出了“Sitation”的概念,来描述网站(Site)之间相互链接的行为,他指出:CitedSites=Sitation,即所谓Sitation就是被引用的站点。此后,I.F.Aguillo在1996年比勒菲尔德召开的4S/EASST会议上引用了这一概念。1997年,在比利时著名文献计量学专家R.Rousseau发表的论文中,“Sitation”一词首次正式出现在文献题名当中。由此可以看出,网络链接分析的研究是伴随着“网络信息计量学”发展的,同时是促进网络信息计量学产生和发展的重要动力。

网络链接与科学文献的引文之间天然的相似性使文献计量学家找到了文献计量和网络的契合点,从这些相似性出发,研究者们将文献计量学中的引文分析法应用于网络信息计量研究中,由此产生了网络信息计量学的重要研究方法链接分析法(Link Analysis)。所谓链接分析方法,就是运用网络数据库、数学分析软件等工具,利用数学和情报学方法,对网络链接自身属性、链接对象、链接网络等各种对象进行分析,以便揭示其数量特征和内在规律,并用以解决各方面问题的一种研究方法[3]。

1)链接分析数量分布规律。网络计量学研究的主要内容之一就是考察文献计量学的基本规律在网络环境下有哪些新的特点。围绕这个问题,众多学者运用链接分析法进行了大量的研究,分析了布拉德福定律、齐夫定律、洛特卡定律等经典文献计量学规律如何作用在互联网环境中。Rousseau在1997年通过引用关系研究了文献计量学领域站点域名的洛特卡分布,发现在他所研究的343个网址中最高层域名服从洛特卡分布,而且对这些网址的引用也符合洛特卡分布,自引比例约为30%[4]。J.Nielsen发现网页点击率和网页链接率都符合Zipf定律,并认为可以通过Zipf曲线来分析网页的受欢迎程度比例约为30%[5]。Google搜索引擎的创始人S.Brin和L.Page对搜索到的网页的超链接进行定量分析来对其搜索结果排序,他们认为,Web站点的链接潜在地提供了确定给定主题的最有影响的或最权威的站点的途径。

2)链接分析在检索结果排序中的应用。数据的查全率和查准率是文献计量学研究工作的基本前提,网络信息计量学自然也不例外。目前用户使用搜索引擎时最棘手的问题已不再是检全率的问题,而是大量无用信息以及垃圾信息充斥着检索结果页面。目前的网络搜索引擎种类繁多,例如AltaVista、Northernlight、Google、Excite、Lycos、HotBot、Infoseek等许多种。提高查准率比较可行的办法是根据结果质量对检索结果进行排序,从而为用户提供最有效率的服务。由于链接分析法是一种有效的评价信息资源的方法,利用链接分析对检索结果进行排序也越来越受到信息工作人员的重视。目前国际上较有影响力的搜索引擎排序算法主要有两种,一种是Google采用的PageRank算法,另一种是IBM的CLEVER系统所采用的HITS算法。前者是独立于具体检索行为情况下的应用,指在没有进行检索时,先用链接分析法分析并评价网络上的信息资源,然后在检索时按信息的评价顺序提交结果;后者则与具体检索行为相关,当检索表达式提交后,搜索引擎再运用链接分析法检索网页、排序网页。

2.2 搜索引擎排序算法

1)Google的PageRank算法。PageRank是代表互联网上某个页面重要性的一个数值,它基于这样一个理论:若B网页设置有链接A网页的链接(B为A的导入链接时),说明B认为A有链接价值,是一个“重要”的网页。当B网页级别(重要性)比较高时,则A网页可从B网页这个导入链接分得一定的级别,并平均分配给A网页上的导出链接。提供导出链接的网页往往会通过一种PageRank反馈的机制提升自身的PageRank[6]。

一般搜索引擎将PageRank值与网页搜索结果相似度共同作为搜索结果的排序依据。就像后边即将阐述的一样,检索语句不会呈现在PageRank自己的计算式上,不管得到多少检索语句,PageRank也是一定的,该值仅仅依赖于网络的链接结构。搜索引擎网站排名算法中的各排名因子的重要性均取决于它们所提供信息的质量。Google通过PageRank算法在系统中整合了对链接的质量分析,并对发现的作弊网站进行封杀,从而保证了结果的相关性和精准度。他们假设Web上一个随机的浏览者从一个任意给定的页面出发,按照页面上的链接前进,随机浏览,PageRank是他访问到页面A的概率。

PageRank值的计算公式如下:

PageRank (A)=(1-d)+d(PageRank (T1)/C(T1)+…+PageRank(Tn)/C(Tn))

其中PageRank(A)表示给定页面A的PageRank得分;D为阻尼因子,一般设为0.85;PageRank(T1)表示一个指向A页的网站其本身的PageRank得分;C(T1)表示该页面所拥有的导出链接数量;PageRank(Tn)/C(Tn)表示为每一个指向A页的页面重复相同的步骤。

2)HITS算法。HITS算法(Hypertext-Induced Topic Search)是由康奈尔大学的J.Kleinberg博士于1998年首先提出的。它是IBM公司阿尔马登研究中心(IBM Almaden Research Center)的CLEVER研究项目中的一部分[7]。

Kleinberg认为搜索开始于用户的检索提问,每个页面的重要性也依赖于用户的检索提问,他将用户检索提问分为3种:特指主题检索提问(Specific Queries,也称窄主题检索提问)、泛指主题检索提问(Broad-topic Queries,也称宽主题检索提问)及相似网页检索提问(Similar-page Queries)。而HITS算法则专注于改善泛指主题检索的结果。

HITS算法认为网页的重要性应该依赖于用户提出的查询请求,而且对每一个网页应该将其Authority权重(由网页的Outlink决定)和Hub权重(由网页的Inlink决定)分开来考虑,通过分析页面之间的超链接结构,可以发现以下两种类型的页面:中心网页(Hub):一个指向权威页的超链接集合的Web页;权威网页(Authority):一个被多个Hub页指向的权威的Web页。见图1。

图1 中心网页和权威网页

为便于理解,Kleinberg用以下方式来表示链接关系,可以认为超链页面的集合V为一个有向图G=(V,E),图中的节点对应一个网页,有向边(p,q)∈E表示网页p链接指向网页q,节点p的出度(Out-degree)指节点p链出的网页数量,而节点p的入度(In-degree)则指的是链接指向节点p的网页数量。

3)HITS算法与PageRank算法的比较分析。这两者均是基于链接分析的搜索引擎排序算法,并且在算法中二者均利用了特征向量作为理论基础和收敛性依据,但仍然存在不同点:①从原理上看,虽然均同为链接分析算法,但HITS的Authority值只是相对于某个检索主题的权重,因此HITS算法也常被称为Query-dependent算法。而PageRank算法独立于检索主题,因此也常被称为Query-independent算法。②从权重的传播模型来看,HITS是首先通过基于文本的搜索引擎来获得最初的处理数据,网页重要性的传播是通过Hub页向Authority页传递且两者之间是相互增强的关系;而PageRank基于随机冲浪(Random Surfer)模型,可以认为它将网页的重要性从一个Authority页传递给另一个Authority页。③从处理的数据量及用户端等待时间来分析,HITS算法中需排序的网页数量一般为1000~5000个,但由于需要从基于内容分析的搜索引擎中提取根集并扩充基本集,这个过程需要耗费相当的时间。而PageRank算法表面上看处理的数据数量上远远超过了HITS算法,据Google介绍,目前已收录的中文网页已达33亿个以上,但由于其计算量在用户查询时已由服务器端独立完成,所以从用户端等待时间来看,PageRank算法应该比HITS要短。

3 国际研究进展

3.1 网络影响因子

网络影响因子(Web Impact Factors,Web-IF)[8]是情报学家P.Ingwersen在1998年提出的,他将网络影响因子定义为“在某一时间,来源于外部和自身内部指向特定国家或网站的网页数与该国或网站中的网页数之比”。该网站的网页数所得到的一个比率,它可以反映一个网站被重视和利用的程度,并以此来确定网上的核心网站。Ingwersen计算了3种网络影响因子:自链接WIF——测度在特定网页空间内的链接;外部WIF——测度外部空间指向特定网页空间的链接;全面WIF——测度所有指向网页空间的链接。这篇文献同时还把网站的引用分为External-ci-tations和Self-citations,认为External Web-IF是网站影响力的测度指标,而Self-linkage反映的是服务器上网页组织的逻辑结构。Ingwersen利用搜索引擎AltaVista统计与网站链接的网页数量,通过对挪威、英国、法国、丹麦、瑞典、芬兰和日本这7个国家和4个顶级域名(gov、org、com、edu)以及6个学术机构网站影响因子的测量,得出自链接不会影响网络影响因子的结果,原因在于用作搜索引擎的AltaVista只能统计链接到某个网页的网页数量而不是链接的次数。继Ingwersen之后,很多学者都对网络影响因子进行了研究工作,其中比较有代表性的是G.S.Alastair和Thelwall的研究。Thelwall在对英国大学网站作链接分析时,考虑到大学网站与学术期刊网站的不同之处,对Ingwersen提出的WIF的计算公式作了改进,并发现英国大学网站特定网络空间中的WIF与各大学的科研排名存在显著的相关性。

G.S.Alastair对澳大利亚和新西兰42个大学网站以及22个电子期刊的网络影响因子的研究和这项研究表明[9],大部分大学网站的Self-link WIFs在0.15左右,这与Ingwersen的研究结果是一致的。而对电子期刊的研究发现,由于电子期刊网站信息的组织较多地采用了相对路径,从而影响了搜索引擎“Self-link”的查找和判断,因而Self-link WIFs和Overall WIF的值都比预计的低,22种电子期刊只有5种被ISI收录;对电子期刊的链接在绝大多数情况下是指引到网站,而不是特定的文献,这与传统的文献引用表现出极大的差异性。同时,他还指出,由于网站地址多变性以及网络文献编辑方式等因素影响,采用WIF对其进行评价很难得出比较准确的结论。

3.2 基于Web的网络信息数据挖掘技术

数据挖掘,也被称做数据库中的知识发现,从技术上来说,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[10]。当数据挖掘技术应用于网络环境下的Web中就成为Web挖掘(Web Mining)。按照挖掘对象的不同,Web挖掘可分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining)。

1)Web内容挖掘。Web内容挖掘是从各种网络资源,如政府信息服务、数字图书馆、电子商务数据以及其他数据库中找到有用信息的过程。它的方法有两种:一种是基于代理的检索方法;另一种是基于数据库的方法,这种方法是把Web中异构的非结构化的数据集成或组织成结构化的数据,就像关系数据库那样,然后用标准的数据库查询机理和数据挖掘技术来访问和分析这些信息。

2)Web结构挖掘。Web结构挖掘是挖掘Web潜在的链接结构模式,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。

目前Web挖掘的具体应用和工具多在内容挖掘和使用挖掘方面,其实从网站的页面结构可以挖掘出相当重要的信息或知识。Web结构挖掘的主要内容在于超链分析,链接分析的基本原理就是通过统计分析互联网上哪些网页被链接次数多,那么该网页就被认为是比较重要的页面或者权威页面。目前Web结构挖掘领域定量分析Web网页结构最著名的算法分别是Brin和Page提出的“PageRank”算法和Kleinberg提出的“HITS(Hyperlink-induced Top Search)”算法,除以上两种算法外,还有很多学者提出了各种不同的算法,例如,HTSC(HypelinkTextbased FuzzClustering)算法。此外,L.Egghe、HildrunKretschmer等人还引进了数学、统计学中比较前沿的研究方法和研究成果。

3)Web使用挖掘。Web日志挖掘,就是在服务端对用户访问网络的活动记录进行挖掘。Web使用挖掘在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好度、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。

4 我国网络计量学发展现状

在每隔两年召开的国际文献计量学、信息计量学及科学计量学研讨会(ISSI)上,从1997年开始加入了网络计量学这个论题议程。Cybermetrics’01(Sydney)有5篇文献是关于网络计量学的概论、链接、网络信息的关键词、区域影响方面研究;Cybermetrics’03则围绕网络链接分析、网络信息挖掘及网络影响因素领域发表了10篇学术文献;Cybermetrics’04在网络计量学的概论、电子期刊的文献计量学前景方面产生了8篇文献。因此可见,网络计量学日益受到计量学界的重视。目前,虽然有关网络信息计量学的研究已初具规模,但我们还要清醒地认识到,涉及范围广泛、研究对象和内容丰富、发展迅速正是网络信息计量学的显著特征之一。

目前国内网络计量学研究分3个主要方向:①总体性介绍网络计量学,包括起源、在国外的发展经过、研究对象、研究方法和内容体系,以及发展方向等。代表文献有:《网络信息计量学及其应用研究》、《网络信息计量学概论及应用探讨》、《网络计量学研究:现状、问题与发展》、《网络计量学初探》等。②讨论其他事物或方法在网络计量学中的应用,或者网络计量学在其他方面的具体应用。代表文献是:《试论DublinCore在网络信息计量学中的应用》、《网络信息计量学在互联网上的应用研究》、《试论网络信息计量学在数字图书馆中的应用》、《网络信息计量学在数字图书馆建设中的应用》等。③技术实现及应用型,这一类文献等同于国外的实证型研究,一般就网络计量学中某一个小问题,从技术上阐述其实现的方法步骤以及如何在实践中应用等。代表文献有:《链接分析法存在的问题及改进方法》、《网络用户使用记录的计量分析》、《WWW网页的链接分析及其意义》、《网络影响因子及其测度》等。

目前对于网络计量学概论的研究基本上已达到饱和,各个学者阐述内容大致相同。技术实现及应用型文章有不断增长的趋势,这也是该学科走向成熟的标志之一,同时也是网络计量学最核心、最具发展潜力和最需要投入很大精力去研究的。这方面国内学者作出了一定贡献,目前国内有关网络链接分析的研究尚处于起步阶段,虽然近几年相关论文正在逐步增多,但主要以介绍国外研究成果和进展,以及理论探讨性的文章为主。例如,邱均平和黄晓斌[11]、吴国柱[12]、吴华香[13]等人的研究。在实证研究方面,国内的一些学者也做了有益的尝试,取得了一定的成果。例如,邱均平、安璐[14]、陈敬全[15]等人的研究。此外,段宇峰的博士论文《网络链接分析与网站评价研究》从3个方面对学术型网站的网络链接进行了较为全面的探讨,这在国内是开创性的,对推动国内网络链接分析理论与应用研究具有重要意义。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

网络计量核心领域的研究进展_文献计量学论文
下载Doc文档

猜你喜欢