网络计量学评述,本文主要内容关键词为:计量学论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 网络计量学的提出
传统的文献计量学是以科学文献及其数量为研究对象的,采用数学、统计学等的计量方法,探讨科学文献本身规律,提高文献情报管理科学性,通过文献规律的探讨,进而揭示科学技术的规律性。随着计算机网络技术的迅速发展,信息资源数字化、网络化的进程不断加快,网上数字信息的计量研究成为一个新课题,这直接促成了网络信息计量学的诞生。
网络计量学的开创性研究始于Almind和Larson,他们采用网络计量测度建构Web认知图和数学模型,采用完整的模拟程序对Web页连续性进行测度,使用Alta Vista去显示每个站点的网页数和网页间链接数目,获得连续性阵列原始数据,并记录下包含至少一个链接指向另一个URL的HTML文献的数目,显示出链接的相关网页数目。1997年,T.C.Almind在Journal of Documentation上发表了
Informatric analyses on the world wide web:methodological approaches
to“Webometrics”一文,首次提出了用“Webometrics”来描述将文献计量学方法应用于万维网(WWW)上的研究,他认为:网络计量学包括了所有使用情报计量和其他计量方法对网络通信有关问题的研究,网络信息计量学是以文献计量学为基础发展起来的,它是运用文献计量学、科学计量学以及信息技术对网络通信的有关问题所进行的研究,认为“情报计量方法所使用的手段完全可以应用到万维网上,只不过是将万维网看作引文网络,传统的引文由Web页面所取代。”
1997年,在第六届国际科学计量学和信息计量学大会上,Leo Eggbe运用数学模型描述了超文本系统,Luwel等学者则从电子处理手段对出版时滞的影响方面提出了各自的见解,这些观点代表着国外学者对网络信息和电子化信息的定量测度研究的进展情况。同年,网络电子期刊《Cybermetrics》创刊,其选题范围包括科学计量方法在网络科学通讯分析中的应用。它的诞生使网络计量学开始形成一门相对独立的科学分支。1999年,在第七届国际科学计量学与信息计量学大会上,推出了一些新的研究成果,其中《网络信息检索时使用关键词检索命中结果数量的时效性评价》是网络信息计量学研究的较有代表性的文献。
将传统文献计量方法使用在Web分析上,通常可统计任何方面,诸如语言、单词、题名、主题词、关键词、词频、知识项、引文信息、著者、出版者、作者合作的能力和程度,还有对作者的引文分析,学科或数据库增长的测量,新概念、新定义的增长、信息的测量、信息措施的形式与特征。
网络计量学被定义为:应用文献计量学、科学计量学及信息技术,采用数学、统计学等定量方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以揭示其数量特征和内在规律的一门新兴分支学科,其根本目的是要通过网上信息的计量研究,为网上信息的有序化组织和合理分布、为网络信息资源的优化配置和有效利用、为网络管理的规范化和科学化提供必要的定量依据,以改善网络的组织管理和信息管理,提高其管理水平,促进其经济效益和社会效益的充分发挥。
2 网络计量学的研究对象
在现阶段网络计量学的研究对象十分广泛,包括网络技术、网页中文献计量方法、万维网的电子数据库分析及网络结构、电子数据库资源的产出量、主页、电子引文分析、电子媒介和资源研究、数字图书馆、虚拟图书馆、电子信息系统、域名分布等。网络计量学的研究对象主要涉及以下三个方面:
2.1 网上信息本身的计量
网上信息本身的直接计量问题,既包括数字信息或文字信息,又涉及集文字、图像和声音为一体的多媒体信息等,如以字节为单位的信息量和流量的计量等。
2.2 网上文献的计量
网络信息的特点决定了在文献计量学基础上发展起来的网络计量学有其新的内容体系和研究方法,需要制定新概念、新指标,探索新规律。
(1)对著者分布规律的研究。对于网络文献著者以集团出现的,如果最终仍以个人著作量大小来进行评价的话,可以团体作为一个评价单位进行统计,由该团体根据其成员在论文生产中的贡献给予加权评定,然后回馈给网络,进行最后的计量分析,以揭示著者的分布规律;对于不署名的网络文献则给计量研究增加了很大障碍。
(2)对文献分散规律的研究。网上论文不必经过传统的审查挑选即可发表,而网站自身的建设将会影响论文的分布,产生网络文献集中与分散的矛盾现象,因此,有必要研究“少数网站中堆积了大量论文、大量网站稀释了少量的论文”这一现象的规律。
(3)对文献增长规律的研究。网络环境下,从事学术研究的人们需要建立专业化功能更强的搜索引擎,使其从单一的查询工具向因特网全功能查询服务发展,有必要将网络文献按多种文献特征进行标引,形成庞大而全面的索引数据库,为学术研究提供完备的分析数据,并从中揭示网上文献增长规律。
(4)对文献老化规律的研究。网络的高时效性使文献发表的时滞问题得到缓解,保证了最新科研成果的及时公布,然而,网络信息更新速度之快也使网络环境下的文献存在稍纵即逝的问题,对期刊、图书的选购订阅问题也产生了重大影响,这就需要对网络文献半衰期的概念进行更加细致和完善的界定与探索,使网络文献管理趋于合理化。
(5)对文献引文分析的研究。利用传统的引文分析指标——同被引和引文耦等来表明文献之间的定量化关系,可以反映出科学研究的理论方法的演变过程,也可以勾勒出科学研究的足迹与脉络,对于网络文献,应当在继承传统的基础上有所发展,对“相关文献”、“引文数”、“被引数”等一系列指标实现选择范围的稳定性、连续性、明确性,使分析数据更为可靠、更为有效。
2.3 网络站点的信息计量
网站作为网络时代的“知识地图”成为网络计量学家所关注的问题,不仅网络文献保持着聚类关系,网站之间也有着独特的引用关系。网络文献之间不仅是参考文献的标注方式,更多的是使用了超级链接的方式;不仅是参考文献的条目,有可能是通过点击得到引用文献的全文。网络计量学研究的正是万维网(引文网)中的web网页(引文)之间的引用关系,同被引与引文耦合仍然可以用于揭示站点之间的相关性。而网络的动态性、高时效性也可成为我们研究的更有效的计量指标。
3 网络计量学的研究方法
网络计量学是在传统的文献计量学、情报计量学及科学计量学的基础上发展起来的,因此它们的研究方法和规律存在着相似性。如对网页简单的记数及内容分析与传统出版物分析基本类似、web页面的增长符合函数规律、网页的链接数量符合布拉德福定律等。在研究方法方面,可以借鉴其文献信息统计方法、数学模型分析方法、引文分析法、书目分析法、系统分析法等各种计量方法。但由于网络信息的无序化、动态化及可选范围的扩大,又不能将文献计量方法简单地套用到网络信息资源的计量。
从20世纪90年代中后期以来,许多文献计量学家已从不同角度进行这方面的探索研究。Albraham和Larson将Web当作一个分布式数字图书馆,将基于印刷的图书馆知识结构的分析的工具和方法,用于网络计量,实现基于网络环境的转变。Almind用多种文献计量方法对北欧国家的网页链接种类及类型作研究,其方法包括对网页的分等级取样以及为了对网页进行分析而采取的网页下载。Rousseau用AltaVista研究某一特定领域的Web站点的链接。他对网址的分布模式和进入网页的链接作了分析,发现域名的频率和网站间的链接频率符合洛特卡分布。
3.1 网络计量学研究方法的类型
(1)运用统计方法对数据进行统计分析。网络计量学使用概率论与统计学对网络中的数据进行科学分析,得出网络本身所适用的数学模型,从而揭示网络文献及信息资源的新规律。应用统计方法进行研究是网络信息定量研究的基础。与传统文献统计分析法类似,网络信息资源的收集、整理分析中都会用到统计学方法。传统文献信息统计分析有其相对完善的指标体系,而由于网络信息的丰富性、分散性以及网络结构的复杂性,对于网络计量学来说,需要构建针对网络信息测度的宏观的统计指标体系,指标体系形成后,在实际研究中,将各因素与指标建立对应关系,进行统计分析,从而建立数学模型,再将模型投入到科研工作中,在应用中不断修正,使模型趋于合理。
(2)运用图论的方法对数据进行可视化研究。即运用网络绘图和信息技术研究网页间超级链接的拓扑结构,直观反映网页间的链接关系。近年来的许多研究工作已从图形的角度对网络进行研究,并且将由图形理论所得出的算法模型用于网上问题挖掘。人们将图论方法(Graph Theoretical Methods)和传统及新的研究方法综合运用,并扩充和确认了这种方法的研究和应用。图形理论分析与统计方法一样,促成了对域名结构和分类的进一步研究。
(3)运用提示数据聚簇和分散的工具进行数据挖掘研究。Frawley认为,“数据挖掘”的含义是对数据中隐含的、以前不知道的、潜在有用信息的有价值的提取。数据挖掘技术包括信息检索、统计学、机器学习、模式识别等。与统计方法相比,数据挖掘可用于对一个站点上的各种特征进行深度研究。数据挖掘在文献和引文数据库中所应用的聚类分析技术在网络环境下也同样适用。
(4)运用解释和模拟网络结构和增长理论工具进行模型研究。这种方法是通过构建网络结构的模型来研究网络,诸如研究各个国家的域的等级——频次分布、网页之间和网页内部、外部的超链接情况。
3.2 链接分析法与网络影响因子(WIF)
引文分析法是评价传统期刊质量的重要工具,利用引文分析可以研究学科情报资源分布、确定核心期刊、研究科学交流和信息传递规律、研究文献老化和信息利用规律等。在网络环境下,可以将Web网站中的链接看作类似于印刷型出版物中的引文。传统的引文分析所需的大量数据是由《科学引文索引》(SCI)、《社会科学引文索引》(SSCI)和《艺术和人文引文索引》(A&HCI)所提供的,同时在进行评价工作时,人们广泛采用期刊影响因子(Impact Factor,IF)这一指标。
在网络环境下,搜索引擎为网络文献计量提供数据源,与期刊影响因子相类似。McKernan于1996年首先提出了sitation这一新术语,用以研究网页之间的引用关系。Rousseau认为,对网页链接关系的研究与对发表文章的引文研究相似,但又不尽相同,他对网址的分布模式和进入网页的链接作了分析,发现在他所研究的343个网址中最高层域名服从洛特卡分布,而且对这些网址的引用也符合格特卡分布,自引比例约为30%。
1998年,Ingwersen发表了《网络影响因子计算》的文章,对计算网址的影响因子的可行性和可靠性作了研究,提出了“网络影响因子”(Web lmpact Factor,WIF)。他对网络影响因子的定义为:在一给定时间,某个国家的网址(或某个网址)被其他网址和其自身所链接的网页数目的逻辑和除以该国家(或该网址)的所有网;他用A1taVista的指令来测量链接网页的数目,计算出站点的链接数目比率;他计算了三类Web空间的Web影响因子:自链接Web影响因子、外部链接影响因子、整体Web影响因子;Ingwersen得出了3个有趣的结论:①由于用作搜索引擎的AltaVista只能统计链接到某个网页的网页数目而不是链接的次数,因此自链接不会影响网络影响因子的结果。②对于非主要域名的个人网址,其WIF的可信度要小得多。③在做WIF计算时可以利用计算结果发生的变化作为评价网络引擎性能的一个测度。
对于第2个结论,Smith和Thelwall也分别作了研究,但他们在研究中使用的均是不稳定版的A1taVista,因而,他们均对引擎的覆盖范围和检索性能产生了怀疑。Thelwall认为,现存的网络影响因子的概念在实际应用中还只是一个相对粗浅的提法,因而所得出的结论也存在很多问题。
(1)WIF测定方法:Web站点之间链接(即站链)为给定的科学领域提供了一个潜在的和有用的方式去评价该站点是否最有影响和最具权威,被高度链接的站点被认为是一个重要的信息源。Ingwersen使用AltaVista指令测量链接网页的数目是一种可取的方法。
(2)WIF的计算方法:网络影响因子的概念是借鉴期刊影响因子的计算方法提出来的,期刊影响因子(IF)是一种期刊论文的平均被引率,一种期刊某年度的影响因子等于该年引用该刊前两年论文的总次数除以前两年该刊发表的论文总数。Ingwersen提出的WIF的计算公式是:
网站的网络影响因子(WIF)=网站的链接量÷网站的网页数
在此,WIF的计算没有考虑时间滞后因素,这是因为要确定某一网页何时被建立链接是很困难的,而且网络链接是动态的、即时的,对于一般网站链接分析来说,考虑时间滞后因素既不必要也不可行。
Thelwall在研究英国大学的WIF的时候,考虑到大学网站不同于学术期刊网站,并不是每一个网页都有学术性内容,用评价学术网站影响力的网页平均被链接率来测度大学网站的网络影响因子并不合适,便对Ingwersen的公式作了改进,他定义:大学网站U在特定网域空间S中的WIF等于网络空间S中站点U以外的所有包含至少一个指向站点U中的网页的链接的网页数目除以该大学所有全职科研人员的数目。
基于同样的考虑,邱均平等在《中国大学网站链接分析及网络影响因子探讨》中又提出对WIF计算公式的另外两种改进方法,即将上面的计算方法中的分母分别换成大学二级教学单位(院、系)数目和大学本科学位数目,并分别记为WIFc和WIFb。提出这种改进的依据是,大学网站的内容常常是按照院系来组织的,但考虑到各高校院系规模不一,故用大学本科学位数与其作对照。
Alastair Smith为了检验WIF可以作为评价站点和域名的一种工具,他选择了东南亚国家站点、澳大利亚大学web站点、澳大利亚电子期刊、澳大利亚和新西兰的国家图书馆站点,调查东南亚和澳大利亚许多web空间的WIF。Alastair Smiht在计算方法上沿用了Ingwerwen的方法学,在选择搜索引擎时,他比较了A1taVista、基于Inktomin搜索引擎的HotBot和InfoSeek,最终选择了AltaVista来搜索数据。在对计算结果分别进行了比较研究后,他得出结论认为:由于WIF计算的是每个网页的平均链接数量,所以受到外部链接和Web空间的网页数量的影响;在国际间进行比较时,拥有网页数量多的域的外部WIF就低,反之,则高,因此,外部WIF在进行国际域名的比较时要谨慎,而只对具有相似特征的域间比较时,才比较有效。
(3)研究链接分析的意义:①促进网络环境下的科学信息交流,研究学科发展规律。通过分析站点被其他站点“引用”的情况,也就是对其它站点指向某站点的链接的数量进行统计分析,可以帮助确定核心站点。核心站点的确定,可以帮助用户快速查找和选择利用网络信息,引导科研方向。通过共引分析,可以识别相关站点群落,方便同行之间的学术交流。②为网络信息资源的评价提供依据。可以通过计算网络资源被检索或引用的次数来测定网络资源的重要性,也有专家通过引文分析法来评价网络信息资源。③指导网站建设和网络管理,完善搜索引擎的功能。高度链接的站点被认为是“核心站点”,这样就可以增加网站的知名度,推动网站建设。根据链接深度分析结果,使网络机器人对不同类型的网络进行不同深度的遍历,同时删除无效链接,以提高其检索质量。美国斯坦福大学的数学图书馆计划开发的Google搜索引擎就可以通过对搜索到的网页的超级链接进行定量分析来对其搜索结果进行排序。
3.3 图论分析法
Broder等人用AltaVista收集了分别包含200M网页和15亿个链接,采用图论分析法对本地和全球网络图形结构进行了研究。采用图论分析法时,将静止的网页看成是图形的一个结点,将网页间的超级链接看成是图形中的弧。他们针对从1999年5月到1999年12月的Web搜索结果进行了三组实验。在第一组实验中他们归纳出链人链出度分布(in-and out-degree distributions),确认了以前研究报告中的指数函数定律。在第二组实验中,他们研究了网络图形的有向链接和无向链接,结果显示,指数函数定律同样也适用于这些链接成分的规模。最后,他们以随机选择的结点为起点,采用BFS算法进行了一系列的研究。他们的研究分析得出了一个非常有趣的类似于一个大的“领结”图形的网络宏观结构。这个图形很自然的分成了四个组成都分。第一片是一个中间核心(SCC),其中的所有网页都可以沿着有向链接到达另一个网页。第二和第三片分别被称为“IN”和“OUT"。“IN”中的网页可以到达SCC,但不能由SCC到达“IN”,“OUT"中的网页可由SCC到达,但不能链接回SCC。第四片被称为“TENDRELS”,其中的网页既不能从SCC到达,也不能到达SCC。SCC的规模相对较小,大约由56M网页所组成,其他三部分各包含有44M网页。他们的研究结果还显示,从一个随机选定的源网页到目标网页的任意路径存在的概率只有24%。Broder等人的研究结果表明,网络的宏观结果比以前人们以小规模范围内所构建的模型要复杂得多,他们的研究对人们更好地了解网络结构特性有一定的价值。
4 网络信息计量学的研究工具
网络信息计量分析作为一种定量分析方法,与传统的手工统计分析方法不同,其主要是利用计算机通过有关数据库或信息网络来获取文献信息的统计数据,并进行数据整理等工作,为以后的数据分析奠定基础。信息计量学研究要有一定规模的数据支持。国外,早在20世纪60年代初,美国就开始编制SCI,其意义在于揭示科学技术文献之间、作者之间的引证与被引证的相互关系,每一部分索引的内容都与文献相互引用密切相关,其出版发行为信息计量学研究提供了一种多功能的工具,在一定程度上提供了引文分析所必需的大量数据,有效地推动了信息计量学和网络信息计量分析研究的全面展开。国内近几年在信息计量研究中也取得了较大进展,成功地研制了一些中文电子文献信息数据工具,如:《中国科技论文与引文数据库》、《中国科学引文数据库》(CSCD)、《中文社会科学引文索引》(CSSCI)、《中国期刊引文数据库》(CNKI)等。
5 网络计量学的数据收集方法
5.1 网上日志文件数据收集方法
Web服务器生成的日志文件有时是原始的文件,有时是由第三方统计机构在服务器端加入的模块生成的。因此,采用这种收集方法有助于定制自己格式的日志文件,保证其真实性和可靠性,并降低传递日志文件所产生的网络流量,便于第三方机构进行站间访问量的认证度量工作。如度量和识别访问者、度量网站访问量、进行页面阅览、访问者特征指标及度量等等。具体方法及测度指标如下:①对于访问者,先采用IP地址来标识,不同的IP地址代表不同的访问者。当来访的IP地址相同时,需通过跟踪文件来标识访问者,不同的跟踪文件表明不同的访问者;在服务器端加入的模块生成的含有扩展内容的日志文件,可识别出访问者的跟踪文件。②网站访问量指标的度量方法为:一次浏览器请求即算作一次页面阅览;请求或命中即为了获得服务器上的一个资源(可以是文本、图像或任何可以被包含在页面内的元素)。使用日志文件进行统计时,日志文件中一条记录就是一个请求,通过对这些记录的统计便获得度量的数据。③访问者特征指标及度量的方法是:从日志文件中获得浏览器类型的信息,从而获得统计数据。具体是通过浏览器字符串来得到浏览器的语言。
5.2 网上、网下的调查数据收集方法
采用计算机网上自动搜寻、网上联机调查和网下抽样调查等调查方法,收集Intemet上网计算机数、用户人数、用户分布、信息流量分布、域名注册状况、各个互联网络国际出口带宽以及WWW站点数量的分布等;网络用户的个人信息如网民男性、女性的比例、用户的年龄段、婚姻状况、地域分布、文化程度、行业分布、职业、上网行为及心理研究等等。主要测度有:①网民监测(Audience Measurement):利用监测软件记录网络软硬件使用情况、网络安全状况,以及网民上网行为、网上交易、网上娱乐和接触网上广告的情况,并通过网络和数据库技术自动进行汇总分析。②网站监测(Web Site Measurement):利用监测软件监测网站的流量、浏览时间、网民的网上行为模式、使用网上服务和接触网上广告的情况,并接受网站的委托进行数据的深度开发。③在线调查(Online Survey):利用网络技术在网上收集固定样组的人口特征资料,调查样本网民的分布情况,研究网民上网心理和上网习惯、网民对网站的评价、对电子商务的看法和意见等等,以便深入理解网民行为,更好地挖掘网络在线监测的结果。④离线调查(Off-line Survey):利用传统的问卷调查、深度访谈和群组讨论等调查手段围绕对互联网的态度。
5.3 网上搜索引擎数据收集方法
网络搜索引擎能够根据用户的需求找到相关信息。但如使用搜索引擎工具借助文献计量学的理论方法进行网络计量研究,则搜索引擎必须具有下面几个条件:①具有能够包括所研究的网络环境下的所有网页及其连接的大型数据库;②具有能够辨别一定网络环境下网页数量和连接数量的搜索命令;③具有统计网页和其连接结果的布尔型逻辑命令。
6 研究网络计量学的意义
与手工的文献统计分析相比,在基本条件具备的情况下,网络信息计量研究有着更加广泛的应用领域。它不仅可在图书情报(数字图书馆)领域内具体应用,而且还可以应用于许多相关学科,如科学学、社会学、人才学、历史学等领域的研究中。
数字图书馆是知识经济时代的产物,是传统图书馆寻求自身发展的有效途径,它具有数字化资源、网络化存取和分布式管理三大特征。对于数字图书馆而言,网络数据库和网络信息资源是不可缺少的,随着网络信息量的剧增较好地满足了人们的信息需求,同时又给数字图书馆的建设和管理带来了许多实际困难。为了解决这些困难,就必须加强对网络信息规律的研究,提高管理的效率。网络信息计量学无论从其研究对象与研究目的,还是从其研究方法与内容体系来看,都要适应这一要求,它能对数字图书馆的资源管理进行科学的指导,并提供定量依据,提高数字图书馆的管理水平。首先,数字图书馆应合理分配馆藏空间,进行动态馆藏的维护,网络信息计量学可以为此提供定量依据和科学方法;在探明各类型信息数量特征的基础上,分析其增长和老化规律,判断信息的价值和时效性,使有价值的信息更充分地发挥作用,使信息空间得到有效的利用。其次,数字图书馆在网络信息计量学的指导下,能够满足用户的信息需求,改变以馆藏为中心的旧模式,使计算机信息检索系统走向科学化、规范化,从而更方便用户查询。第三,通过对网站、数据库等信息组织机构进行定量分析评价,人们可确定出核心信息来源(核心网站)。数字图书馆获得这些信息资源,可以充分满足用户的需求。
对网络计量学的研究有利于网络信息资源的建设管理。网络信息混乱无序的原因之一就是没有规范的表达方式和组织管理,这给网络信息的分析计量工作设置了一定的障碍。因此,如果每个信息发布者都依照一定的标准(如都柏林核心集或某些网络信息计量指标)表达和组织网络信息资源,即网络信息资源能以某种规范的形式存在,其规律就会比较容易发现,信息用户利用网络就会更便捷,而网络信息的价值也更能够得到体现。
网络计量学对网络信息检索也有一定的指导意义。网络环境下,信息用户一般是利用搜索引擎进行检索的。搜索引擎的工作方式是将网络机器人收集的信息提供给索引器进行加工处理,建立索引,并为信息用户提供查询。虽然目前搜索引擎越来越多,功能越来越完善,但查全率、查准率、可到达性都不尽如意,这主要是因为网络机器人收集信息的质量不高,这个问题可以借助网络计量学的分析结果进行改善,使网络机器人能够根据链接深度分析结果,对不同类型的网站进行不同深度的遍历,同时删除无效链接,这样的遍历结果将具有较高的有效性,在对遍历结果进行加工时,要根据网络计量学的计量指标挖掘潜在的信息资源,给信息用户提供多方面的决策点,以提高查全率和查准率。
收稿日期:2004-10-29
标签:文献计量学论文; web技术论文; 用户研究论文; 数字图书馆论文; 网站分析论文; 计算科学论文; 用户分析论文;