PageRank技术分析及网页重要性的综合评价模型,本文主要内容关键词为:综合评价论文,重要性论文,模型论文,网页论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1002—1167(2006)01—0080—02
Google以其独树一帜的网页级别(PageRank)专利技术,打破了传统网络分类概念。该技术是基于网页的自然结构的,即任何网页均可迅速直接地链接到另一网页,而无须任何媒介。这使得信息在站点与站点之间畅通无阻。
而且,Google的PageRank技术可以作为其检索结果组织的依据。从而使得检索结果按照网页的重要性进行排序[1]。
1 PageRank技术分析
1.1 PageRank的内涵[1]
PageRank作为组织管理工具,其中文的涵义为“网页级别”。其实质是,当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google还要分析为其投票的网页。“重要”网页所投之票自然分量较重,有助于增强其他网页的“重要性”[2]。
因此,重要的、高质量的网页可获得较高的网页级别,从而在搜索结果中可获较高的排位。这样,Google的重要性综合指标为网页级别,而不是根据某一个具体的查询。当然,这代表了该网页本身的特性,是由Google根据网络数据、采用评定链接结构的综合运算法则进行分析的结果。
当然,如果与查询项目不匹配,再重要的网页也毫无意义。因此,Google采用完善的正文匹配技术,为您查找既重要又准确的网页。
(1)PageRank只关注指向某一网页的链接的投票能力和他们推荐的程度;
(2)网站内的每一网页都有自己的网页级别(PageRank);
(3)由于网页之间的相互链接,使得每一网站内的不同网页均可通过其内在的链接结构而确定各自的网页级别;
(4)PageRank中不包括标题中带有关键词的超链,但此种形式会提高搜索引擎的级别。
1.2 PageRank技术的不足之处
首先,单纯依靠PageRank技术不能合理的计算深层页面的权重。根据有关部门统计,发现国内有影响的网站的主页、技术文档和书籍的目录主页多获得了比较高的入度,而一般的网页入度都较低。进一步分析发现,网站中载有文章的大多数网页,它们极少被外站的网页所链接,在站内一般也只被一个网页所链接。而主页既有超链指向站外,也被站外网页所链接。因此,单独依靠PageRank对页面计算级别是不够的,还应该加上一些附加权重。
其次,对于那些故意在网页的敏感位置设置多个相同、常用的与他们的网页内容无关的词汇,以希望提高网页的点击率或相关度的做法,大多数搜索引擎,包括Google在内,往往难以识别。所以在Google的检索结果中,没有能够将各种应该细分的结果隔开,检索结果动不动就要十几页甚至几十页,从而增加了用户的负担。
总之,PageRank技术存在以下不足[3]:(1)单纯依靠PageRank技术不能合理的计算深层页面的权重;(2)没有提供合理的检索向导帮助用户细化检索范围。
2 PageRank技术的优化处理
鉴于上文分析的结论,本文结合下列技术对PageRank技术存在的不足进行了优化处理。
2.1 搜索引擎的第一定律——相关性定律[4]
众所周知,早期的信息检索大多是基于全文检索的,其相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排序出检索结果的页面。
所谓相关性,就是指网站信息符合搜索条件的程度。搜索引擎在判断相关联性时,基本上是根据网页中关键词的“匹配/位置/频次”原则,就是说网站内容中的字词、词组或短语与用户输入的关键词越匹配,出现的次数越多,则该网站的关联程度越高,在搜索结果中排名也越靠前。
为了建模方便,本文给予上述的相关性一个数学符号R(P)。
然而,几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远,但按照搜索引擎的第一定律,对这两个网页的排序应该是一样的。为了能够在某些检索结果中排位尽量靠前,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,搜索引擎对此防不胜防,苦不堪言[2]。
2.2 根据用户对网站中页面的超文本链的点击率判断网页重要性的方法
上述分析可知,Google的PageRank技术只强调了页面之间的关联的重要性,而没有考虑用户对具体的页面浏览的行为特点,即用户浏览时对页面所对应的超文本链的点击情况。
众所周知,用户检索时如果是基于站点的,而且站点中存在的让用户感兴趣的链接越多,用户的相应点击的链接也越多,则该页面越重要。这里存在两种情况:用户点击的宽度增大和用户点击的深度增加。宽度是指用户在同一页面下点击链接的个数,深度是指类似于页面A→页面B→页面P ……的点击情况。
这里,页面P的重要性记为C(P)。
显然,对于同一检索用关键词,检索得到的所有URL中,某一网页的URL超链被点击的次数越多,则该URL对应的网页越重要,其C(P)值越大[5]。
从用户角度讨论相关性,大体上就是观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。研究者们用了许多意义相近的词来描述这种反应,实际上是描述相关性概念内涵的各个不同侧面。散见于文献中的有关术语包括[6]:
主题性相关 指文档内容的核心意义与查询的主题相一致
动机性相关 指文档符合用户进行查询的目的(intent)
有关多指在某一具体查询过程中结果与用户的信息
需求之间的关系,或称认知相关
匹配一般泛指结果与要求之间存在的某种一致性
然而,在检索实践中,我们常常注意到,在某一检索结果集中,由于网页的标题与其主题内容的相关性较低的影响,而使得C(P)往往不能够准确地反映网页P的重要性。
2.3 搜索引擎第二定律:人气质量定律
人气质量定律是百度总裁李彦宏发明的一项专利,亦即超链分析技术。
超链分析技术基于科学引文索引的机制,即谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。再加上相应的链接文字分析,就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律:人气质量定律。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析[7]。
所谓超链分析,是指当从网页A链接到网页B时,则认为“网页A投了网页B一票”。此种技术就是根据网页的得票数来评定其重要性的。
3 PageRank技术的优化模型——网页级别综合评价模型
综上分析,我们知道以上的三种计算方法都存在着局限性:
(1)PageRank方法只强调了页面之间的关联的重要性,而没有考虑用户对具体的页面浏览的行为特点;
(2)搜索引擎的相关性定律只考虑了检索词在检索结果网页中出现的频次,而忽略了网页的质量;
(3)根据用户对网站中页面的超文本链的点击数判断网页重要性的方法,只考虑了某一网页的URL超链被点击的次数,而忽略了网页的标题与其主题内容的相关性较低的问题。
因此,本文综合以上的几种方法,给出了网页等级的新的计算方法——网页级别综合法。在此,我们有必要对网站搜索与网页搜索区别对待。当进行网站搜索时,我们只需要考虑PageRank计算出来的页面权重。如果用户进行的是页面搜索,我们在计算权重时则要根据用户以上三种数据来计算相应的网页级别,本文构建了一个网页级别的综合评价优化模型:
W (IRC)=f[PR,R(P),C(P)]
其中,W是综合法经加权计算所得的网页P的等级;
PR=(1-d)+(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)),是根据Google的PageRank计算所得的网页P的页面级别;
R(P)是根据搜索引擎的相关性定律得到的网页相关性数据;
C(P)是根据用户对网站中页面的超文本链的点击率判断网页重要性的方法而确定的网页的重要性。
总之,由于网页与用户检索要求的相关性受到网页设计人为因素和用户的浏览行为等诸多因素的影响,因而影响网页重要性的因素很多,本文的评价网页重要性的综合法只是一种相对合理的计算方法,如果要求更加精确地判断网页的重要性,就应该考虑更多的用户浏览行为和网页与用户检索要求的相关性。