搜索引擎与网站的网络结构:基于可视索引的分析_搜索引擎论文

搜索引擎与网站间网络结构:基于能见指数的分析,本文主要内容关键词为:能见论文,指数论文,结构论文,搜索引擎论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      [中图分类号]G350 [文献标识码]A [文章编号]1003-2797(2015)01-0068-09 DOI:10.13366/j.dik.2015.01.068

      1 引言

      使用搜索引擎已经是互联网用户最普遍行为之一。全球搜索引擎巨头谷歌(Google)在其搜索引擎结果页面(Search Engine Result Pages,本文以下用SERPs代称)中频繁突出显示维基百科(Wikipedia)的相关页面,这有助维基百科的推广;而中国内地最大的搜索引擎百度也同样突出显示百度百科的相关页面。这种现象被臆测是主要的网络搜索引擎在其搜索结果中对百科内容进行了有针对性地引导。维基媒体基金会(Wikimedia Foundation)承认谷歌向维基百科引导流量(traffic),但同时也表明有半数的用户是专门搜索和阅读维基百科的相关内容,而非由于谷歌的引导[1]。因此,作为用户关注和访问的主要网站,搜索引擎和百科网站在引导用户方面具有优势。

      目前针对搜索引擎的研究主要集中在英文语言环境。上述关于谷歌和维基百科的特有现象是否也存在于其他搜索引擎和用户生成百科全书(user-generated encyclopaedias)当中,还缺乏深入思考。Jiang和Akhtar[2]针对中国内地的SERPs开展过相关研究,通过分析在中国大陆引起政治争议的316个互联网事件的搜索结果,发现百度百科和中文维基百科在SERPs中排位较高。值得一提的是,这一研究结果仅限于中国内地的简体中文用户和特定的搜索词条。

      而针对规模庞大的中文互联网,许多主流搜索引擎都推出了本地化的版本(Local Search Engine Variants,本文以下用SEv代称),例如中国雅虎(Yahoo_CN)、谷歌香港(Google_HK)和谷歌台湾(Google_TW)等。那么,在不考虑用户选择搜索引擎的前提下,不同的搜索引擎能否将各个地区的用户引导到相同的网站?或者说SERPs是否产生分歧?基于上述问题,本文提出了一种量化SERPs排名的方法,即能见指数(Visibility Scores),用以揭示当前中文搜索引擎搜索在线百科全书的特征;之后,基于能见指数构造了搜索引擎与网站间的二模网络,通过分析网络结构来揭示诸如百度百科和中文维基百科等百科网站在不同地区的SEv中是否能见和能见方式。本文的研究目的在于通过对搜索引擎与网站间网络结构分析,来揭示中文搜索环境的构建方式。

      

      图1 转换函数

      2 研究设计

      2.1 能见指数

      通常,人们会习惯性地从上往下浏览搜索结果。因此,如果一个网站在搜索结果中排名越高,它的能见性(visibility)就越大。当然,在搜索结果中排名越高,获得的流量也会越大。能见性测试(visibility test)是指根据不同网站在不同搜索引擎的SERPs中的排名所给出一个代表能见性的分数。多项市场研究[3]和社会科学研究[4-5]已经结合搜索结果排名等网络计量数据测算了在线能见性的程度。

      有五个在线广告平台(Chiticka,Slingshot,Optify,Enquiro和AOL)发布过基于网站流量数据的SERPs点击率(Click-Through Rates,CTR)信息[7-9。利用这些数据,能将搜索结果排名转化为流量的测量值。结合流量数据,可以得出排名第一和第二间的差异,第九和第十间的差异,而不是假定它们产生了相同的影响(比如:10-9=2-1)。根据五个在线广告平台所给出的数据,笔者得出了一个函数,用以将排名转换为不同的分数值,即“能见指数”(如图1所示)。

      转换函数y=0.2889x[-1.078]与行业平均值非常吻合(见R平方值)。SERPs中的排名×经过函数转换,就得到了相应的能见指数y。实际上,能见指数是一个加权机制。对加权值和未加权值进行比较,搜索结果排序中前三名的加权值明显高于未加权值。本文通过这一方法来量化SERPs排名造成的差异。

      需要说明的是,能见指数并不适用于全部搜索引擎或者任意用户群体。能见指数只是分析SERPs中的相关数据,并揭示搜索排名对网站流量的影响。能见性测试是通过聚合在不同搜索引擎上的搜索结果,将搜索排名转换为能见指数。也就是说,可以根据研究范围和研究重点选择相关搜索词条集合和搜索引擎。本研究中的SERPs数据集是某些关键词在不同搜索引擎中搜索得到的结果列表,聚合之后得到不同网站的能见指数。

      2.2 中文搜索引擎

      表1列出了四个华语地区(本文以CN指代中国内地,SG指代新加坡,HK指代香港地区,TW指代台湾地区)市场份额排名前5的搜索引擎,相关数据来自StatCounter在2012年3月的报告。谷歌和雅虎囊括除中国内地以外的其他华语地区市场份额前两名,百度在中国内地市场处于领先地位。

      

      同搜索引擎在各地市场份额数据会随时间波动。图2是四个地区的市场份额趋势图。值得注意的是,在谷歌将服务器从中国内地迁至香港地区以后,百度在中国内地持续保持领先地位,谷歌处于第二。2010年和2011年,谷歌超越雅虎成为香港地区和台湾地区最大的搜索引擎服务商,同时在新加坡继续保持领先地位。本研究选择了9个搜索引擎作为研究对象,并缩写为Baidu_CN,Google_CN,Yahoo_CN,Google_SG,Yahoo_SG,Google_HK,Yahoo_HK,Google_TW以及Yahoo_TW。

      

      图2 2009-2014年搜索引擎市场份额

      2.3 数据收集与处理

      研究选取了3000个与中国传统及现代文化相关的搜索词条,以搜索结果的前10名构成数据集。如表2所示,这些词条包括了《中国剑桥百科全书》(The Cambridge Encyclopedia of China,1991年出版)的990个条目,自2007年以来中国内地、香港地区和台湾地区的百度和谷歌在不同领域的前10大搜索词条,主要流行文化参考,名人姓名,以及一些政治文化敏感度较高的关键词。尽管还有其他搜索词条可供选择,但上述搜索词条已包含了华语地区用户生成百科全书的主要内容,因而是合适的。

      

      

      图3 能见指数的集中趋势

      之后,研究根据各个地区的语言习惯,将3000个关键词进行处理,并构造相应的搜索式,其中中国内地和新加坡为简体中文,香港地区和台湾地区为繁体中文。基于以上搜索式,收集SERPs数据进行能见性测试,为排名较高的网站赋予较大的能见指数。研究从全部SERPs数据中提取出约270000个网络链接,并将指向相同网站的网络链接进行聚合,比如money.sohu.com和women.sohu.com聚合为sohu.com。所有教育网站和政府网站根据顶级域名进行聚合,比如edu.tw,edu.cn,gov.cn和gov.hk。

      3 分析与结果

      3.1 能见指数列表

      在SERPs中,百度百科和中文维基百科,以及其他一些网站,都有着各自不同的表现,并反映为不同的能见指数。图3所示的是能见指数的集中趋势。前100个网站的平均能见指数超过70%,前10个网站的平均能见指数超过50%。同时,能见指数的集中程度因领域而异,集中度最高的是诺贝尔奖获得者,集中度最低的是财富500强企业。

      表3列举了能见指数排名前5的网站及其子网站。其中,排名前3的是百科全书网站。最后一列的百分比表明,中文维基百科、百度百科和互动百科是它们旗下能见指数最高的子网站。另外,能见指数排名第4的网站是雅虎,旗下子网站排名前列的有香港地区和台湾地区的知识问答网站、博客网站(tw.myblog);而能见指数排名第5的网站是新浪网,旗下子网站排名前列的分别是博客、娱乐、新闻和财经等。能见指数占比还可以粗略描绘出网站在SERPs中被点击的概率。因此,前5大网站获得43.90%的流量,而中文维基百科和百度百科的能见性也大致相当。进一步地,还可以利用这些数据揭示出在不同的搜索引擎中哪一个百科网站的排名更高,在此不详细展开。

      

      3.2 搜索引擎和网站间的网络结构识别

      研究假设在SERPs中显示某一网站能构成一种显示或引用关系。为了揭示出“搜索引擎与网站间的结构关系”,研究采用了基于二模网络的区块建模分析方法。利用SERPs数据,可以构建出由一端的搜索引擎指向另一端的网站的有向二模网络,利用能见指数来描述搜索引擎和网站间关系的强弱大小。

      对前100个网站进行多次区块建模分析迭代,同时将搜索引擎和网站聚合为三组,最终得到一个3乘3的区块模型,以此反映结构关系(图4)。对于每个区块,黑色代表强连接,白色代表弱连接。区块建模分析结果中,有80对数据与模型不相符合,占数据总体的9.67%,表明本研究建立的区块模型能够揭示超过90%的内在关系结构。在图4中,红线表示的是所划分的区块。左上区块和右下区块表示无连接数据,即搜索引擎在其搜索结果中几乎不显示该网站页面。余下7个区块表示完全联系,即全部搜索引擎会显示相应的网站。另外,9个搜索引擎被划分为3组,从左至右数量为2个、5个和2个。前100个网站也被划分为3组,从上到下数量为35个、16个和49个。

      

      图4 区块建模

      进一步地,可以将图4简化为图5和图6,以更为直观的方式表示搜索引擎和网站的关系结构。其中,SEv(y)组主要由Google旗下SEv构成。其余两组差别较大,SEv(z)包含两个雅虎旗下非中国内地地区的SEv,SEv(x)包含两个中国内地的SEv。上述结果还揭示了搜索引擎和网站间的关系缺失。Baidu_CN和Yahoo CN缺失的有中文维基百科、Youtube、Facebook、台湾地区政府类网站和教育类网站、以及一个中国内地政府认定的邪教网站,它们大多数服务器架设在中国内地以外的地区。Yahoo_HK和Yahoo_TW缺失的是服务器架设在中国内地以内的网站,比如百度百科和互动百科。因此,某些网站在某些地区的搜索引擎上是无法搜索的,只有Sites(B)组的16家网站可以在全部华语地区的SEv搜索中较为可见。

      

      图5 区块建模结果矩阵

      

      图6 区块建模结果网络可视化

      本研究还比较了百度百科和中文维基百科在不同环境下的能见性,如图7所示。图中,左上角和右下角的搜索引擎间的距离最远,中间部分的大小不一的节点表示的是能见指数排名前20的网站。节点的大小与能见指数成正比例,箭头和箭头宽度表示各个搜索引擎在该网站的能见指数中贡献比例。

      中文维基百科(节点1)作为能见指数最高的网站,与其他5个能见指数排名前20的网站形成了一个社群,它们很大程度上被Baidu_CN和Yahoo_CN所忽视。百度百科(节点2)作为能见指数第二高的网站,也与其他10个能见指数排名前20的网站形成了一个社群,它们很大程度上被Yahoo_TW和Yahoo_HK所忽视。在中部,节点6、10和12属于Sites(b)组网站集合。进一步地,将百度百科和中文维基百科在图7中的b和c两个子图中加以对比。中文维基百科在Baidu_CN和Yahoo_CN上几乎是不可见的,而百度百科在香港地区和台湾地区的雅虎搜索引擎上能见指数非常低。

      

      图7 百度百科和中文维基百科的能见性对比

      4 讨论

      上述研究发现,在中文的SERPs中,用户生成百科全书的能见指数相对较高,而且中文互联网中存在明显的地理差异。研究采用的数据集基于3000条关键词,包含了中国的相关主题、现代流行术语、文化和政治术语等,这些构成了相对综合全面的中文互联网研究数据集合。尽管上述发现可能不适用于其他研究对象和研究领域,但该数据集和相关分析方法深刻揭示了中文互联网中的搜索引擎和网站间的关系结构。显然,百度百科和中文维基百科是能见指数最高的网站。而在各个搜索引擎中都有至少一个百科全书网站是能见的,因此任何用户都有可能点击进入百度百科或中文维基百科的相关页面。笔者认为,搜索引擎作为广大中文互联网用户最主要的网络工具之一,用户对搜索引擎的选择在很大程度上会影响对百科全书网站的选择。

      区块建模分析表明:百度百科在7个搜索引擎中是较为能见的(除Yahoo_TW和Yahoo_HK),而中文维基百科也在7个搜索引擎中是能见的(除Baidu_CN和Yahoo_CN)。所以,Baidu_CN和Yahoo_CN的用户很可能错失中文维基百科及其同类别的相关网站信息。考虑到百度百科的信息多样性和全面性目前暂时还不如中文维基百科的这一事实,用户在使用百度搜索引擎时可能加深中国内地内部和外部的信息鸿沟。相反,台湾地区和香港地区的用户普遍使用谷歌,谷歌和维基百科为这部分用户提供来自中国内地内部的相关信息。因此,台湾地区和香港地区用户使用谷歌和维基百科可能在一定程度上克服信息鸿沟,获取一些来自中国内地内部的信息。

      SERPs有效地将网站信息推荐给用户,但不同的推荐策略会导致用户访问不同的网站信息。谷歌和中文维基百科提供了各类中文互联网信息,在克服信息鸿沟方面作用会比较明显,而Baidu和Yahoo提供的信息则会存在一定的局限。当然,各个搜索平台所选择的信息推荐模式有所不同,同时中文互联网世界中各个地区的政治文化差异也依稀可见。在香港地区和台湾地区的信息鸿沟逐渐被克服的同时,中国内地和香港地区的信息鸿沟却在逐渐加深。中国内地的互联网用户如果不使用谷歌中国,就有可能被限制在一个“大局域网”中。相反,香港地区和台湾地区用户在使用Google或中文维基百科时,却在经历着“去本地化或跨地域化”现象。值得注意的是,虽然香港地区在地理位置、政治体制和行政体制上更加接近中国内地,但是香港地区的搜索引擎的搜索结果与台湾地区的搜索引擎的搜索结果更为契合,而与中国内地的搜索引擎相交甚少。

      5 结语

      本研究通过对中国内地、新加坡、香港地区和台湾地区四个主要的华语地区的约3000条中文搜索词条的研究,证实了主流的用户生成百科全书能见指数较高,但会受到地区因素影响。基于能见指数,构造了搜索引擎与网站间的二模网络,特别观察了百度百科和中文维基百科在中文搜索环境中的能见性,从而揭示了整个中文搜索环境的构建方式。

      当然,本研究也存在一些明显的局限性。第一,尽管搜索词条的选取较其他相关研究更为宽泛,但仍显不足;第二,由于篇幅限制,并未详细分析不同领域的搜索词条产生的搜索结果间的差异;第三,由于数据样本采用的是标准普通话词条,从而忽略了香港地区用户常用的广东话书写方式;第四,在对SEv的研究中,研究仅考虑了默认设置状态下的搜索结果。在后续的研究中,笔者将进一步拓展能见指数在其他语言系统中的应用,比如埃及地区(Egyptian)的阿拉伯语和马格里布地区(Maghrebi)的阿拉伯语。

      致谢 感谢Wikimedia UK资助本文英文版于Wikisym 2013非正式发表时的旅费!

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

搜索引擎与网站的网络结构:基于可视索引的分析_搜索引擎论文
下载Doc文档

猜你喜欢