基于百度、雅虎的社会标签系统信息搜索效率研究菜叶和豆叶的比较分析_查全率与查准率论文

社会化标签系统的信息搜寻效率研究——基于百度、Yahoo! Directory、豆瓣的比较分析,本文主要内容关键词为:豆瓣论文,效率论文,标签论文,系统论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       [分类号]G203

       DOI:10.13266/j.issn.0252-3116.2014.20.017

       1 引言

       互联网发展初期,用户普遍使用搜索引擎和分类目录这两种信息搜寻平台来满足其信息需求。随着互联网的快速发展,面对浩如烟海的网络信息,人们一直在探求更有效、更便捷的信息组织方式和搜寻方式。Web2.0给用户带来更多的搜寻渠道和搜寻策略选择,使人们的信息获取更具有个性化、情境性以及交互性。

       社会化标签系统是具有标签标注功能的系统,它向网络社区参与者提供一种协同构建与分享彼此网络资源标签的开放式平台[1],是典型的Web2.0应用。用户通过自己制定的分类标准来提交Tag(标签),由用户群体定义Tag(标签)的频率来决定信息的组织方式[2]。用户可以自由地给感兴趣的资源贴上任何的标签,可以查看、分享、修改、删除自己提交收藏的标签。用户可以快捷方便地通过标签找到被标注的资源,还可以方便地查找到使用同样标签的其他资源。

       信息搜寻效率是用户利用网络搜寻系统时产生的有效结果[3]。W.Bruce Croft将社会化搜寻定义为有利于信息搜寻和意义建构的社会化交互和合作[4]。他认为,社会化搜寻平台将提高信息搜寻效率。社会化平台和传统网络信息平台的搜寻效率之争,目前没有定论,亟待运用客观有效的研究方法加以检验。

       本研究以社会化标签系统作为新兴社会化搜寻平台的代表,围绕以下两个研究问题展开:①社会化标签系统的信息搜寻效率是否优于传统网络信息搜寻平台?②如果考虑用户不同的信息需求类型,不同搜寻平台中的搜寻效率的差异性如何?本课题采用搜寻实验的方法,基于百度、Yahoo! Directory和豆瓣开展搜寻效率的比较研究。

       2 研究回顾

       2.1 社会化标签系统的用户搜寻行为研究

       信息搜寻行为起源于个体对某种需要的认知,是为了满足这种需要而激活个体记忆里已有的或者是有目的的搜寻信息的行为过程。随着社会化媒体的发展,社会性标签系统中的用户信息搜寻行为已逐渐成为新的研究热点。

       C.Silverstein等人关于网络用户一般搜寻行为的研究中有3个重要发现:①用户普遍使用短查询语句进行网络搜寻;②在不同的搜寻平台查找时,用户一般不愿意更换查询语句;③用户通常只浏览前10个搜寻结果文档,然后放弃查询[5]。

       B.J.Jansen和A.Spink等人比较了9家大型网络搜索引擎的用户查询日志(1997-2002年),对比分析了社会化标签搜寻行为与一般网络搜寻行为的特征。研究发现,两类平台用户的网络信息搜寻行为特征极为一致[6],社会化标签系统的用户搜寻行为符合一般网络搜寻行为的所有条件。

       姜婷婷等[7]进行了豆瓣用户的在线调查,总结了社会性标签系统用户的4种信息搜寻模式:搜索、代理浏览、偶遇和追踪,研究发现不同类型的信息搜寻者未表现出显著不同的特征。

       H.N.Kim等人[8]提出了两种基于标签的个性化搜索的新模式:潜在标签偏好模式和标签注释模式。通过citeULike用户的搜寻实验,两种模式在提升检索的准确度和全面性上的优越性得到了证实。

       M.Gordon和P.Pathak开展了8个搜寻平台搜寻效率的比较研究,并对搜寻效率研究的实验方法提出了7点建议:①查询语句来源于搜寻者的真实信息需求;②为了补充查询语句,实验者需详细描述信息需求;③搜寻执行的数量必须足够大;④实验研究平台应选择主流的搜寻平台;⑤应结合每个搜寻平台的特点给出查询语句,不同搜寻平台的实际查询不需要完全相同;⑥应该由创建信息需求的实验者做相关度判断;⑦应该使用公认的信息搜寻评价指标[9]。D.Hawking等人提出了第8点建议:信息需求应涵盖不同的查询主题和不同的结果类型[10]。该建议赋予了实验研究更好的严谨性。研究者从这8点具体建议出发,通过确定信息需求、选择搜寻平台、评价结果文档相关度和确定衡量指标等步骤来评价不同搜寻平台的信息搜寻效率。

       2.2 搜寻效率评价的实验研究

       对于搜寻实验中信息需求的划分,M.Gordon和P.Pathak的两点建议针对信息需求,即查询语句应来自于真实情境且尽可能详尽[9]。D.Hawking等人的第8点建议进一步将用户信息需求分成了4种类型:①事实类信息需求,预期结果为一段简短的事实陈述;②精准类信息需求,预期结果为某个具体的文档、网页或者网站;③兴趣类信息需求,预期结果为涉及或满足用户某类兴趣的相关结果文档;④完整类信息需求,预期结果为与用户需求在语法或语义层面相匹配的所有文档[10]。对于完整类的信息需求,需要全面收集系统的相关结果文档,实施的难度很大。相关的研究中都没有讨论这类信息需求[11]。

       在搜寻实验平台的选择上,M.Gordon和P.Pathak的第4点建议是选择主流的搜寻平台[9]。目前用于评价研究的国外搜寻平台主要有Google、AltaVista和Yahoo!。对于社会化标签系统的研究,Del.icio.us、Furl、Reddit等吸引了最多的关注。在搜寻平台的数量上,从实验成本角度出发,应选择10个以下[12],相关研究使用了5-8个搜寻平台[9,11,13-14]。

       在针对搜寻实验结果文档的相关度评价方面,H.V.Leighton和J.Srivastava比较分析了5个搜寻平台前20个结果的相关性[13]。在此基础上,S.Mizzaro等增加了一个查询语句,也研究了不同搜寻平台前20个结果文档,并将搜寻结果文档按信息需求类别加以归类,同时采用“二值判断”的方法对每条结果进行相关性判断[14],他们运用前20个结果文档的搜寻效率来预测前200结果文档的搜寻效率。

       表1梳理了运用实验方法进行搜寻效率研究的相关成果。

       从表1可知,除了H.V.Leighton和J.Srivastava[13]以及M.Gordon和P.Pathak[9]的研究,其他研究的信息需求提供者和查询语句的提供者的来源相同。D.Hawking等的研究对象是网络日志,实验结果文档相关性判断者是助理研究员,其他搜寻实验的查询语句的提供者也来源于同一的相关性判断者。此外,实验参与人数最多为34人,最少只有2人。每个参与者查询数量最多有15条,查询总数量最多有103条,搜寻平台的数量多在10个以下。所有搜寻实验从每个搜寻平台中获取的结果文档的数量都是20条。相关性判断的方法只采用了“四值判断”法和“二值判断”法。所有研究都选择了相对查准率指标,M.Gordon和P.Pathak[9]、F.Can[15]和P.Jason Morrison[11]同时选择了相对查全率指标。上述研究成果为本研究中实验者的角色分工提供了科学依据,同时也为确定实验者数量、查询语句数量和结果文档数量划定了一个合理的区间。

       3 研究设计

       3.1 实验者选择

       为保证从用户需要的角度进行相关性判断,信息需求提供者、查询语句提供者和相关性判断者尽量保持一致。实验者提交的查询语句不需要专业化,但需要接近用户真实的网络搜寻行为。从文献研究得知,搜寻实验研究的实验者最多有34人,且大多受过高等教育。为此,本实验计划选择30名以上大学生参与实验。

       3.2 搜寻平台选择

       本研究选择百度、Yahoo! Directory和豆瓣作为搜索引擎、分类目录以及社会化标签系统的典型搜寻平台。

      

       选择三大平台开展搜寻效率的比较研究具有必要性。作为网络信息搜寻主流解决方案的代表,三大平台的共同目标是帮助用户找到有价值的资源,但实现途径各异——百度通过搜索和排序算法,Yahoo! Directory通过系统的信息分类,豆瓣通过社会化标签和用户参与。究竟哪种实现途径提供了更大程度的量的保证和质的相关?哪种平台更有利于信息搜索?用户期待得到答案。

       在三大平台上开展搜寻实验具有可行性。首先,所有平台均满足M.Gordon和P.Pathak提出的“拥有知名度和庞大的用户群”的要求,百度是全球最大的中文搜索引擎,在国内拥有极大的用户群。Yahoo!是闻名世界的目录式搜索服务提供商,有着极其精准广泛的目录分类式信息,同时支持中文信息搜寻。豆瓣是著名的社会化标签网站,享有国内最大的市场份额。其次,所有平台均支持关键词/主题词搜索模式。

       3个平台中,豆瓣具有突出的Web2.0特性,是研究的重点。需要说明的是,豆瓣是以兴趣关系为基础的社会化内容分享平台,信息源相较于百度、Yahoo! Directory略有局限,但它具有明显的“水平”化趋势,不再局限于影视、图书、音乐等“垂直”领域。考虑到国内主流的社会化标签搜寻平台本身就少,Blogbus(博客大巴)和POCO网摘等其他允许用户使用社会化标签的网站,是基于兴趣的图片分享平台,应用领域较为局限,无法开展比较实验。因此,选择豆瓣代表社会化标签系统仍是一个最佳的选择。三大平台信息源的差异对实验结果的影响,计划通过全面的搜寻主题的选择、足够数量的实验者以及较大样本的查询语句和搜寻结果评价予以排除。

       3.3 搜寻主题的确定

       本次实验选择了3种信息需求类型:事实类、精准类和兴趣类。为了进一步根据信息需求类型细分搜寻主题。依照所选平台共同关注的信息主题并结合相关文献的主题分类,将搜寻主题划分为地理描述、人物事件、具体网址、书籍电影、生活娱乐、学术研究六大类,还给出搜寻主题的查询提示,以指导实验者的操作实验。如表2所示。

      

       3.4 搜寻实验平台

       为方便实验操作和及时掌握实验进程,本研究运用Java语言、MySQL数据库设计了一个搜寻实验平台,界面显示如图1所示。

      

       图1 搜寻实验平台主界面

       搜寻实验平台界面每次返回百度、Yahoo! Directory和豆瓣排名前20的结果文档。如果返回的结果文档少于20个,系统会要求实验者修改查询语句重新搜寻,直到满足20个结果文档。

       搜寻结果界面显示每一条结果文档的排名、文档标题、网址(URL)和内容描述。文档标题是一个遵循脚本和网址(URL)文档的链接,实验者可以点击链接在新的浏览器窗口查看。

       实验者被要求在搜寻实验平台上对每个研究平台每个搜寻主题进行一次查询,采用“二值判断”的方法判断每个结果文档的相关性,并点击“提交”按钮提交实验结果。实验者每完成一次搜寻和判断,“完成状态”栏会给出“已完成”的提示,实验者可以根据完成状态来检查和完成3(搜寻平台)×6(搜寻主题)=18项搜寻实验任务。

       3.5 信息搜寻效率评价指标

       传统的信息搜寻效率多采用查全率和查准率来衡量。随着Web环境的变化,网络资源海量增长,面对海量信息和样海量的检索结果,很难统计出一个查询语句在互联网中所有的文档总量,查全率和查准率逐渐失去了作用。在查全率和查准率的基础上,衍生出不同DCV(Document Cut-off Value,截止值)的相对查全率和相对查准率两个指标[10]。

      

       公式1中,

表示某个特定搜寻平台

的相对查全率;

表示该搜寻平台中用户需求相关文档;C表示不同搜寻平台使用同一查询语句搜寻结果中重复文档的数量(网址或文档标题和文档内容相同则为重复);n表示搜寻平台的数量。

      

       公式2中,

表示某个特定搜寻平台

的相对查准率;

表示各搜寻平台返回的文档数量;

表示该搜寻平台中用户需求相关文档。

       4 搜寻实验及数据分析

       搜寻实验历时5天,实验者主要是本科高年级学生及研究生,共41人参加实验,14人未完成实验或实验操作不正确,有效数据为27份。27位实验者提供了162个查询语句和l 458条结果文档的相关性。表3列出了部分实验者的实验数据。

      

       在相关研究中,DCV20相对查全率和查准率往往用来表示总体搜寻效率[14]。DCV(1-20)相对查全率和查准率则用来表现DCV逐渐增加情况下搜寻效率的变化。

       4.1 DCV20相对查全率和查准率

       以实验者“张三”为例,图2是其在百度平台进行地理描述主题搜寻的实验数据,包括查询语句、文档标题、网址、文档内容和相关性判断(1表示结果文档相关,0表示不相关)。

      

       图2 实验者张三地理描述百度搜寻实验数据

       设定百度为1,Yahoo! Directory为2,豆瓣为3,从图2可知,

=7。而张三在Yahoo! Directory平台进行地理描述主题搜寻时所判定的相关文档数是5,在豆瓣平台的相关文档数是2,即

=5,

=2。计算张三百度平台地理描述主题DCV20的相对查全率和查准率:

      

       运用相同的计算方法,计算其他实验者在不同搜寻平台的每一搜寻主题的相对查全率和查准率,并求平均,得到每个实验者在不同搜寻平台的相对查全率和查准率。下面列出了豆瓣DCV20的部分结果:

      

       将各搜寻平台DCV20的每个结果求平均,得出各搜寻平台DCV20的相对查全率和查准率(见表4)。表中数据显示,搜索引擎有着最高的相对查全率,远高于分类目录和社会化标签,这解释了搜索引擎一直是最重要的搜寻渠道的部分原因。同时,分类目录和社会化的相对查全率和查准率虽然很接近,但社会化标签的搜寻效率仍比分类目录高。

      

       根据搜索引擎和分类目录的实验数据,得到传统网络信息搜寻系统的相对查全率和查准率:

=0.340 370;

=0.235 494。总体来说,传统信息搜寻系统的搜寻效率比社会化标签系统高,但两者差距不大,社会化标签系统搜寻也有着一定的优势。

       4.2 DCV(1-20)相对查全率和查准率

       4.2.1 DCV(1-20)相对查全率 图3显示了DCV不断增加时,百度、Yahoo! Directory和豆瓣相对查全率的变化情况。可见,3个平台都保持着平稳的相对查全率,百度的相对查全率较高,在0.40左右,而Yahoo! Directory和豆瓣在0.25-0.35之间徘徊,彼此接近。具体而言,百度和Yahoo! Directory在开始时相对查全率会小幅增加,在较大DCV数值时,还会有微弱的下降。研究还发现,豆瓣不同于传统的搜寻平台,有着完全相反的结果,在开始时相对查全率小幅下降,在DCV(10-20)时相对查全率会有较小的上升。由此看出,豆瓣在DCV(10-20)时,有着更好的结果完备率。

      

       图3 DCV(1-20)相对查全率

       4.2.2 DCV(1-20)相对查准率 图4显示了DCV不断增加时,百度、Yahoo! Directory及豆瓣的相对查准率的变化情况。可见,百度的相对查准率最高,有最好的搜寻准确率,Yahoo! Directory及豆瓣的相对查准率也有一定的优势且旗鼓相当。具体而言,在DCV逐渐增加时,3个搜寻平台的相对查准率会逐渐下降,其中百度在早期下降得最为明显。下降趋势充分展示出了各平台结果文档排名的有效性,百度、豆瓣和Yahoo! Directory依次递减。同时,随着结果文档数量的增加,相关的结果文档增长率低,搜寻平台的查准率也随之下降。

      

       图4 DCV(1-20)的相对查准率

       在图3和图4中,各搜寻平台在DCV(1-5)的相对查全率和查准率数值下降的幅度较大。结果文档在DCV(1-5)时搜寻效率有着明显的波动,而在DCV(6-20)时表现平稳。这与M.Gordon和P.Pathak[9]、P.M.Jason[11]的研究结论惊人的一致。研究DCV(1-5)平均相对查全率和查准率可以探索搜寻效率有较大波动情况下各搜寻平台的总体搜寻效率。

       4.3 DCV (1-5)不同搜寻平台的平均相对查全率和查准率

       4.3.1 DCV(1-5)不同搜寻主题的平均相对查全率和查准率 计算步骤:①计算每人在不同搜寻平台中每一搜寻主题。DCV(1-5)的相对查全率和查准率。②将①的结果求平均,得到每人每一搜寻主题的DCV(1-5)的平均相对查全率和查准率。③将27位实验者DCV(1—5)某一搜寻主题的平均相对查全率和查准率依次求平均,得到DCV(1-5)不同搜寻主题的平均相对查全率和查准率,结果如表5所示。

      

       对于地理描述、人物事件和具体网址3类主题的信息搜寻,搜索引擎的效率最高,社会化标签系统的效率最低。对书籍电影主题的信息搜寻,社会化标签系统的搜寻效率高于分类目录而低于搜索引擎。但是在生活娱乐和学术研究两类主题方面,社会化标签的相对查全率超过了搜索引擎,有着最好的搜寻完备率,揭示了社会化标签系统对特定搜寻主题的价值。

       4.3.2 DCV(1-5)不同信息需求类型平均相对查全率和查准率 在表5的基础上,按信息需求类型将不同搜寻主题数据求平均,得到DCV(1-5)不同信息需求类型的平均相对查全率和查准率,如表6所示。

      

       可以看出,社会化标签系统在兴趣类信息需求上表现得特别突出,它能够把具有相同爱好或需求的用户聚集起来,形成特定信息需求的关系网,用户能够在关系网中迅速找到所需要的信息。

       综合表5和表6,得到DCV(1-5)不同搜寻平台的平均相对查全率和查准率,如表7所示。

      

       由表7可知,在搜寻效率波动较大的情况下,搜索引擎的平均相对查全率和查准率远高于其他平台。社会化标签和分类目录的总体效率旗鼓相当,社会化标签比分类目录搜寻效率略高。

       进一步得到搜寻波动情况下传统的网络信息搜寻系统的平均相对查全率和查准率:R[,传]=0.338 298;P[,传]=0.488 611,与表7的数据对比发现,在搜寻效率有较大波动的情况下,传统网络信息搜寻效率比社会化标签系统高。

       5 研究结论

       5.1 总体信息搜寻效率比较

       总体来说,搜索引擎的平均相对查全率和查准率最高。分类目录和社会化标签的平均相对查全率和查准率接近,社会化标签的搜寻效率比分类目录高。社会化标签系统的信息搜寻效率比传统网络信息搜寻系统效率低。

       搜索引擎平台搜寻是利用关键字进行网络数据库的搜寻,它收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库。因为“蜘蛛机器人”抓取等先进的算法使得其搜寻效率最高,也表现了其在传统信息搜寻中无法取代的地位。分类目录和社会化标签的网络搜寻效率很接近,说明了社会化标签是网络信息搜寻的有效工具,具有一定的搜寻优势。

       社会化标签使信息用户可以随时根据自己的信息资源需求偏好对网络信息资源进行标注、分享。社会化标签系统的搜寻结果往往比较流行和通用,通常是被时下用户集体关注、搜寻的热门信息。它采用“大众的判断”方法,意味着信息被一个或多个用户所赞同,信息搜寻结果的相关性较高。分类目录的内容要经过分类目录编辑人员审核才能决定是否收录,网站内容必须符合分类目录的收录原则,所以分类目录有一定的限制。它的数据库更新缓慢,不能及时满足用户对时下信息的需求。

       总之,社会化标签系统搜寻是基于传统的关键词搜寻以及Web2.0理论与技术发展的背景下产生的,作为网络信息搜寻的新方式,有着关键词搜寻无法比拟的优势,但它并不能超越或代替关键词搜寻,而是传统搜寻方式在新技术新环境下的新发展,是对关键词搜寻的补充。

       5.2 不同DCV的信息搜寻效率比较

       随着结果文档数量的增加,搜索引擎、分类目录和社会化标签都保持着相对稳定的相对查全率。而搜寻平台的相对查准率都会逐渐下降直至逐渐平稳,DCV(1-5)阶段的下降幅度较大,搜寻波动明显。其中,搜索引擎下降得最明显,其次是社会化书签和分类目录。

       搜索引擎、分类目录和社会化标签搜寻平台保持着相对稳定的相对查全率体现了各自从文档集合中检出相关文档成功的比例较稳定,有着良好的搜寻完备率。而搜寻平台的相对查准率会逐渐下降,体现了各自结果文档排名的有效性,即各搜寻平台对于相关结果文档排名算法的有效性。搜索引擎相对查准率下降得最快,说明其相关结果文档排名算法的有效性最好。所以,为了提高社会化标签的信息搜寻效率,社会化标签系统应加强对使用标签搜寻结果的整理和排序。

       5.3 不同搜寻主题和需求类型的信息搜寻效率比较

       对不同搜寻主题的信息搜寻效率进行比较可以看出,豆瓣社会化标签系统在生活娱乐和学术研究方面有最高的搜寻完备率,远高于百度搜索引擎和Yahoo! Directory分类目录,但是3个搜寻平台的搜寻准确率接近。对于具体网址的搜寻,社会化标签搜寻的表现不尽如人意。

       比较不同信息需求类型的搜寻效率,对事实类信息需求,搜索引擎、分类目录和社会化标签的搜寻效率分列第1、2、3位。对精准类信息需求,搜索引擎、社会化标签和分类目录的搜寻效率分列第1、2、3位。对兴趣类信息需求,社会化标签、搜索引擎和分类目录的搜寻效率分列第1、2、3位。

       社会化标签系统,如图片分享平台或读书分享平台等,一般是基于特定应用的系统。在豆瓣社会化标签系统中,兴趣类信息需求的搜寻效率比传统的网络搜寻系统高,而对具体网址、事实类信息需求的搜寻效率低,体现了特定社会化标签系统的应用价值。

       本研究采用了对比实验的方法,通过平均相对查全率和查准率指标体系比较了搜索引擎、分类目录和社会化标签的信息搜寻效率,直观揭示了社会化标签系统的信息搜寻性能。研究结果文档的相关性采用人工判断的方法,表现了用户体验的真实反馈。同时,研究实验还建立了实验搜寻平台,减轻了实验者的实验搜寻成本。本研究所选择的搜寻平台较少,且不同平台的定位、特色、信息源差异对搜寻效率评价结果的影响未能完全消减,研究结论的科学性有待进一步验证,但本研究在方法探索和研究结论上仍具有一定的借鉴意义。

       收稿日期:2014-08-08 修回日期:2014-09-12 本文起止页码:112-119

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于百度、雅虎的社会标签系统信息搜索效率研究菜叶和豆叶的比较分析_查全率与查准率论文
下载Doc文档

猜你喜欢