Web2.0环境下信息组织的优化研究——以豆瓣网为例,本文主要内容关键词为:为例论文,豆瓣论文,组织论文,环境论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
Web2.0作为一种内容更丰富、联系性更强的互联网应用模式,已经成为互联网新的发展趋势。从诞生以来,在互联网领域逐步引发了一次从核心内容到外部应用的革命。从模式上是单纯的“读”向“写”、“共同建设”发展;由被动地接收互联网信息向主动创造互联网信息迈进!从基本构成单元上,由“网页”向“发表/记录的信息”发展。它为用户带来了真正的个性化、去中心化和信息自主权,在实际应用中除了最初的IM、P2P等得到新的发展,在国内外也产生了很多非常实用的相关产品,如Del.icio.us、Flickr、豆瓣网、博客大巴等,其中以豆瓣网最为典型。作为国内非常典型的Web2.0网站,豆瓣网提供的服务非常广泛,包括豆瓣读书、豆瓣电影、同城等。用户可以拥有自己的社区,加入自己感兴趣的话题小组;可以通过标签查找一部电影或一首音乐的相关信息及其他用户的评价,也可以给它们添加标签或做出评论……豆瓣网作为典型的Web2.0网站,很好地提供了以用户为中心的个性化服务。但同时,豆瓣网仍存在类目体系不够健全合理、标签冗余繁杂、表意模糊等问题。
目前,国内外的学者对Web2.0环境下的信息组织进行了大量的研究,提出了很多非常成熟的理论。本文将在参考这些研究的基础上,分析豆瓣网的信息组织模式及存在的缺陷,并提出一些有针对性的改进策略。
1 豆瓣网信息组织模式概述
豆瓣网目前的服务包括多个方面,以下将主要针对豆瓣社区中的豆瓣小组及豆瓣读书、豆瓣电影和豆瓣音乐分别加以介绍。
1.1 豆瓣小组
豆瓣社区中的豆瓣小组是豆瓣成员围绕某一类话题建立的进行话题讨论的群组,该豆瓣成员即为小组管理员。管理员在创建小组时要给小组赋予名称、介绍以及用空格分开的不超过5个的标签,管理员还可以根据豆瓣小组的类目体系给该小组选择一到两个分类,可以给所创建的小组添加不超过4个友情小组。其他豆瓣成员可以根据自己的兴趣选择是否加入该小组。小组创建后,包括管理员在内的小组成员就可以发起话题,也可以对其他小组成员发起的话题予以回复。随着小组成员数量的增加,豆瓣后台会统计小组成员们加入的其他小组,据此推测出这个小组的成员也喜欢去的小组。豆瓣成员也可以通过利用空格分开的关键字来检索所需要的小组或小组话题。
1.2 豆瓣读书、豆瓣电影和豆瓣音乐
豆瓣读书是豆瓣网提供的一个主要针对图书进行评论的功能模块。在豆瓣读书中,用户可以写笔记、写评论等,可以对图书加以推荐。用户还可以给一本书添加若干标签,有了标签,豆瓣成员就能很方便地通过关键字来检索所需的图书。豆瓣读书还将热门的图书标签分为文学、流行、文化、生活、经管、科技六类,供用户有针对性地浏览。同时,其中的豆瓣猜还可以根据用户浏览豆瓣网的微内容推测用户可能感兴趣的图书,并加以推荐。豆瓣电影与豆瓣音乐则是分别针对电影和音乐进行评论的功能模块,其特点及构架与豆瓣读书类似。
豆瓣网的豆瓣小组以及豆瓣读书、豆瓣电影和豆瓣音乐利用分类和标签等机制,通过豆瓣后台有效的信息组织,为用户打造了一个进行表达和交流的全方位平台。
2 豆瓣网信息组织的缺陷
豆瓣网的信息组织在各个方面都有一定的不足,主要体现在分类体系的构建、标签的规范性等方面,下面将对此分别阐述。
2.1 豆瓣网的分类体系
豆瓣网中的豆瓣小组、豆瓣读书、豆瓣电影和豆瓣音乐中都用到了分类,但其分类体系都在一定程度上不够健全和完善,分类的确定也不够合理。下面以豆瓣小组为例来讲。
豆瓣小组的类目体系由12个一级类目以及每个一级类目下的若干二级类目构成,但其中还有一些类目没有考虑到。比如,一个对历史感兴趣的用户,想创建一个用来探讨历史问题的小组,在确定小组分类的时候就要选择一个跟历史相关的类目,但纵观读书、影视、音乐等12个一级类目以及它们的二级类目,却很难找到一个相对比较准确的分类,即其类目体系还有不足,有些知识领域并无涉及。
另外,豆瓣小组分类的确定也不够合理。豆瓣小组的管理员可以根据豆瓣小组已有的类目体系为自己创建的小组选择一到两个类目,但这都由管理员个人确定,很多管理员因类别的模棱两可或其他原因而懒于给自己创建的小组确定一个类别,或者随意选择,长此以往,就不利于其他用户有针对性的浏览自己感兴趣的小组。
此外,在利用标签进行检索的时候,豆瓣网没有对大量的检索结果进行分类,这样给用户的检索带来了很大的困难。例如:一个从事医学方面工作的人想搜索关于讨论医学领域中病毒的小组,如果他用“病毒”作为关键词来搜索小组,就会发现在检索结果中很大一部分小组讨论的都是计算机领域的病毒,并非医学病毒,而要在这些冗余的检索结果中寻找自己需要的小组就要花费大量的时间,这给用户的检索带来了很大的困难。
同样,在豆瓣读书、豆瓣电影和豆瓣音乐中的分类体系都存在类似的问题,这些问题都阻碍了用户的检索和浏览,因此亟待改进。
2.2 豆瓣网的标签
豆瓣网的标签在豆瓣小组、豆瓣读书、豆瓣音乐和豆瓣电影中都有应用,但这种标签机制下的大众分类仍存在标签的规范性方面的诸多问题。
在豆瓣小组中,一个小组的标签完全由小组管理员自行决定。而管理员因受到知识水平和其他方面的限制,很容易出现漏标、误标、滥标或赋予的标签太过于个性化而通用性差等问题[1],从而通过标签进行的检索就不一定准确。在豆瓣读书、豆瓣电影和豆瓣音乐中,则存在标签冗余、语义重复、专指度不高、缺乏准确性等问题。比如,一本关于历史的图书可能同时含有“历史”和“history”两个标签,这两个不同语种的标签在语义上就有重复。再如一本武侠小说可能同时含有“武侠”、“小说”和“武侠小说”3个标签,这3个标签在语义上有交集,存在包含关系,而导致标签的专指度不高[2],例如其中的“小说”标签所指太泛,用来作为这本武侠小说的标签就欠妥当。这些不规范的标签久而久之就会占用庞大的豆瓣后台资源,也给标签的管理带来了诸多不便。
在Web2.0的环境下,豆瓣网中类目体系的完善以及标签的规范化等既是当前的热点问题,也是难点问题,急需加以研究解决。
3 对豆瓣网信息组织模式的优化策略
3.1 类目体系的优化
既然豆瓣网的类目体系不够完善,就可以借鉴现有的比较权威的类目体系来解决这一问题。比如可以利用信息组织中用于图书分类的《中图法》[3]。《中图法》是我国目前通用的图书分类工具,基本涵盖了各个知识领域,包括马列毛邓、哲学等5大类部,马列主义、毛泽东思想等22个基本大类。如果参照中图法对豆瓣网的类目体系进行改进,同时对部分类目进行重新组合和扩展,就能加以完善。但在借鉴的同时也无须照搬,一方面太繁琐,另一方面因为用户的知识水平有限,不能准确区分低位类目,无实际意义。具体优化策略从以下几个方面进行。
3.1.1 豆瓣小组的分类
豆瓣小组有读书、影视、音乐、艺术、生活、兴趣与收藏、情感、学术、商业与财经、互联网与技术、体育、地域12个一级类目,从豆瓣网中看到的小组的一、二级类目图如图1所示。其中的学术类目可以参照中图法主要分为社会科学和自然科学两个大类,同时可将商业与财经、互联网与技术两个类目融合到学术类目中,对于下位类目仍继续参照中图法逐级细分(如图2所示);而体育类目除了像豆瓣小组中按照运动类型来分类之外,还可按照联赛类型、明星、地域来分(如图3所示);对于生活、兴趣与收藏、情感3个类目可以合并成生活一个大类(如图4所示);读书类目则可以仍然沿用豆瓣小组的分类体系(如图5所示)。
通过上述改进.豆瓣小组就形成了以音乐、影视、艺术、读书、生活、体育、学术等7个一级类目为基础的类目体系,其完善性得到了显著提高。
在建立了较合理的类目体系之后,就要设法确保分类的相对准确性。在小组创建者为该小组选择1~2个分类之后,可以暂时将其作为初始分类,然后利用大众分类。小组成员可以推荐分类,即当一个用户加入该小组后,就可以根据其自身的认识给该小组推荐1~2个分类,当越来越多的小组成员推荐分类后,该小组就会有很多推荐分类记录,可取推荐次数最多的两个类目作为该小组的类目。当然,小组的类目会是动态变化的,特别是新创建或频频有用户加入的小组,这取决于小组成员的大众分类。同时,有了相对较合理的类目体系之后,当用户检索小组时,就可以对检索结果按照类目体系进行分类,便于用户有针对性地进行查找。
这样在相对完善的类目体系上对分类机制加以优化,就保证了豆瓣小组的整个分类更加合理。
3.1.2 豆瓣读书、豆瓣电影和豆瓣音乐的分类
对于豆瓣读书、豆瓣电影、豆瓣音乐的分类,同样可以借鉴上述方法。豆瓣读书则正好能够吻合中图法的类目体系,但因大众知识水平的限制,可仅取一级和二级类目。豆瓣电影和豆瓣音乐的分类则可分别借鉴豆瓣小组中影视和音乐的类目。
对于豆瓣读书、豆瓣电影和豆瓣音乐,也可采用豆瓣小组中的推荐分类,他们没有创建者确定的初始分类,当有用户浏览时就可以推荐分类,然后根据大众分类不断加以完善。不同之处在于确定分类的个数。因为豆瓣电影和豆瓣音乐的二级类目是按照不同的分类方向,具体来说,豆瓣电影可以允许在导演、演员、国家和地区、类型、年代这些二级类目下分别确定1、1、1、2、1个分类,同样,对于豆瓣音乐可以允许在艺术家/乐队、地区、类型二级类目下分别确定1、1、2个分类。同时,豆瓣读书、豆瓣电影和豆瓣音乐也可以类似豆瓣小组一样对检索结果按照类目体系进行分类。
通过改进之后,豆瓣网分类体系中的类目就更加主次分明,对于比较重要的类目就进行细化,而对于相对次要、涉及频率较低的类目只制定了较上位的类目,类目体系也比以前更全面,涉及的领域更广。同时,分类机制也更加科学合理。
3.2 标签的优化
作为典型的Web2.0网站,豆瓣网充分利用了标签的优越性。它可以标识一个豆瓣小组、一本书、一部电影……但其规范性有待进一步增强,下面将分别介绍其改善措施。
3.2.1 豆瓣小组中标签的优化
对于豆瓣小组标签的改进可以类似于小组类目体系的完善方式,利用大众分类法。在小组管理员赋予初始标签的基础上,每个小组成员可给小组推荐标签[4],然后取推荐次数最多的5个作为小组标签。同样,这也是动态变化的。这样产生的标签就具有一定的代表性。
另一方面,因为小组的性质实质上取决于小组讨论的话题,故也可从小组话题入手。话题发起者可对话题进行主题标引,实质上是赋予若干标签,因为话题涵盖的领域相对于小组较窄,主题易于把握。标引产生的若干关键字可作为该话题的话题标签。同时,由于一个小组参与话题讨论积极性比较高的往往只有相对固定的一部分成员,我们将其定义为核心成员,是否为核心成员可根据参与小组讨论的频率来确定。因为核心成员讨论话题的主题最能代表该小组,故可选核心成员讨论话题的标签中出现频率较高的若干词作为新的小组标签,同样,这也是动态变化的。
上述的成员推荐标签和话题标引都采用了大众分类,因而产生的标签更加科学。
3.2.2 豆瓣读书、豆瓣电影豆瓣音乐中标签的优化
(1)标签的去重
所谓标签的去重并非指两个标签完全一样。它可能是中文简体字与繁体字的重复,也可能是不同语种的语义重复[4-5],比如:华罗庚写的一本书很可能会有“华罗庚”这个标签,但也可能有“華羅庚”这个标签。再如一首叫“爱”的歌可能含有“爱”这个标签,但若一个热爱英文的用户来标注这首歌,就可能用到“love”这个标签,造成标签在语义上的重复。标签的重复日积月累就会占用大量的后台资源。为此,可以在豆瓣网后台进行相应的转换。对于繁体字标签,可以在后台利用繁体字与中文字的转换系统将用户赋予的繁体字标签自动转换成中文简体字标签,同时提醒用户标签已进行转换;对于英文或其他语种的标签,可在后台利用词典翻译系统将其翻译成中文,然后将各中文义项与其他中文标签进行匹配,如果匹配失败,则暂时利用此标签,并且在以后进行周期性的再匹配。如果找到一个匹配标签,则转换成此标签,如果找到多个匹配标签,则可以推荐给用户供选择。当然,用户如果对转换或推荐的标签不满,大可重新赋予标签。
(2)提高标签的专指度
首先举例而言,《水浒传》这本书列出的豆瓣成员常用标签为:古典文学(1470)、水浒传(1073)、小说(1018)、四大名著(709)、中国(488)、古典名著(442)、古典(358)、名著(345)[6](括号内数字为使用次数)。这些标签有明显的语义重复现象,尤其是“古典文学”、“古典名著”、“古典”和“四大名著”、“古典名著”、“名著”这两组标签,前者“古典”作为“古典文学”和“古典名著”的子串不仅造成语义上的重复,而且“古典”这一标签含义太宽泛,专指度不够高,缺乏针对性[2,5]。同样“名著”这一标签也出现这一问题。
为此,在用户赋予一个标签后,后台系统可将此标签与此本书、电影或音乐已有的标签进行匹配,并进行标签的推荐。比如:在《水浒传》这本书下最开始有“古典文学”、“古典名著”两个标签,当一个用户浏览此书后赋予“古典”标签时,后台系统发现“古典”是“古典文学”和“古典名著”的子串,就将这两个标签推荐给该用户,建议修改,用户可以从这两个推荐的标签中选择一个作为自己新的标签,也可自己重新定义一个专指度更高的新标签,然后系统再重复上述匹配过程,直到用户的标签不再是其他标签的子串。当然,用户也有权不加修改。
通过上述匹配推荐的方法,标签的数量大大减少,节省了后台资源,而且标签的专指度也有效提高,使标签更具有针对性。
3.3 豆瓣小组话题的关联
众所周知,在百度知道中每个回答的问题后面都有一个相关内容,其中是与此问题相关度很高的其他问题及回答。若用户对某条回答不满意,就可以通过下方的相关内容提供的链接找到可能会有用的其他回答,若仍不满意,便可以继续从相关内容中找下去,而不必重新检索。
同样,在豆瓣网每个小组中都会有讨论的话题,因而可在每个话题的下方设置相关话题,相关的话题不仅可以是自己小组的话题,还可以是其他小组的话题,而且小组成员也可以在其他小组的相关话题中添加回复。这样一方面,用户可以找到更多自己需要的信息,比如,一个叫“爱手机爱生活”的小组中一个用户发起一个话题“跪求推荐安卓手机”,结果只有“这系统貌似用得不多”、“G1 G2 G3都是安卓的好像”、“索爱X10?”等6个回复[7],可能这些回复不能满足该用户,但如果其他与手机相关的小组中的此类话题能够关联到该话题下,比如“爱手机爱生活”小组中有另一个话题为“安卓手机推荐”,共有“下个月,魅族M9”、“me600二手g6”、“摩托罗拉ME600怎么样?可以刷到2.1吧”等9条回复[8],则该用户就能得到更多的推荐信息,更容易找到一款适合自己的安卓手机。另一方面,话题关联也能促进小组间的相互交流。一个小组的成员在自己发起的话题关联到其他小组话题或者自己回复关联的其他小组的话题时,就可能对其他小组的讨论感兴趣,并且逐步参与到该小组的讨论中,甚至加入该小组。因此,可以按照话题所属小组的类别对关联话题进行分类,这也利于用户寻找自己感兴趣的小组。
3.4 豆瓣网中推荐的交叉
在豆瓣小组中有小组管理员设置的与该小组密切相关并可能引起该小组的成员兴趣的若干友情小组。豆瓣读书中的豆瓣猜可以根据用户的一则网志、评论、图片、喜好的音乐列表等记录,即所谓的微内容[9],来推测用户的兴趣爱好,从而将相关图书推荐给用户。同样,豆瓣电影和豆瓣音乐中也分别有“你可能感兴趣的电影”和“你可能感兴趣的音乐”来推荐用户可能感兴趣的电影和音乐。
这种基于微内容的豆瓣猜可向交叉推荐的方向改进。首先,从用户角度而言,豆瓣读书的栏目下,不仅可以推荐用户可能感兴趣的图书,还可以根据豆瓣的微内容找到跟该用户读书兴趣爱好相似的其他用户,并推荐给该用户[10],同时可以找到这些兴趣爱好相似的用户加入的小组、喜欢的电影和音乐,一并推荐给用户。同样,在豆瓣小组、豆瓣电影和豆瓣音乐这些栏目下也可以进行交叉推荐,并且具有相当的可行性。比如一个对历史感兴趣的用户喜欢读一些历史方面的书籍,而另一个也对历史感兴趣的用户不仅喜欢看历史方面的书籍,还喜欢看一些历史纪录片,加入了很多讨论历史话题的小组,如果把这些电影和小组推荐给前一个用户,就可能引起他的关注,并最终让该用户也喜欢看这些历史纪录片或加入这些小组。同时为了让用户能够更有针对性地浏览这些推荐,可以对这些推荐按照所在类目进行分类,这样不仅醒目直观,而且针对性强。
通过这种交叉推荐,用户就可以找到更多自己感兴趣的小组、书籍、电影和音乐,同时增加与其他用户之间的交流。
4 结语
在Web2.0的趋势下,豆瓣网在利用标签进行大众分类的同时,还须依赖健全的类目体系。因此通过借鉴中图法和一些音乐、影视网站的类目体系就能有效加以完善。同时通过标签的去重、标签专指度的提高等手段可以有力地增强标签的规范性,便于豆瓣网的后台管理。另外,通过话题相似度进行的话题关联和利用微内容产生的交叉推荐又能对豆瓣网信息组织的模式进一步完善。
基于豆瓣网在类目体系、标签规范等方面的信息组织优化策略,豆瓣网表现了传统分类科学准确和大众分类动态灵活的双重特性[11],同时这些策略也能够应用到其他的Web2.0网站中,比如对博客大巴中乘客圈类目体系的优化、对土豆网中我的小组中的话题提供相互关联和视频关联等。当然,随着大众分类方法的不断改进和自动标引、文本自动分类等技术的发展,Web2.0环境下的信息组织模式必将会有进一步的发展,更好地为广大的互联网用户服务。