Web2.0环境下的信息过滤方法_rss论文

Web2.0环境下的信息过滤方式，本文主要内容关键词为：方式论文,环境论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

［中图分类号］G354 ［文献标识码］A ［文章编号］1003-2797（2008）06-0100-05

Web2.0是相对于Web1.0的新一代互联网应用模式的统称，是各种技术与相关的产品与服务的集成，它是互联网的一次理念和思想体系的升级换代，其内在动力来源是将互联网的主导权交还个人，从而充分发掘个人参与到体系中来的积极性，极大地解放了个人的创作和贡献的潜能，信息提供者和信息消费者之间的界限逐渐淡化，网络用户在网络信息的生成、组织、共享和传播等方面占有越来越重要的位置。与此同时，Web2.0的开放性和草根性，也不可避免地带来网络内容的极大冗余和垃圾信息的产生，因而，如何将无用的信息剔除并对有用的信息进行整理分类，即信息过滤，从而为用户提供个性化信息服务成为Web2.0环境下一个值得关注的课题。

1 信息过滤及其类型

信息过滤是根据用户的信息需求，运用一定的标准和技术，从大量的动态信息流中将与用户无关的信息滤掉，把满足用户需求的信息提供给用户，从而减轻用户的认知负担，提高用户获取信息的效率。目前，信息过滤的类型主要有两种：基于内容的过滤和协作过滤。

（1）基于内容的过滤。基于内容的过滤也被称为认知过滤，它首先要将信息的内容和潜在用户的信息需求特征化，然后再使用这些表述，职能化地将用户需求同信息相匹配[1]，按照相关度排序把与用户信息需求相匹配的信息推荐给用户，其关键技术是相似性计算。优点是简单、有效；缺点是难以区分资源内容的品质和风格，而且不能为用户发现新的感兴趣的资源，只能发现和用户已有兴趣相似的资源。

（2）协作过滤。协作过滤也称为社会过滤，这种类型支持社会上个人间和组织间的相互关系，并将人们之间的推荐过程自动化。一个数据条款被推荐给用户，是基于它同其他有相似兴趣用户的需求相关[2]。协作过滤推荐的核心思想是用户会倾向于利用具有相似意向的用户群的产品，因此，它在预测某个用户的利用倾向时是根据一个用户群的情况而决定的。可见，协作过滤法是找出一群具有共同兴趣的使用者形成社群，也就是有某些相似特性成员的集合，透过分析社群成员共同的兴趣与喜好，再根据这些共同特性推荐相关的项目给同一社群中有需求之成员。其优点是对推荐对象没有特殊要求，能处理非结构化的复杂对象[3]，并且可以为用户发现新的感兴趣的资源，这种过滤类型对那些不是很清楚自己的信息需求或者表达信息需求很困难的用户非常重要；缺点是存在两个很难解决的问题：其一是稀疏性问题，即在系统使用初期，由于系统资源还未获得足够多的评价，系统很难利用这些评价来发现相似的用户；另一是可扩展，即随着系统用户和信息资源的逐渐增长，其可行性将会降低[4]。Web2.0作为新一代互联网的总称，其典型的应用有：RSS、Blog、Wiki、社会书签等，在这些典型应用中，上述两种类型的过滤都在其中得到了很好的应用，除此之外，由于Web2.0独具的开放性、互动性和双向性等特点，其环境下的信息过滤方式又具有自己的特色。

2 RSS中的信息过滤

RSS（聚合内容）是一种Web内容联合格式，它包含了一套用于描述Web内容的元数据规范，该规范是网站在发布新信息的时候要遵循的标准格式，是一种用于共享新闻标题、摘要等内容的XML文件。RSS最大的特点和优点是实现了信息内容与展示的分离，并且制定了互联网上信息内容的存储格式标准，从而为信息过滤提供了技术支持，实现高效的信息聚合。

（1）订阅RSS Feed链接。RSS提供自定义式的服务，信息源的选择和信息内容的过滤由用户自主配置，其配置手段是通过订阅RSS Feeds（信息摘要）。在Web2.0中，提供RSS Feeds的站点是信息的来源，随着RSS被广泛采用，提供RSS Feeds的站点越来越多，有专业新闻站点、电子商务站点、企业站点，甚至个人站点等。这样，信息用户可以根据自己的喜好，通过关键词订阅多个RSS Feeds，进行个性化信息主题聚合。如果用户订阅了某个RSS Feeds，以后只要与关键词有关的内容就会自动添加到RSS Feeds中，这样用户就可以长期关注有关关键词的某一特定领域[5]。

（2）信息推送。RSS可以说是一种“基于内容的信息过滤”方式，即根据用户最初的信息需求定制（包括标题、提要、内容），它周期性地到信息源提供的RSS Feeds处拉取相关信息，并将这些摘要信息推送到用户的桌面，用户通过聚合器提供的链接访问其所关心的详细资料。由于RSS是根据用户的订阅的RSS Feeds来进行有目的信息推送，因而能屏蔽掉用户没有订阅的内容，保证信息的“个性化”；另一方面，由于被推送到用户桌面的仅仅是信息摘要，用户不必担心受到烦人的广告和垃圾邮件的影响，保证了信息的“无垃圾”。另外，用户只需要一次初始的信息预订，便可以在长时间内享受信息的自动推送所带来的快捷与便利，而无需每次都登录相应的网站查找信息。

（3）信息阅读。RSS通过RSS阅读器完成用户对信息资源的获取，RSS阅读器软件的作用就是按照用户的喜好，有选择性地将用户感兴趣的内容来源“聚合”到该软件的界面中，网络用户可以在不打开网站内容页面的情况下阅读支持RSS输出的网站内容，并且可以通知用户网页的内容的更新，及时跟踪和阅读网站更新的内容，这样用户可以长期关注有关该关键词的某一特定领域，为用户提供多来源信息的“一站式”的个性化服务。

3 Blog中的信息过滤

Blog是一种表达个人思想、内容且按时间顺序排列，同时不断更新的网络日志。一个Blog就是一个网页，共享精神和交流需求是Blog发展的两大核心支柱。任何人都可以在Blog上轻松地完成个人网页的创建、发布和更新，可以充分利用RSS、TrackBack、博客搜索等技术，精选并链接全球互联网中最有价值的信息、知识与资源，从而实现信息过滤。

（1）垃圾信息过滤。从信息资源组织的角度考察，Blog代表着个人信息过滤与积累和深度交流沟通的网络新方式，为组织沟通和社会交流带来了全新的变革。Blog不仅仅是一个网络日记的技术工具，它的根本意义在于，它提供互联网上赋予个人以力量的工具。为了可以被别人更好地阅读，吸引更多的参与者以汲取别人的思想，博客们一方面在撰写自己的Blog时，非常注重自己文章的水平质量，另一方面，他要采用最适当的方式对把在网络浏览中获取的信息，经过一番过滤、说明或阐述再张贴到自己的Blog网页上，以使得他的博客日志能够为更多的人接受，他的思想和资源为更多的人所了解。由于个体在选择要阅读的内容时都是自己决策的，更高质量的内容的博客日志会被更多的人阅读、被链接得更多、在Blogrolling列表中显示得也越多、在搜索引擎中也更容易被找到。这样在建立和维护自己的可信度的同时，保证了Blog中信息的质量，从而过滤掉垃圾和不良信息。

（2）个人知识管理。个人利用Blog进行个人知识管理主要体现两个方面：①利用自己的Blog空间，在日常工作中及时记录自己的工作内容、学习问题或者即时思想，经过不断积累、修改、总结和整理的过程，就可以有效地聚积起那些本来难以结构化的零散性知识，从而将其变成大家都可以共享的知识[6]；②利用Blog工具可以用将分布在互联网上的、自己感兴趣的资源汇总在一起，并附上自己的备注，这样查询使用非常方便。在Blog中，提供个人知识管理的工具有：RSS、TrackBack和博客搜索引擎，运用RSS订阅自己感兴趣的信息，从而让系统按照定制的信息进行自动推送；运用TrackBack对自己感兴趣的发出引用通告，从而通过原始文章可以找到网络上所有关于该文章的讨论，运用博客搜索引擎快速定位所要查找的信息。

（3）个性化主题社区的形成。在Blog中可以通过多种途径来将兴趣相同的人汇聚在一起，从而形成个性化主题社区。第一，通过反向查找。反向查找是指作者利用Blog中已经产生的反馈去发现新的参与者。反向查找可以找到与自己有共同兴趣的人，并且发现协作者的价值。最有用的查找源是参考列表和Blog生态系统数据。参考列表是由Web主机服务提供商或第三方提供的服务，它用于记录通过特定页面访问某个Blog的数量。Blog生态数据则通过网络机器人收集数据，以跟踪Blog中内部和外部的链接[7]。第二，利用RSS。用户由于RSS的提要是可以通过搜索引擎搜索的，因此很多博客都发表自己的网络日志的RSS提要，经由发表RSS提要，博客们的网络日志的读者数量增加了，同时也便于让对同一主题感兴趣的人的聚集在一起，成为一个个的主题社区。第三，运用TrackBack。TrackBack中文称作“引用通告”，它是一种点对点通信和网站间互相通告的框架，其基本思想就是TrackBack Ping请求，通过它可以使站点之间相互通告相关的资源，不同的网站通过TrackBack技术可以将相关话题连接形成一种网状结构[8]，因此有人将之称为“思想的桥梁”。

BrackBack是通过BrackBack Link（引用通告地址）来实现不同平台间的通讯联系。在提供TrackBack Link功能的Blog服务系统里，Blog上每篇Blog文章都有两个URL，一个是要访问这篇文章所使用的URL，另一个就是TrackBack Link，它是用来接受来自其他Blog网站上TrackBack Ping的程序。通过TrackBack Ping请求和TrackBack Link的接收，不同的网站可以将相关话题连接形成一种网状结构。也就是说，通过TrackBack，读者就可以在自己的Blog中发表文章，同时把自己这篇评论文章的URL地址Ping到自己感兴趣的目标文章上去，这样，一方面，读者可以通过这种方式参加其他Blog的讨论；另一方面，所有阅读该目标文章的人也能通过TrackBack顺藤摸瓜地看到读者Blog上的评论文章。有了TrackBack Ping功能，任何人都可以通过TrackBack Ping来发表意见和评论了。各种评论在互联网上相互连接而织成一张大网，具有相同兴趣的读者被联系在一起，从而为读者提供了他所感兴趣的信息[9]。个性化主题社区是通过网络信息之间的相互链接而进行信息过滤分类，而且，在不断变动的网络动态信息中，这种网络社区可以自我扩展，将符合要求的网页加入到自己的社区中，极大地方便了网络用户在Web2.0这个庞大的动态空间中精确、快速定位所要查询的信息。

（4）博客搜索引擎。由于博客的内容具有很高的有用性和共享性，以专门搜索博客文章内容的博客搜索引擎应运而生。博客搜索引擎是一种专业搜索引擎，可以扫描互联网上数千万个较常更新的个人博客，以帮助用户通过浏览或关键词检索来查询自己所需要的信息[10]。在Blog这个互联网上庞大的民间信息生产空间中，博客搜索引擎在博客圈的宏观层面上，实现了博客信息的更大规模整合和过滤。

①标引的高质量提高了关键词搜索的查准率。关键词搜索的基础是信息的标引，标引的质量直接影响搜索的查准率。博客资源中的内容包括原创内容和相关的各种链接，这些链接往往都是网络中同某一主题相关的被精选出来的资源，这就意味着在博客中的资源很大一部分都是经过人工筛选的，而在发布资源后大部分博客网站也要求发布者给出关键词。博客资源同一般的网络资源不同，它是已经经过人工处理的资源。因此，在博客搜索引擎对博客资源进行标引时，准确率较高，而且检索出的资源因为经过筛选也往往更为切题，对用户也会有更大的价值[10]，因而查准率较高。

②按主题为用户组织信息提高了浏览式搜索的速度和质量。Blog搜索引擎除了提供传统的关键词检索方式外，还提供浏览检索的方式。为此，它在组织信息资源时，将相同或相近主题的博客组织在同一分类目录下，用户可以通过浏览兴趣相同或主题相近的博客来获得自己所需要的相关资源，而不必在漫无边际的网络中花费大量的时间和精力去寻找；也可以通过浏览不同的博客对某一主题信息的评论来拓宽视野。另外，博客搜索引擎利用传统搜索引擎根据链接数量来判断相关性的原理，将链接最多的博客提供给用户浏览，这也是其为用户提供的另一种分类浏览检索方式。故而，博客搜索引擎不仅可以供用户检索到原创的信息，也可以为用户提供经过分类整理后的信息资源。

4 Wiki中的信息过滤

Wiki是一种既支持面向社群式写作的，同时也包括一组支持这种写作方式的辅助工具的超文本系统，可由多人共同对网站内容进行维护和更新。与BBS、Blog等其他超文本系统相比，Wiki更具有开放性和协作性，任何人都可以对Wiki中的内容进行编辑和管理，还可以在社群成员的共同协作下进行新知识的创造，因而它能更好地实现知识共享和知识创新。同Web2.0中的其他应用一样，Wiki也能将各种信息进行层层过滤，从而完成对知识的整理和完善实现信息的净化。

（1）严密的信息组织体系。虽然Wiki开放、共享，但这并不意味着Wiki页面缺乏组织，与Blog相比，Wiki更注重内容的结构化和组织性。Wiki页面主题通常是由该页面的最初缔造者所确定，以后任何人都可根据该主题对该页面进行修改、补充或创建新的链接，进而构成系统的知识结构体系，任何与该页面无关的内容是不受欢迎的。同时Wiki良好的汇聚机制可以避免重复链接的出现，即通过改变内容重复页面的链接，使之汇聚于其中的某个页面上，相应的链接结构也发生了改变。由于Wiki良好的组织机制，所以Wiki页面多人共创而不混乱，且能够从多种角度来看待问题，使主题更加完善[11]。

（2）信息发布的质量控制。Wiki的可编辑激发人们的创新欲望，使页面的内容日趋丰富和完善。但为了维持网站的正确性，Wiki技术上有一套相对完善的保护机制：①页面锁定，可对一些重要页面进行锁定，外人不可再编辑；②记录和封存IP的功能，可以对破坏者的IP进行记录并禁止；③沙箱测试，一般的Wiki都建有一个沙箱的页面，这个页面就是让初次参与的人先到沙箱页面做测试。沙箱与普通页面是一样的，这里你可以任意涂鸦、随意测试，通过维客的反复识别，最终将满意的页面发布到网上，保证其质量；④保留网页更动的版本，即使将整个页面删除，管理者也可从纪录中恢复最正确的页面版本；⑤版本对比，Wiki站点的每个页面都有更新纪录，Wiki能自动找出任意两个版本的差别。这样，管理员就能知道用户更新页面的情况。从而既可以保护内容不会丢失，又可以让任何信息被任何人修改和删除，但是最后剩下的是最好的参与者，因为系统会清除垃圾文字，最终剩下的也是最有意义的内容。

（3）信息向知识的转换。Wiki的信息发布都有一定的深度和广度，以及对事情的看法和人生道理的感悟，排除和摈弃了垃圾信息和肤浅言论；Wiki具有批判性的群体，对于Wiki所发布的信息，任何一处都受到了其他维客的监督和挑剔，对知识进行了凝炼。进行了批判和检验后的知识，才会更加的完善，保证其精华。信息经过了修正和完善，汇聚成精髓的知识，这就是Wiki在网络环境下对创作知识的完善与进化中的过滤阶段，完成了对知识的创作[12]。

5 社会书签中的信息过滤

社会书签是指在网络提供的书签服务，用户通过社会性软件来收集、分类、聚合感兴趣的网络信息，同时能方便的与其他人分享所收藏网址，并从其他用户收藏中采集信息。社会书签是简单和方便的个人知识管理工具，是一个高效的资源共享系统，提供了一个强大的资源分享推荐平台。在社会书签服务中，所有的信息都由每个用户自发添加，也就是说每个人都是信息的过滤器和推荐者，根据不同层次和角度的筛选将信息收藏并标签，社会书签采用Tag的方式进行组织管理，方便利用。

Tag即标签，它是用来描述内容的分类信息的标识，它是一种分类系统，每个Tag由用户自建，它可以自由地不考虑目录结构的给文章进行分类，各个Tag之间的关系是一种平行的关系，但是又可以根据相关性分析，将经常一起出现的Tag关联起来，而产生一种相关性的分类。

Tag在社会书签的信息过滤中提供了如下的技术支持：

（1）分众分类。分类的目的是帮助用户在海量的信息源中缩小自己的查找范围，以便于快速定位所要查找的信息。由此可见，分类是信息过滤的一种途径。Tag的基本功能是实现分众分类的思想，分众分类是“群众”自发性定义的平面非等级标签分类[13]，是一种使用用户自由选择的关键词（即Tag）对网站进行协作分类的方式，它反应的是整个社群的群体意识倾向和知识背景，具有不同成员结构的社群对同一网络内容就可能形成不同的元数据标签。基于这种关键字的分类，可以凸显出社群成员关心的热点信息，形成一个特别适合本社群成员特点的信息分类体系[14]。Tag的自发性使得用户可以根据自己的兴趣和需要随意地对资源进行不同的分类管理，从而便于查找利用。这种分众分类的管理模式可以适应同一用户对各类资源的不同需要，也可以适应不同用户对同一资源的不同需要。

（2）个性化信息聚合。在Web2.0中，利用Tag技术可以自由地给任意信息单元多个Tag，每个Tag都会形成链接，点击后最终都会指向同篇文章，用户不仅更容易通过Tag指引了解文章大部分内容进而选择是否阅读，而且也有利于提高文章的阅读率。同时，在网络上会存在许多相同的Tag，这样就自然形成了相关文章的集合，点击一个Tag往往会列出许多相关内容的文章，这样同一兴趣点的相关信息通过Tag聚合在一起，使用户能够更快速地获取更多相关信息。另外，由于关键词分类出自用户之手，种类繁多，分类细致，因而较之专业人员设定的宽泛栏目，更能达成博客信息的精度细分，借助Tag良好的信息穿透力，即使是极小的话题，也能找到相关的主页讯息[15]。

（3）兴趣聚集和共享。Tag的开放性使得兴趣相同的用户聚集在一起，越受欢迎的资源总是被越多的用户用Tag标注或修改，使用频率越高的Tag对资源内容的概括越准确。因此，最受欢迎的资源和最能概括资源的Tag渐渐地脱颖而出，被更多的用户发现，从而满足公众的信息需求。并且，随着社会的发展和公众兴趣的转变，受欢迎的资源和最能概括资源的Tag也会随之发生相应的变化[13]，这种更新可以使人们随时发现当前的“热点”和“走势”，有利于快速定位热点信息。

如Connotea是自然出版集团（Nature Publishing Gcoup）为科学家建立的网上免费参考资源管理和社会书签工具。Connotea实现了如下推荐的功能：网络化的参考链接和资源缓存；平面资源的组织，辅之以多维标签；协作标注，资源共享；自动添加书目信息和引文链接等。

总之，Web2.0中的信息过滤是基于内容的过滤和协作过滤的相互结合，同时在不同的应用中又有所侧重，如RSS、Blog和Wiki中的的信息过滤主要是基于内容的信息过滤方式，而社会书签则主要体现的是协作过滤的思想；又因为Web2.0的开放与互动，使得Web2.0中的信息过滤充分体现了用户的主动参与这一特色，用户在信息组织、信息质量的控制和信息内容的选择等方面发挥着重要作用，从而主动过滤掉与自己无关的信息，如用户可以用链接把自己中意的Blog组织起来，利用相关工具组成个性化主题社区，监督和完善Wiki中的信息等。当然，目前Web2.0中的信息过滤技术还需要不断完善，如用户模型的动态跟踪与精确表示、多媒体信息的过滤、本体与信息过滤技术的结合等等。相信随着相关领域知识的研究越来越成熟，未来的信息过滤将最终实现语义级的智能信息过滤，从而更好地为用户提供个性化信息服务。

收稿日期：2008－06－11

标签：rss论文; 博客搜索论文; 社会网络论文; blog论文;

Web2.0环境下的信息过滤方法_rss论文

猜你喜欢