基于RSS的Web内容集成研究,本文主要内容关键词为:内容论文,RSS论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 RSS的产生和发展
Web的出现改变了人类获取信息的方式,但随着Web上各类信息源和种类的增加,如何有效管理这些信息并集成为一个一致的整体变得越来越困难。针对Web内容的集成需求,RSS技术应运而生,并逐渐发展成为当今因特网上比较热门的技术之一。RSS是英文Rich Site Summary或者Really Simple Syndication的首字母缩写,是一种用于聚合和集成不同网站(主要是新闻和其他按顺序排列的站点,如Blog)Web内容的基于文本的XML格式,它提供了一种通过描述信息以便及时和大规模地发布和重用这些信息的强有力的方法。仔细观察一些网站,那些被标记为“XML”的橙色按钮便是指向RSS文档的链接。RSS文档可以看成是与Web内容平行的对Web内容的语义描述,是摘要或文章标题的简单结构化列表,很容易被另一个程序加以利用。因此用户通过在客户端安装一种软件(如新闻聚合器或新闻阅读器),便可自动地收集和组织各个网站发布的RSS提要,从而使得用户在不打开网站页面的情况下,能够一次性地阅读几十个或几百个Web站点的摘要内容。
RSS起源于20世纪90年代后期,最初是Netscape针对Microsoft公司推出IE4时提供了一个新闻频道的功能而做出的回应。
Netscape定义了一套描述新闻频道的语言,这就是RSS 0.9。后来,RSS技术被著名的博客Dave Winner的UserLand软件公司接手,继续开发新的版本,以适应新的网络应用博客的需要。RSS规范经过1999年7月的RSS 0.91版本和2000年12月的RSS 0.92版本,于2002年8月推出RSS 2.0版本,最后于2004年3月,Dave Winner通过IETF(Internet Engineering Task Force)标准组织提出:将RSS 2.0与2003年6月推出的另一种集成格式Atom 加以融合。
2 RSS 2.0规范
RSS是基于文本的XML格式,所有的RSS文档必须符合XML1.0规范。RSS文档(也可称为RSS提要)通常只包含简单的项目列表,每个项目包含标题、摘要、链接等内容。RSS文档类似于HGML代码,用户可以直接阅读,但这不是它的目的。RSS提要的目的是用于新闻聚合器或新闻阅读器,一个聚合器可以从许多站点上集成RSS提要,并在一个单一接口上呈现集成后的内容。
RSS文档的最高层是〈rss〉元素,具有必选属性version,以指定文档必须符合的RSS版本。〈rss〉下面是一个单一的〈channel〉元素,包含了有关频道及其内容的信息。
(1)必选的频道元素
RSS文档具有3个必选的频道元素,如表1所示。
表1 必选的频道元素
元素描述
title 频道标题。这是人们引用提要服务的方式。如果你拥有包含与RSS文档相同信息的HTML站
点,则频道的标题可以与站点的标题相同。
link
与频道对应的HTML站点的URL。
description描述这个频道的短语或句子。
(2)可选的频道元素
RSS2.0规范中提供了16个可选的频道元素,如表2所示。
表2 可选的频道元素
元素 描述
language频道所用的语言,这允许聚合器聚合不同语言(如中文的所有频道)
copyright
频道内容的版权注明
managingEditor 对编辑内容负责的个人Email地址
webMaster
负责频道技术问题的个人Email地址
pubDate 频道内容的发布日期。例如,某网站每天发布一次,则发布的内容每24小时变化一次。
lastBuildDate
频道内容上次变化的时间
category指定频道所属的一个或多个类别。与〈item〉下的category元素遵循相同的规则
generator
显示用来产生频道的程序的字符
docs指向描述RSS文档使用格式的文档的
URLcloud允许处理注册一个告知频道更新的cloud,为RSS提要实现一个轻量级的发布-订阅协议
ttl ttl代表time to live,是一个分钟数,显示频道在刷新之前缓存的时间
image
指定频道能够显示的GIF,JPEG 或 PNG图像
rating 频道的PICS(Platform for Internet Content Selection)排序
textInput
指定频道能够显示的文本输入框
skipHours
告诉聚合器可以跳过哪些小时的提示
skipDays告诉聚合器可以跳过哪些天的提示
(3)项目包含的元素
一个频道可以包含多个〈item〉元素,所有元素都是可选的,但至少要包含title和description中的一个。表3显示了项目包含的元素。
表3 项目包含的元素
元素 描述
title item的名称
link
item的URL
descriptionitem的摘要
author item作者的Email地址
category
将item包含在一个或多个类别中
comments
与这个item相关的评论网页的URL
enclosure 描述附加在item上的媒体对象
guidguid
代表 stands for globally unique identifier,是惟一标识item的字符串
pubDate显示item是什么时间发布的
source item来自的RSS频道
3 RSS提要的创建、编辑和发布
本文利用由NotePage,Inc.开发的一个RSS提要创建、编辑和发布软件──Feedforall创建一个提要WuhanUniversity.xml,这是一个与武汉大学英文站点对应的提要。首先,分别输入提要频道的title,description,link;然后打开Items增加窗口,在该窗口中增加了4个项目,它们分别是The Beautiful Campus,Education,Science Research和Resource,最后增加的项目处于最上层;再点击窗口右边的“Repuired”和“Optional”按钮便可分别输入各个项目包含的元素内容。
以上创建的RSS提WuhanUniversity.xml的部分代码如下:
〈?xml version="1.0" encoding="windows-1252"?〉
〈rss version="2.0"〉
〈channel〉
〈title〉Wuhan University〈/title〉
〈description〉Reflect the activities of Wuhan University in teaching and researching.〈/description〉
〈link〉http://www.whu.edu.cn/en〈/link〉
〈docs〉http://blogs.law.harvard.edu/tech/rss〈/docs〉
〈lastBuildDate〉Wed,11 May 2005 14:26:45 +0800〈/lastBuildDate〉
〈pubDate〉Wed,11 May 2005 14:23:32 +0800〈/pubDate〉
〈generator〉FeedForAll v1.0 (1.0.2.0) unlicensed version〈/generator〉
〈item〉
〈title〉Resource〈/title〉
〈description〉Wuhan University boasts a campus……〈/description〉
〈link〉http://www.whu.edu.cn/en/resource/index.html〈/link〉
〈pubDate〉Wed,11 May 2005 14:23:32 +0800〈/pubDate〉
〈/item〉
……
〈/channel〉
〈/rss〉
创建的RSS提要可发布到网上某个Web服务器上,本文是通过Windows操作系统的IIS功能将上面创建的RSS提要发布到了本地Web服务器localhost上,发布后的路径为http://localhost/yanan/feeds/WuhanUniversity.xml。
4 RSS新闻阅读器与Web内容集成
RSS标记的标准化使得它们可以在任何支持RSS的设备上加以显示,RSS新闻阅读器就是支持RSS的新闻聚合工具软件。利用RSS新闻阅读器,可以从各个网站提供的聚合新闻目录列表中订阅感兴趣的新闻栏目的内容。订阅后,可以及时获得所订阅新闻频道的最新信息。比较好的新闻阅读器有:博阅RSS阅读器、SharpReader、NewzCrawler、FeedDemon等。由于各种RSS新闻阅读器的运行条件不同,如SharpReader需要在 .NET Framework工作环境下运行,而博阅RSS阅读器则需要在JRE环境下运行,因此,应根据要求下载并安装Microsoft .NET Framework或JRE后,再安装相应的 RSS新闻阅读器。
下面阐述利用博阅RSS阅读器订阅上面发布的WuhanUniversity.xml提要的步骤:先创建一个频道组“武汉大学”,然后打开RSS阅读器的编辑频道窗口,使用该窗口增加一个频道“武汉大学风采”,归属于“武汉大学”频道组,并将URL路径设置为http://localhost/yanan/feeds/WuhanUniversity.xml,从而指向了上面发布的RSS提要。
使用上述方法,用户可以在RSS阅读器中以数个频道组的形式集成自己感兴趣的网站内容,每个频道组又分别拥有很多不同的用户通过点击链接可直接进入到发布提要的网站,找到内容的最初来源地。例如在RSS阅读器的浏览窗口中,通过双击上面创建的“武汉大学”下的“武汉大学风采”频道,会在窗口右边显示该频道已订阅的项目内容,包括The Beautiful Campus,频道。用户登录后可以看到所订阅的每个频道的最新内容──标题、摘要,有时还会看到一两幅图片。Education,Science Research和Resource,点击这些项目,可在窗口右下处看到相关项目内容的摘要信息和到全文的链接。
5 结语
RSS提供了一个简单的集成最新Web网页内容的标题、链接和摘要的方法。就网络用户而言,RSS是一种在他们需要的地方和时间并以他们希望的方式来获取信息的工具。利用RSS,用户可以更有效地集成信息,消除信息过载。就发布RSS提要的网站而言,世界范围内许多企业,如Washington Post、Yahoo News、BBC、Amazon、eBay等都意识到RSS技术所蕴涵的力量,因此纷纷通过各自的站点来发布RSS提要(feeds),以便吸引更多的用户。目前,国内有一些网站,如新华网和新浪网也推出了RSS提要服务,但总的来说提供这类服务的中文网站数量有限。相信不久的将来,随着中文RSS内容的不断丰富和相关产品质量的不断提高,用户在中文网站上会看到更多的标记为“XML”的橙色按钮,从而使得中文网站内容的集成真正走入机构和个人。