用于 Python 的 RSS(1)
日期:2007年5月3日 作者: 查看:[大字体 中字体 小字体]-
RSS 是迄今为止最为成功的 XML 服务之一。尽管它的起源非常混乱,但它已经成为了通过 Web 站点交换内容信息的社区标准。Python 是一个很棒的 RSS 处理工具,Mike Olson 和 Uche Ogbuji 介绍了一些可用于 RSS 处理的模块。
RSS 是一个可用多种扩展来表示的缩写:“RDF 站点摘要(RDF Site Summary)”、“真正简单的辛迪加(Really Simple Syndication)”、“丰富站点摘要(Rich Site Summary)”,也许还能用其他扩展来表示。在如此混乱的名称背后,您会发现和这样一个平凡的技术领域相关的故事多得令人吃惊。RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式。它能够用于共享各种各样的信息,包括(但不是仅限于)简讯、Web 站点更新、事件日历、软件更新、特色内容集合和基于 Web 进行拍卖的商品。RSS 是 Netscape 在 1999 年创建的,它允许将许多信息源中的内容聚集到 Netcenter 门户网站中(这个门户网站现在已经不存在了)。UserLand 社区中的 Web 狂热爱好者们成为了 RSS 早期的支持者,RSS 很快就成为了一种非常流行的格式。这种流行使得人们很难对 RSS 进行改进从而使它能用于更多的地方。这种限制导致了 RSS 的发展出现了分歧。其中一个组选择了一种基于 RDF 的方式,目的在于利用大量的 RDF 工具和模块,而另一个组则选择了一种更加紧缩的方式。前者被称之为 RSS 1.0,而后者则被称之为 RSS 0.91。就在上个月由于 RSS 非 RDF 变体的一个新版本的出现使得两者之间的竞争进一步加剧,这一新版本被它的创造者称之为“RSS 2.0”。
RSS 0.91 和 1.0 非常流行,并且许许多多的门户网站和 Web 日志都使用它们。事实上,blogging 社区是 RSS 的主要用户,而 RSS 就是某些现有的用于 XML 交换的网络令人印象深刻的理由。这些网络已在有机地增长,并且真正地成为现有的最成功的 XML 服务的网络。RSS 成为一种 XML 服务是因为它被通过网际协议交换 XML 信息(绝大多数的 RSS 交换是 RSS 文档的简单 HTTP GET)。在本文中,我们介绍的不过是许多可以与 RSS 一起工作的 Python 工具中的少数几个。我们不提供针对 RSS 的技术上的介绍,因为您可以在其他许多的文章中获得这些内容。(请参阅参考资料)。我们推荐您首先简单地熟悉一下 RSS 知识,并且能了解 XML。您不需要去了解 RDF。
[ 由于 RSS 使用了 XML 描述而没有使用 WSDL,所以我们将 RSS 作为一个“XML 服务”而不是一个“Web 服务”对待。- 编者按 ]
RSS.py
Mark Nottingham 编写的 RSS.py 是用于 RSS 处理的一个 Python 库。它非常完善并且编写的很好。它需要 Python 2.2 和 PyXML 0.7.1。它的安装是非常简单;您只需从 Mark 的主页中下载 Python 文件并将它复制到您的 PYTHONPATH 中的某处。
大多数 RSS.py 的用户本身只需要关心它所提供的两个类:CollectionChannel 和 TrackingChannel。后者似乎是这两个类中更有用的一个。TrackingChannel 是一个包含以每一项的关键字为索引的所有的 RSS 数据的数据结构。CollectionChannel 是一个类似的数据结构,但它的结构更像 RSS 文档本身,它的顶层通道信息使用 URL 表示的散列值指向项细节。您很可能会使用 RSS.ns 结构中的实用程序名称空间声明。清单 1 是一个简单的脚本,它将下载并解析用于 Python 新闻的 RSS 供给,并以一个简单的清单形式打印来自各项的所有信息。
清单 1:使用 RSS.py 的一个简单练习from RSS import ns, CollectionChannel, TrackingChannel #Create a tracking channel, which is a data structure that #Indexes RSS data by item URL tc = TrackingChannel() #Returns the RSSParser instance used, which can usually be ignored tc.parse("http://www.python.org/channews.rdf") RSS10_TITLE = (ns.rss10, 'title') RSS10_DESC = (ns.rss10, 'description') #You can also use tc.keys() items = tc.listItems() for item in items: #Each item is a (url, order_index) tuple url = item[0] print "RSS Item:", url #Get all the data for the item as a Python dictionary item_data = tc.getItem(item) print "Title:", item_data.get(RSS10_TITLE, "(none)") print "Description:", item_data.get(RSS10_DESC, "(none)")
我们从创建一个 TrackingChannel 实例开始,并且将从 http://www.python.org/channews.rdf 上的 RSS 供给解析得到的数据填入其中。RSS.py 使用元组作为 RSS 数据的属性名称。对于那些不习惯 XML 处理技术的人来说,这种方式看上去也许不太寻常,但它对于精确了解原始的 RSS 文件中的内容的确是一种很有效的方式。因此,一个 RSS 0.91 title 元素被认为不同于一个 RSS 1.0 中的同名元素。应用程序有足够的数据来忽略这个差异,如果您愿意,可以通过忽略每个元组的名称空间的部分来忽略这个差异;但基本的 API 是与初始 RSS 文件的语法相结合的,所以这个信息没有丢失。在代码中,我们使用这个属性数据来聚集用于显示的新闻供给中的所有项。请注意,我们很仔细地不去假定任何特殊的项可能会有什么属性。我们使用如下代码所示的安全的形式来检索属性。print "Title:", item_data.get(RSS10_TITLE, "(none)")
如果没有找到该属性则它会提供一个缺省值,而不是这个示例。print "Title:", item_data[RSS10_TITLE]
由于您不可能会知道 RSS 供给中所使用的是什么元素,因此这样的谨慎是有必要的。清单 2 显示了清单 1 的输出。 QQread.com 推出各大专业服务器评测 Linux服务器的安全性能 SUN服务器 HP服务器 DELL服务器 IBM服务器 联想服务器 浪潮服务器 曙光服务器 同方服务器 华硕服务器 宝德服务器 - [1] [2] [3] 下一页
-
- 用于 Python 的 RSS(1) 相关文章:
- ·用于 Python 的 RSS(1)
- 用于 Python 的 RSS(1) 相关软件
- 特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作
- 者.文章版权归文章原始作者所有.对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转
- 载的文章有版权问题请联系编辑人员,我们尽快予以更正. 转载请注明来源:http://www.hackhome.com
下一篇:Python的几个文字处理技巧
精品推荐
热点TOP10
- ·图象处理中的边缘检测------canny算子
- ·EZ-USB 68013A开发指南
- ·数值计算程序大放送-特征值和特征向量
- ·ARM的嵌入式Linux移植体验之BootLoader
- ·Visual C++ ADO数据库编程入门
- ·智能手机Smartphone开发导语
- ·利用 wordXP 实现自动排班
- ·[分形]DLA团簇模型的摸拟
- ·DENX U-Boot及Linux使用手册
- ·Static和Final修饰类属性变量及初始化
- ·BPEL的异常管理
- ·看Vue 5 Esprit函数的节点与链接详情
- ·初学者全面接触学习jquery(译文)
- ·LinQ学习之旅 从整型数组中找出偶数
- ·Enterprise Library 快速入门
- ·CVS源代码库服务器建立和权限配置
- ·Visual FoxPro 9.0 SP2正式版下载
- ·VS2005控件的问题解决办法
- ·Cookie是什么?用法是怎样?与SESSION有什么区别?
- ·J2SE API读取Properties文件的六种方法
