月光博客 » 业界动态 » 抓虾更新FeedBurner缓慢的原因

抓虾更新FeedBurner缓慢的原因

  我在使用抓虾的时候,发现一个很奇怪的现象,就是有时候抓虾更新FeedBurner的内容会非常慢。

  因为我自己的Feed是使用FeedBurner的服务,因此我对在线阅读器的更新时间还是比较注意的,通常情况下,FeedBurner的Feed更新了之后,Bloglines对其抓取是很快的,基本上是在一个小时以内,而抓虾有时候也会在一个小时内抓取,但是有时候却要花半天的时间才能抓取到新的Feed。

  其实这个现象我在其他国内阅读器上也见过,比如以前用过的gougou,有一段时间我发现gougou对于FeedBurner的Feed内容竟然长达半个月都不更新,看来这可能是一个普遍现象。

  原因是什么呢?

  根据我的分析,抓虾和gougou都是在国内,而Bloglines在国外,他们一起抓FeedBurner的内容,在网络正常的情况下,应该都是没有问题的,问题是Bloglines和FeedBurner之间的连接是始终通顺的,而抓虾和gougou与FeedBurner之间还隔着一道防火长城。

  因此我推测可能的原因是,当某个抓虾的爬虫去抓一个含有敏感关键字的FeedBurner的链接的时候,将会导致“连接被重置”,并且之后的几十分钟,从抓虾爬虫的IP到FeedBurner之间会一直不通,当下一次爬虫再去抓取的时候,又会“连接被重置”,于是这样反反复复,导致了抓虾始终难以继续更新FeedBurner,而Bloglines则不会出现这样的问题。

  如果验证的确是这个问题的话,那么抓虾可以使用以下方法来解决这个问题。

  方法一:抓虾爬虫使用国外的https代理服务器来抓取FeedBurner的内容,这样抓取的内容将经过加密,连接就不会再被重置了。

  方法二:将抓虾爬虫放在国外的服务器上去抓取FeedBurner的内容,然后定时和国内进行同步更新。同步的时候不要使用常用的http协议,而使用其他协议,如果要使用http协议,则同步的内容需要进行编码(比如用ZIP压缩或者使用XOR加密),这样也可以解决问题。

  为什么抓FeedBurner会有问题呢,比如www.technorati.com就是一个敏感关键字,为了访问technorati,可能有人会使用FeedBurner来烧录Technorati的Feed以访问Technorati(我就是这么做的),那么会不会产生Technorati这样的“非法关键字”导致“连接被重置”呢?当然所谓的非法关键字实在太多,也实在防不胜防。

  最后,我呼吁中国电信能将www.technorati.com从非法关键字的清单中清除,虽然我知道这样的呼吁通常是毫无结果的。
 

顶一下 ▲()   踩一下 ▼()

相关文章

  1. 1
    sean   说道:
    事实就是这样,我们总在呐喊,但却无力。
    支持(22反对(6回复
  1. 2
    forestbeggar   说道:
    我即便最近没有过滤词
    google还是时常上不去
    gmail也老掉线

    最安全的地方其实是最危险的地方
    大公报虽然是亲北京的,大陆办的
    但我在他网站上发现网站把近百年的报道全搞网上了
    造成的结果是80年代的历史很详细
    而且当时主编被免职后大公报的语气108度大变化
    很好的了解当代史的一本教科书

    其实在网路上看电视也是突破封锁的一种方式
    封锁只针对文字和图片,对视频可能效果小一些

    ZF并没有把外国电视台网站全封掉
    TVB ATV CNN NBC还有很多提供在线新闻的电视台都可以看,而且很流畅
    台湾的电视台我只有中天能够成功登陆,不过节目还算流畅

    不知道ZF今后会不会也把那些网站也作为过滤词
    支持(17反对(8回复
  1. 3
    y0ungs   说道:
    我也遇到这样的情况,郁闷的是抓虾把我的feedburner日志翻了一番,重复了。更新确实也不够快的 真希望feedsky能快点好起来
    用feedburner虽然功能很完善还是很悬啊。
    现在的兼容性真是个问题
    支持(9反对(5回复
  1. 4
    veterans   说道:
    呼吁还是要进行下去底
    支持(11反对(8回复
  1. 5
    under   说道:
    i can't get to youtube.com today, even with tro. do you happen to know what's going on?

    it's totally out of the way, but i got nobady to ask...
    支持(13反对(11回复
  1. 6
    秀楠爸爸   说道:
    我使用dreamhost的java,编写了一个抓RSS的cron,这样就不用担心抓不到feedburners了,
    比如williamlong的都几乎实时的(半小时一抓)。
    支持(8反对(7回复
  1. 7
    wwrtwe   说道:
    我是秀楠爸爸。
    dreamhost支持java啊,只是不支持jsp和servlet。只要编写console下的java程序读取rss feed,然后加上cron就可以。
    它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

    运行效果可以看我这里,“都是有趣的blog"。
    http://www.sunxiunan.com/funnyblog/

    还有左边栏的友情链接更新也是用的这个“blog手拉手”程序。效果感觉相当满意哦,嘿嘿。

    希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。
    通过添加一个javascripts就可以了。

    支持(8反对(8回复
  1. 8
    williamlong   说道:
    3楼,你用的dreamhost支持java?莫非用独立主机?为什么我的dreamhost只支持php啊?
    支持(10反对(11回复
  1. 9
    aw   说道:
    sigh ... 现在发什么都要小心啊!`~
    支持(6反对(8回复
  1. 10
    pig   说道:
    狗的腿子把腊肠横在路上
    支持(9反对(12回复
  1. 11
    秀楠爸爸   说道:
    我是秀楠爸爸。
    dreamhost支持java啊,只是不支持jsp和servlet。只要编写console下的java程序读取rss feed,然后加上cron就可以。
    它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

    运行效果可以看我这里,“都是有趣的blog"。
    http://www.sunxiunan.com/funnyblog/

    还有左边栏的友情链接更新也是用的这个“blog手拉手”程序。效果感觉相当满意哦,嘿嘿。

    希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。
    通过添加一个javascripts就可以了。

    支持(7反对(11回复
  1. 12
    Zhang   说道:
    抓虾的格式显示很不爽,段落P之间竟然没有间距,也没有缩进,导致很多文章不知在哪分的段,阅读困难。
    支持(7反对(12回复

发表留言