青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 世界顶级博客的47个博客技巧软件盗版和中国游戏产业 »

抓虾更新FeedBurner缓慢的原因

  我在使用抓虾的时候,发现一个很奇怪的现象,就是有时候抓虾更新FeedBurner的内容会非常慢。

  因为我自己的Feed是使用FeedBurner的服务,因此我对在线阅读器的更新时间还是比较注意的,通常情况下,FeedBurner的Feed更新了之后,Bloglines对其抓取是很快的,基本上是在一个小时以内,而抓虾有时候也会在一个小时内抓取,但是有时候却要花半天的时间才能抓取到新的Feed。

  其实这个现象我在其他国内阅读器上也见过,比如以前用过的gougou,有一段时间我发现gougou对于FeedBurner的Feed内容竟然长达半个月都不更新,看来这可能是一个普遍现象。

  原因是什么呢?

  根据我的分析,抓虾和gougou都是在国内,而Bloglines在国外,他们一起抓FeedBurner的内容,在网络正常的情况下,应该都是没有问题的,问题是Bloglines和FeedBurner之间的连接是始终通顺的,而抓虾和gougou与FeedBurner之间还隔着一道防火长城。

  因此我推测可能的原因是,当某个抓虾的爬虫去抓一个含有敏感关键字的FeedBurner的链接的时候,将会导致“连接被重置”,并且之后的几十分钟,从抓虾爬虫的IP到FeedBurner之间会一直不通,当下一次爬虫再去抓取的时候,又会“连接被重置”,于是这样反反复复,导致了抓虾始终难以继续更新FeedBurner,而Bloglines则不会出现这样的问题。

  如果验证的确是这个问题的话,那么抓虾可以使用以下方法来解决这个问题。

  方法一:抓虾爬虫使用国外的https代理服务器来抓取FeedBurner的内容,这样抓取的内容将经过加密,连接就不会再被重置了。

  方法二:将抓虾爬虫放在国外的服务器上去抓取FeedBurner的内容,然后定时和国内进行同步更新。同步的时候不要使用常用的http协议,而使用其他协议,如果要使用http协议,则同步的内容需要进行编码(比如用ZIP压缩或者使用XOR加密),这样也可以解决问题。

  为什么抓FeedBurner会有问题呢,比如www.technorati.com就是一个敏感关键字,为了访问technorati,可能有人会使用FeedBurner来烧录Technorati的Feed以访问Technorati(我就是这么做的),那么会不会产生Technorati这样的“非法关键字”导致“连接被重置”呢?当然所谓的非法关键字实在太多,也实在防不胜防。

  最后,我呼吁中国电信能将www.technorati.com从非法关键字的清单中清除,虽然我知道这样的呼吁通常是毫无结果的。
 



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/568.html
  • 文章排行:
  • 1.sean
  • 事实就是这样,我们总在呐喊,但却无力。
  • 2006/7/20 11:30:39   支持(22)反对(6) 回复
  • 2.forestbeggar
  • 我即便最近没有过滤词
    google还是时常上不去
    gmail也老掉线

    最安全的地方其实是最危险的地方
    大公报虽然是亲北京的,大陆办的
    但我在他网站上发现网站把近百年的报道全搞网上了
    造成的结果是80年代的历史很详细
    而且当时主编被免职后大公报的语气108度大变化
    很好的了解当代史的一本教科书

    其实在网路上看电视也是突破封锁的一种方式
    封锁只针对文字和图片,对视频可能效果小一些

    ZF并没有把外国电视台网站全封掉
    TVB ATV CNN NBC还有很多提供在线新闻的电视台都可以看,而且很流畅
    台湾的电视台我只有中天能够成功登陆,不过节目还算流畅

    不知道ZF今后会不会也把那些网站也作为过滤词
  • 2006/7/21 8:24:59   支持(17)反对(8) 回复
  • 3.y0ungs
  • 我也遇到这样的情况,郁闷的是抓虾把我的feedburner日志翻了一番,重复了。更新确实也不够快的 真希望feedsky能快点好起来
    用feedburner虽然功能很完善还是很悬啊。
    现在的兼容性真是个问题
  • 2006/7/20 11:58:20   支持(9)反对(5) 回复
  • 5.under
  • i can't get to youtube.com today, even with tro. do you happen to know what's going on?

    it's totally out of the way, but i got nobady to ask...
  • 2006/7/20 18:18:15   支持(13)反对(11) 回复
  • 6.秀楠爸爸
  • 我使用dreamhost的java,编写了一个抓RSS的cron,这样就不用担心抓不到feedburners了,
    比如williamlong的都几乎实时的(半小时一抓)。
  • 2006/7/20 13:19:30   支持(8)反对(7) 回复
  • 7.wwrtwe
  • 我是秀楠爸爸。
    dreamhost支持java啊,只是不支持jsp和servlet。只要编写console下的java程序读取rss feed,然后加上cron就可以。
    它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

    运行效果可以看我这里,“都是有趣的blog"。
    http://www.sunxiunan.com/funnyblog/

    还有左边栏的友情链接更新也是用的这个“blog手拉手”程序。效果感觉相当满意哦,嘿嘿。

    希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。
    通过添加一个javascripts就可以了。

  • 2006/7/22 16:25:56   支持(8)反对(8) 回复
  • 8.williamlong
  • 3楼,你用的dreamhost支持java?莫非用独立主机?为什么我的dreamhost只支持php啊?
  • 2006/7/20 16:16:57   支持(10)反对(11) 回复
  • 9.aw
  • sigh ... 现在发什么都要小心啊!`~
  • 2006/7/20 14:00:11   支持(6)反对(8) 回复
  • 11.秀楠爸爸
  • 我是秀楠爸爸。
    dreamhost支持java啊,只是不支持jsp和servlet。只要编写console下的java程序读取rss feed,然后加上cron就可以。
    它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

    运行效果可以看我这里,“都是有趣的blog"。
    http://www.sunxiunan.com/funnyblog/

    还有左边栏的友情链接更新也是用的这个“blog手拉手”程序。效果感觉相当满意哦,嘿嘿。

    希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。
    通过添加一个javascripts就可以了。

  • 2006/7/22 10:15:46   支持(7)反对(11) 回复
  • 12.Zhang
  • 抓虾的格式显示很不爽,段落P之间竟然没有间距,也没有缩进,导致很多文章不知在哪分的段,阅读困难。
  • 2006/7/22 8:40:28   支持(7)反对(12) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.