青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 中国类Twitter微博客网站分析企业邮件沟通技巧 »

屏蔽百度爬虫的方法

  在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

  在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

  但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/1754.html
  • 文章排行:
  • 4.NULL
  • 这种方法大家都知道。。。。。。。
  • 2009/4/4 12:53:50   支持(14)反对(6) 回复
  • 5.三脚猫
  • 不能抛弃搜索引擎的网站不是好网站!
  • 2009/4/4 20:35:54   支持(13)反对(5) 回复
  • 6.clq
  • 都把百度屏蔽了,那也没得搜啦
  • 2009/4/5 17:03:26   支持(14)反对(6) 回复
  • 8.三脚猫
  • 如果所有中文站都用这种方式,百度还有存在的价值吗?
  • 2009/4/5 20:50:22   支持(12)反对(7) 回复
  • 9.李强
  • 要是内战国民×获胜,现在有人肯定骂国军打着统一的发动内战,还说共军抗日,却被说成不抗日
  • 2010/10/29 13:11:09   支持(10)反对(5) 回复
  • 10.乐者为王
  • 还是没用,百度的spider不一定就亮明身份的,正要屏蔽只能封掉它的IP才行
  • 2009/4/4 9:44:25   支持(12)反对(8) 回复
  • 11.流星
  • 话说,大型英文站真有必要屏蔽么?除非是完全针对非国内网民
  • 2009/4/4 10:05:00   支持(13)反对(9) 回复
  • 14.百慧博客
  • 哪天人人都屏掉百度就爽了,现在还是要靠它吃饭
  • 2009/4/6 10:55:55   支持(11)反对(7) 回复
  • 19.Photosharingforum
  • 顺便测试一下 留言链接 是不是 有 BUG。
  • 2009/5/7 13:40:12   支持(8)反对(5) 回复
  • 21.ada51时尚服装商城
  • 小船要思量着掉头了。
  • 2010/9/28 13:33:10   支持(13)反对(10) 回复
  • 22.对啊博客
  • 对于我们这些小网站,可不能随便屏蔽百度蜘蛛。
    我们还需要百度,还需要支持百度呢。
    爱上对方 于 2009-10-25 14:40:00 回复
    百度 就是为强奸你们这帮小妓女的而存在的
  • 2009/4/4 9:44:35   支持(9)反对(7) 回复
  • 24.花田穆
  • 月光这串代码最有用的网站应该是黄色网站呵呵!

    其次是一些隐私内容,其他的情况下不太用得上!!!!
  • 2009/4/5 20:30:02   支持(9)反对(7) 回复
  • 28.wordpress啦
  • 还是不要屏蔽的好,小站点没有淘宝那么牛X
  • 2009/4/5 15:41:13   支持(6)反对(5) 回复
  • 29.小东
  • 我有好几个网站已经屏蔽百度了,百度老是抓我网站上的原创内容放到它的百度百科上,搜我的网站名,百度百科竟然排到了我的前面,真恶人!
  • 2009/4/4 13:51:58   支持(6)反对(6) 回复
  • 30.DDL
  • 经常来爬我的网站啊,多多益善。
  • 2009/4/4 22:49:38   支持(8)反对(8) 回复
  • 31.橄榄树
  • 呵呵,原来是这样的啊!
    看来淘宝还是不愿彻底屏蔽百度瑟
  • 2009/4/5 19:39:54   支持(8)反对(8) 回复
  • 33.Poshi
  • 看幾個國外的知名博客,發現都有禁止百度進入的~~
  • 2009/4/4 10:33:28   支持(6)反对(7) 回复
  • 35.漁生
  • 爱爬不爬
    喜欢爬就爬
    不用理会
  • 2009/4/4 13:12:57   支持(9)反对(10) 回复
  • 36.园子
  • 呵呵

    好多网站应该都不会这样去做~
  • 2009/4/4 17:25:07   支持(6)反对(7) 回复
  • 39.千寻IT
  • 方法是行的通,可是我们还指望百度呢
  • 2009/4/5 13:57:40   支持(6)反对(7) 回复
  • 41.ligyxy
  • 但是对个人播客是在没有必要屏蔽了
  • 2009/4/5 16:23:22   支持(5)反对(6) 回复
  • 42.tunpishuang
  • 我博客搜索来源80%是百度。
  • 2009/4/5 17:25:20   支持(9)反对(10) 回复
  • 43.花非雾
  • 你好,我想问一下httpd.ini如何写屏蔽爬虫规则,因为我的是asp网站,恐怕支持不了htacess的规则吧
  • 2014/4/3 8:38:42   支持(4)反对(5) 回复
  • 44.哎哟
  • 呵呵 百度是好多站长的饭碗,想他收录都还来不及。
  • 2009/4/4 22:31:29   支持(5)反对(7) 回复
  • 45.ArtdesignBBS
  • 有时候屏蔽了他还索引 百度坏.
  • 2009/4/5 16:19:41   支持(9)反对(11) 回复
  • 48.2323
  • 百度总是封站,感觉有等于无。
  • 2009/4/4 11:17:36   支持(4)反对(7) 回复
  • 52.有道理
  • 不错,
    有道理,
    可以试一试。
  • 2009/4/4 9:51:17   支持(9)反对(13) 回复
  • 55.cymbi
  • 我那个小站点,可不敢屏蔽百度,后果严重呀。
  • 2009/4/5 11:02:58   支持(7)反对(11) 回复
  • 56.SuperPanda
  • 屏蔽 百度爬虫 会不会 对收录 有影响呢?
  • 2009/4/6 13:48:06   支持(5)反对(9) 回复
  • 57.zwwooooo
  • 小网站还是需要百度,大型英文站有必要屏蔽吧,毕竟国内网民对英文普遍‘不爽’
  • 2009/4/4 10:11:35   支持(3)反对(8) 回复
  • 58.mptang
  • 评比了摆渡大爷,我们等于自杀
  • 2009/4/7 8:39:50   支持(3)反对(8) 回复
  • 60.低价快讯
  • 百度总是封站,感觉有等于无。
  • 2009/4/4 10:39:49   支持(4)反对(11) 回复
  • 62.林枫
  • 博主你好:
    无意中看到你的BLOG ,觉得非常不错,我本人只是个小站长,现在碰到个问题,希望您能指点一下:
    对于网站上放阿里妈妈的广告后,似乎对百度不大友好,原来我的站百度收录也有1000多页,放上阿里的广告后,百度收录不到200页,我觉得其中可能有为题,有的想法是在<A >中加些代码,让百度抓不到Href,不知道可行否,希望给些建议,在此谢谢了
  • 2009/8/9 2:16:38   支持(5)反对(12) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.