月光博客

青青子衿, 悠悠我心, 但为君故, 沉吟至今

« 中国类Twitter微博客网站分析企业邮件沟通技巧 »

屏蔽百度爬虫的方法

  在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

  在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

  但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。



原创文章如转载,请注明:转载自月光博客 [ http://www.williamlong.info/ ]

本文链接地址:http://www.williamlong.info/archives/1754.html
  • 文章排行:
  • 2.乐者为王
  • 还是没用,百度的spider不一定就亮明身份的,正要屏蔽只能封掉它的IP才行
  • ip: 114.241.168.*  2009-4-4 9:44:25   回复该留言
  • 3.对啊博客
  • 对于我们这些小网站,可不能随便屏蔽百度蜘蛛。
    我们还需要百度,还需要支持百度呢。
    爱上对方 于 2009-10-25 14:40:00 回复
    百度 就是为强奸你们这帮小妓女的而存在的
  • ip: 221.223.251.*  2009-4-4 9:44:35   回复该留言
  • 6.流星
  • 话说,大型英文站真有必要屏蔽么?除非是完全针对非国内网民
  • ip: 114.93.2.*  2009-4-4 10:05:00   回复该留言
  • 7.zwwooooo
  • 小网站还是需要百度,大型英文站有必要屏蔽吧,毕竟国内网民对英文普遍‘不爽’
  • ip: 119.123.60.*  2009-4-4 10:11:35   回复该留言
  • 8.Poshi
  • 看幾個國外的知名博客,發現都有禁止百度進入的~~
  • ip: 116.25.164.*  2009-4-4 10:33:28   回复该留言
  • 19.小东
  • 我有好几个网站已经屏蔽百度了,百度老是抓我网站上的原创内容放到它的百度百科上,搜我的网站名,百度百科竟然排到了我的前面,真恶人!
  • ip: 221.0.211.*  2009-4-4 13:51:58   回复该留言
  • 25.哎哟
  • 呵呵 百度是好多站长的饭碗,想他收录都还来不及。
  • ip: 220.174.2.*  2009-4-4 22:31:29   回复该留言
  • 26.DDL
  • 经常来爬我的网站啊,多多益善。
  • ip: 114.229.4.*  2009-4-4 22:49:38   回复该留言
  • 34.cymbi
  • 我那个小站点,可不敢屏蔽百度,后果严重呀。
  • ip: 218.30.110.*  2009-4-5 11:02:58   回复该留言
  • 45.橄榄树
  • 呵呵,原来是这样的啊!
    看来淘宝还是不愿彻底屏蔽百度瑟
  • ip: 61.186.154.*  2009-4-5 19:39:54   回复该留言
  • 46.花田穆
  • 月光这串代码最有用的网站应该是黄色网站呵呵!

    其次是一些隐私内容,其他的情况下不太用得上!!!!
  • ip: 124.64.162.*  2009-4-5 20:30:02   回复该留言
  • 47.三脚猫
  • 如果所有中文站都用这种方式,百度还有存在的价值吗?
  • ip: 117.89.41.*  2009-4-5 20:50:22   回复该留言
  • 62.林枫
  • 博主你好:
    无意中看到你的BLOG ,觉得非常不错,我本人只是个小站长,现在碰到个问题,希望您能指点一下:
    对于网站上放阿里妈妈的广告后,似乎对百度不大友好,原来我的站百度收录也有1000多页,放上阿里的广告后,百度收录不到200页,我觉得其中可能有为题,有的想法是在<A >中加些代码,让百度抓不到Href,不知道可行否,希望给些建议,在此谢谢了
  • ip: 116.252.192.*  2009-8-9 2:16:38   回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 跟随我的推特:跟随我的推特
  • 跟随新浪微博:跟随新浪微博
  • 通过Google订阅本站
  • 通过鲜果订阅本站
  • 通过电子邮件订阅本站

站内搜索

热文排行

最新评论及回复

最近发表

网站收藏

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.

This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.