月光博客 » 网站建设 » 屏蔽百度爬虫的方法

屏蔽百度爬虫的方法

  在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

  在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

  但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

屏蔽百度爬虫的方法

顶一下 ▲()   踩一下 ▼()

相关文章

  1. 1
    哈哈   说道:
    哈哈 生活离不开搜索了
    支持(16反对(6回复
  1. 2
    FXYeah   说道:
    shafa,好东东,收藏了.
    支持(17反对(8回复
  1. 3
    NULL   说道:
    这种方法大家都知道。。。。。。。
    支持(14反对(6回复
  1. 4
    三脚猫   说道:
    不能抛弃搜索引擎的网站不是好网站!
    支持(13反对(5回复
  1. 5
    clq   说道:
    都把百度屏蔽了,那也没得搜啦
    支持(14反对(6回复
  1. 6
    贱人   说道:
    支持 少了百度一样能活
    支持(15反对(8回复
  1. 7
    乐者为王   说道:
    还是没用,百度的spider不一定就亮明身份的,正要屏蔽只能封掉它的IP才行
    支持(13反对(8回复
  1. 8
    三脚猫   说道:
    如果所有中文站都用这种方式,百度还有存在的价值吗?
    支持(12反对(7回复
  1. 9
    李强   说道:
    要是内战国民×获胜,现在有人肯定骂国军打着统一的发动内战,还说共军抗日,却被说成不抗日
    支持(10反对(5回复
  1. 10
    流星   说道:
    话说,大型英文站真有必要屏蔽么?除非是完全针对非国内网民
    支持(13反对(9回复

发表留言