月光博客 » 网站建设 » 屏蔽百度爬虫的方法

屏蔽百度爬虫的方法

  在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良商家欺诈”。

  在技术层面,淘宝屏蔽百度的方法是,在网站的robots.txt文件中加上如下内容:

User-agent: Baiduspider
Disallow: /

  但实际上这种方法并不能完全屏蔽百度的爬虫,至今在百度上输入site:taobao.com还是可以看到内容,要不要索引网站,还是由百度说了算,要是遵守robots协议,那才不会索引,因此要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。

  方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

  方法2:

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

  当然,对于普通中文网站来说,还是不建议屏蔽百度的爬虫,通常情况下做一些大型的英文网站,才有必要这么做,以节省流量。

顶一下 ▲()   踩一下 ▼()

相关文章

  1. 1
    哈哈   说道:
    哈哈 生活离不开搜索了
    支持(16反对(6回复
  1. 2
    Photosharingforum   说道:
    继续测试~~
    支持(14反对(4回复
  1. 3
    FXYeah   说道:
    shafa,好东东,收藏了.
    支持(17反对(8回复
  1. 4
    NULL   说道:
    这种方法大家都知道。。。。。。。
    支持(14反对(6回复
  1. 5
    三脚猫   说道:
    不能抛弃搜索引擎的网站不是好网站!
    支持(13反对(5回复
  1. 6
    clq   说道:
    都把百度屏蔽了,那也没得搜啦
    支持(14反对(6回复
  1. 7
    贱人   说道:
    支持 少了百度一样能活
    支持(15反对(8回复
  1. 8
    乐者为王   说道:
    还是没用,百度的spider不一定就亮明身份的,正要屏蔽只能封掉它的IP才行
    支持(13反对(8回复
  1. 9
    三脚猫   说道:
    如果所有中文站都用这种方式,百度还有存在的价值吗?
    支持(12反对(7回复
  1. 10
    李强   说道:
    要是内战国民×获胜,现在有人肯定骂国军打着统一的发动内战,还说共军抗日,却被说成不抗日
    支持(10反对(5回复
  1. 11
    流星   说道:
    话说,大型英文站真有必要屏蔽么?除非是完全针对非国内网民
    支持(13反对(9回复
  1. 12
    118yes   说道:
    htaccess,用过
    支持(14反对(10回复
  1. 13
    掌柜   说道:
    现在这么做的还是少数吧.
    支持(13反对(9回复
  1. 14
    百慧博客   说道:
    哪天人人都屏掉百度就爽了,现在还是要靠它吃饭
    支持(11反对(7回复
  1. 15
    来啦   说道:
    杀入前三。祝贺一下
    支持(10反对(7回复
  1. 16
    姬良   说道:
    robots.txt设置
    支持(11反对(8回复
  1. 17
    54一   说道:
    太容易沃尔特特瑞特如太热
    支持(11反对(8回复
  1. 18
    Photosharingforum   说道:
    百度不好。

    支持(8反对(5回复
  1. 19
    Photosharingforum   说道:
    顺便测试一下 留言链接 是不是 有 BUG。
    支持(8反对(5回复
  1. 20
    蓝引力   说道:
    嗯,学习了!
    支持(8反对(5回复
  1. 21
    ada51时尚服装商城   说道:
    小船要思量着掉头了。
    支持(13反对(10回复
  1. 22
    对啊博客   说道:
    对于我们这些小网站,可不能随便屏蔽百度蜘蛛。
    我们还需要百度,还需要支持百度呢。
    爱上对方 于 2009-10-25 14:40:00 回复
    百度 就是为强奸你们这帮小妓女的而存在的
    支持(9反对(7回复
  1. 23
    jaywei   说道:
    百度还是需要的,不能屏蔽啊
    支持(7反对(5回复
  1. 24
    花田穆   说道:
    月光这串代码最有用的网站应该是黄色网站呵呵!

    其次是一些隐私内容,其他的情况下不太用得上!!!!
    支持(9反对(7回复
  1. 25
    NULL   说道:
    16楼居然和我重名耶
    支持(8反对(7回复
  1. 26
    日光博客   说道:
    不公平竞争的结果
    支持(8反对(7回复
  1. 27
    rertrt   说道:
    w有必要这么做
    支持(7反对(6回复
  1. 28
    wordpress啦   说道:
    还是不要屏蔽的好,小站点没有淘宝那么牛X
    支持(6反对(5回复
  1. 29
    小东   说道:
    我有好几个网站已经屏蔽百度了,百度老是抓我网站上的原创内容放到它的百度百科上,搜我的网站名,百度百科竟然排到了我的前面,真恶人!
    支持(6反对(6回复
  1. 30
    DDL   说道:
    经常来爬我的网站啊,多多益善。
    支持(8反对(8回复
  1. 31
    橄榄树   说道:
    呵呵,原来是这样的啊!
    看来淘宝还是不愿彻底屏蔽百度瑟
    支持(8反对(8回复
  1. 32
    Photosharingforum   说道:
    继 续 测 试 ~ ~
    支持(7反对(7回复
  1. 33
    Poshi   说道:
    看幾個國外的知名博客,發現都有禁止百度進入的~~
    支持(6反对(7回复
  1. 34
    KWL   说道:
    可以试一试.
    支持(6反对(7回复
  1. 35
    漁生   说道:
    爱爬不爬
    喜欢爬就爬
    不用理会
    支持(9反对(10回复
  1. 36
    园子   说道:
    呵呵

    好多网站应该都不会这样去做~
    支持(6反对(7回复
  1. 37
    jxsan   说道:
    小东说的那个是怎么回事
    支持(8反对(9回复
  1. 38
    z   说道:
    老帖变新贴,有意见么?
    支持(8反对(9回复
  1. 39
    千寻IT   说道:
    方法是行的通,可是我们还指望百度呢
    支持(6反对(7回复
  1. 40
    ArtdesignBBS   说道:
    屏蔽 百度真恶人!
    支持(9反对(10回复
  1. 41
    ligyxy   说道:
    但是对个人播客是在没有必要屏蔽了
    支持(5反对(6回复
  1. 42
    tunpishuang   说道:
    我博客搜索来源80%是百度。
    支持(9反对(10回复
  1. 43
    哎哟   说道:
    呵呵 百度是好多站长的饭碗,想他收录都还来不及。
    支持(5反对(7回复
  1. 44
    ArtdesignBBS   说道:
    有时候屏蔽了他还索引 百度坏.
    支持(9反对(11回复
  1. 45
    Meng   说道:
    百度就没有带来过多少流量
    支持(14反对(16回复
  1. 46
    Photosharingforum   说道:
    继续测试 ~~
    支持(4反对(6回复
  1. 47
    花非雾   说道:
    你好,我想问一下httpd.ini如何写屏蔽爬虫规则,因为我的是asp网站,恐怕支持不了htacess的规则吧
    支持(4反对(6回复
  1. 48
    2323   说道:
    百度总是封站,感觉有等于无。
    支持(4反对(7回复
  1. 49
    杭州物流   说道:
    这方法用了不错
    支持(6反对(9回复
  1. 50
    leeluby   说道:
    我也靠百度吃饭呢
    支持(7反对(10回复
  1. 51
    匹克与peak   说道:
    不错 你好厉害呀
    支持(5反对(8回复
  1. 52
    有道理   说道:
    不错,
    有道理,
    可以试一试。
    支持(9反对(13回复
  1. 53
    在彬   说道:
    没看明白 也用不到
    支持(11反对(15回复
  1. 54
    歪歪屋啊   说道:
    我倒是希望它多还爬爬
    支持(7反对(11回复
  1. 55
    cymbi   说道:
    我那个小站点,可不敢屏蔽百度,后果严重呀。
    支持(7反对(11回复
  1. 56
    SuperPanda   说道:
    屏蔽 百度爬虫 会不会 对收录 有影响呢?
    支持(5反对(9回复
  1. 57
    zwwooooo   说道:
    小网站还是需要百度,大型英文站有必要屏蔽吧,毕竟国内网民对英文普遍‘不爽’
    支持(3反对(8回复
  1. 58
    mptang   说道:
    评比了摆渡大爷,我们等于自杀
    支持(3反对(8回复
  1. 59
    阿信   说道:
    有时候屏蔽了他还索引
    支持(13反对(19回复
  1. 60
    低价快讯   说道:
    百度总是封站,感觉有等于无。
    支持(4反对(11回复
  1. 61
    小强   说道:
    我的小网站可不敢屏蔽呢
    支持(3反对(10回复
  1. 62
    林枫   说道:
    博主你好:
    无意中看到你的BLOG ,觉得非常不错,我本人只是个小站长,现在碰到个问题,希望您能指点一下:
    对于网站上放阿里妈妈的广告后,似乎对百度不大友好,原来我的站百度收录也有1000多页,放上阿里的广告后,百度收录不到200页,我觉得其中可能有为题,有的想法是在<A >中加些代码,让百度抓不到Href,不知道可行否,希望给些建议,在此谢谢了
    支持(5反对(13回复

发表留言