月光博客

青青子衿, 悠悠我心, 但为君故, 沉吟至今

« 月光博客RSS调整为全文输出四十年前的今天和四部电影 »

百度和Google谁更能搜索色情信息

  本文主要针对百度和Google搜索引擎的关键字过滤功能进行比较和分析。

  最近部分国内媒体刊登了一系列文章,包括“Google可搜大量色情链接 过滤可能损失流量”,“Google搜索不良条目量攀升 社会责任遭考验”,以大量篇幅论证Google包含色情违法信息,甚至有一种倾向,即将色情、违法信息泛滥的罪责推向了Google,似乎封杀了Google或搞定了Google关键词过滤,网络世界从此就会如同真空一样纯净。

  虽然Google推出了专门针对中国国情的“谷歌”(Google.cn),并使用了颇受争议的信息过滤技术,然而即使如此依旧无法摆脱被恶意攻击和诽谤的命运。

  该文章攻击道:“最常用的信息过滤、屏蔽技术被称为‘关键字过滤’,这项技术为广大搜索引擎企业所掌握”。并声称“这项‘信息过滤’技术不算是特别复杂的技术”。

  据我所知,Google.cn(以后简称Google)和百度目前都对色情违法信息进行了过滤技术,不同的是,百度还增加了一项关键词屏蔽技术,就是对于一批敏感关键词,当服务器接收到用户提交的搜索词后,先将搜索词和上述“过滤词汇表”进行匹配对比;一旦匹配成功,服务器即返回“您输入的关键词可能涉及不符合相关法律法规的内容”,然后结束搜索。比如在百度搜索“色情”等词语后显示的效果。

  然而,从技术上讲,这种“过滤词汇表”实际上有很大缺陷和漏洞,对于稍懂一点电脑知识的人来说形同虚设,例如在百度搜索“色情”的确不让搜索,但是搜索“"色情"”(带引号的色情)即可返回18,300,000万条搜索记录,远远多于Google搜索出的记录(另外提一下,我用Google搜索“色情”返回的结果是“该页无法显示”,不知道这个记者用什么线路上网的,莫非是百度提供的专线?)。推而广之,所有百度通过“过滤词汇表”屏蔽的词汇,大部分只要加上个引号就全都可以搜索,另外,将多个屏蔽关键字组合在一起也可以搜索出结果,更可笑的是,在百度不可以搜索“色情”,但却可以搜索出“色情图片”70万条记录,“色情电影”51万条记录,“色情小说”23万条记录,“色情网站”79万条记录,可见这种屏蔽的方法实在是用来忽悠媒体的,实际作用非常有限。

  其次,对于使用具体过滤技术来看,Google和百度都通过内容的相关性过滤掉色情违法网站,Google过滤是会在页面底部显示“据当地法律法规和政策,部分搜索结果未予显示”。两者的过滤效果来看,搜索几个关键字即可感觉出来。

  百度搜索“色情图片”,第一页的大多数是论坛上的文章,并有4、5条包含色情信息,而在Google搜索“色情图片”,则第一页没有一篇是色情信息。搜索其他的信息进行对比也可以发现Google的确在信息过滤上做了不少工作,而百度则过滤的信息远不如Google,更进一步,用百度和Google搜索英文,我们发现百度对于英文网站的过滤效果更差,用百度搜索“hardcore”,结果出现了170万条数据,可以打开查看到非常多的色情网站,而在Google中搜索“hardcore ”只能搜索到288条结果,这个夸张的对比可以看出两者在过滤功能上所做的工作实在差距太大,所以,如果百度在这方面对Google进行指责攻击,那实在是颠倒黑白,指鹿为马。

  当然,这也反映出一个问题,就是Google和百度不同,Google根本不了解中国的国情,中国的国情就是人治,说明白点就是某些人凭自己的主观意志决定一切,你其实什么都不用做,但你其实什么都做了, 以前有个对联是“说你行,你就行,不行也行;说不行,就不行,行也不行”, 横批是“不服不行”。要深刻理解这种国情,必须知道这里谁说了算,谁能决定你企业的命运呢?当然是有权的人,只有他们才是主人,要想成功就需要积极向他们靠拢,争取进入他们的利益集团,形成共同利益,这才是在中国立于不败之地的方法。在中国做成功的企业要完全放弃自己的道德、良心和价值观,百度是“只说不做”,而Google是“只做不说”,Google还天真的以为配合中国进行信息过滤就可以顺利进入中国市场,其实百度在过滤上做的工作可能还不如Google的十分之一,但是百度却能让别人以为百度比Google做的多十倍。

  当然,Google是个很值得敬佩的企业,在企业的价值观、道德观方面,Google坚持“你可以挣钱而不必做坏事”,在公司内部,每个人都努力成为“极具创新精神、值得信赖、行事正直,而且极大地改变了这个世界的人”。Google无论在管理领域还是在服务领域都顺应个人化、大众化、社会化的趋势,坚持“做正确的事情”。可能正是因为这一点,才使得目前Google在和百度的竞争中处于劣势。



原创文章如转载,请注明:转载自月光博客 [ http://www.williamlong.info/ ]

本文链接地址:http://www.williamlong.info/archives/502.html
  • 文章排行:
  • 3.Chinglish
  • 我用Google搜索“××”返回的结果也是“该页无法显示”,不知道这个记者用什么线路上网的
  • 2006-5-16 0:04:21
  • 4.pig
  • 打倒baidu,baidu是邪恶的走×。

    现在任何国外搜索引擎都不能搜索“××”了,直接找不到服务器。
    可以用www.yahoo.com试试
  • 2006-5-16 1:19:09
  • 7.inspirexp
  • http://inspirexp.googlepages.com
  • 百度贴吧播“黄”种 ××图片随手可得



    “失站长心何以搜天下”,这是一个叫反百度联盟的网站首页上的一句话。早前百度恶意屏蔽了若干“不合作”网站,用“车匪路霸”式经营模式要求个人站长们留下“买路钱”,个人站长们稍有不从自己的网站很可能就从此被百度搜索引擎“雪藏”。

      这种不公平或是用钱买排名的方式,激起了个人站长们的强烈不满。在这事还没完没了之时,记者今天运用百度贴吧功能搜索“美女”两字,竟搜出半屏是××标题,本来在搜索引擎里查到这类标题并不出奇,一般在GOOGLE等搜索引擎里,标表是能找到,但是××内容一般会进行后台过滤,或是地址打不开或是在一定时间里停止用户再次用搜索引擎查东西等方法,来达到警示作用。所以当记者查到诸如“性感MM自慰”这等字眼时,并没有太大的反应,但是点击链接,却发现××图片并没有屏蔽,而是大大列列的放在上面,不堪入目的图片上还打有某某××电影网站的地址等信息。呜呼唉哉,看得记者是面红心又跳。

      根据《互联网电子公告服务管理规定》第六条第三、四点规定:“有电子公告服务安全保障措施,包括上网用户登记程序、上网用户信息安全管理制度、技术保障设施;有相应的专业管理人员和技术人员,能够对电子公告服务实施有效管理。”而百度的贴吧属于本规定所管辖范围,为什么会把这些不法信息发布出来呢?不得而知。

      回头看看百度的免责声明中写到:“对搜索结果的安全性、正确性、及时性、合法性均不做担保。”那不正好把责任推得一干二净?很明显百度后台并没有一个完善的审核机制。在截稿为止,有一部分网页已经被封,但这并不能代表没有问题。

      记者回想起去年一部十分红火的电影,里面有一句很经典的话:“做人要厚道!”记者想说:“做网站同样要厚道!”百度一边是忙于张罗上市之余,也得照顾一下中国的网民。虽然中国互联网离绿色上网还有一段远路。但再富不能没良心,再毒不能毒孩子,做网站要厚道!
  • 2006-5-16 8:59:34
  • 9.一切事务都有其好的一面
  • 好很喜欢月光博客的技术性文章,我也是google的比较踏实用户,也经常用百度.其实我想说的是如过版主把月光定位于技术性专题网站,那么就少发表一些或者不必发表一些带有个人情绪化的评论(这其实也没什么错),让大家有一个更好的心情来到月光博客学习交流,如果能宽容一些,包容一些,更能显版主的宽阔胸怀,希望月光博客越办越好!
  • 2006-5-16 10:07:05
  • 10.leavic
  • http://leavic.com
  • 任何人都可以找出充足的理由来赞美自己喜欢的,也可以找出跟充足的理由来打击自己不喜欢的,但无论我们怎么辩解或解释,世界都不会因此有什么改变。
    不需要整天说你喜欢Google或者喜欢百度,这实在没什么实际的意义。
  • 2006-5-16 12:15:13
  • 13.3R
  • http://www.yake123.com
  • 赞成 9楼. 一切事务都有其好的一面好 的话,

    很喜欢月光博客的技术性文章,我也是google的比较踏实用户,也经常用百度.其实我想说的是如过版主把月光定位于技术性专题网站,那么就少发表一些或者不必发表一些带有个人情绪化的评论(这其实也没什么错),让大家有一个更好的心情来到月光博客学习交流,如果能宽容一些,包容一些,更能显版主的宽阔胸怀,希望月光博客越办越好!
  • 2006-5-16 14:39:30
  • 16.williamlong
  • http://www.williamlong.info
  • 9楼和13楼,难道我们看着不良记者在新浪网发布“Google可搜大量××链接 过滤可能损失流量”和“Google搜索不良条目量攀升 社会责任遭考验”这样的低级造谣文章而保持一言不发,就能够表明我们更宽容的道德修养吗?
  • 2006-5-16 16:58:19
  • 20.talkbar
  • http://www.talkbar.net/
  • 很喜欢这样的技术文章,也为你的钻研精神感动,整理这篇文章一定也花了很长时间,我转载了你的文章,当然保留了转载地址,在此谢谢你。
    另外还有一个问题,您日志下方的文章排行是怎么弄的?看起来很不错·~
  • 2006-5-16 18:35:14
  • 22.williamlong
  • http://www.williamlong.info
  • lusin,你要的地址格式如下:
    Your Name
    Room xxx ,Building No xxx,xxx Residential,xxx Road,xxx District
    ShenZhen,GuangDong,China 500000
    另外,这类问题以后最好通过邮件或者http://www.williamlong.info/guestbook 处的留言本来提问。
  • 2006-5-16 20:32:34
  • 33.流浪的脚
  • http://www.njci.net/blog
  • 看GOOGLE的资讯也一样,通常是第一次打开,第于次刷新就无法显示。
    GOOGLE在中国真的很不顺,不知最后完全符合GOV的GOOGLE将会是什么样子?
    之前一个朋友说GOOGLE.CN是阉割版,一点都不错。
    这就是中国啊。。。。
  • 2006-5-18 13:13:38
  • 36.小光
  • http://www.baidu.com/s?wd=%C2%A5%D6%F7%CA%C7SB&cl=3

    http://www.google.com/search?hl= ... 9C%E7%B4%A2&lr=

    请你们搽亮眼睛看看上面的搜索结果,百度和google到底哪个更强,什么是全球最大的中文搜索引擎?

    本人更喜欢用Google搜索成人内容,因为它可以搜索到全世界的成人内容,百度比不上Google搜索成人内容这一点我是承认的.
  • 2006-5-19 13:10:30
  • 38.nake
  • 我喜欢google 但是我也没那么恨baidu,你讨厌就不用就完了。或者指出baidu的7宗罪,建议其改正,发那么多牢骚有什么用。
  • 2006-5-19 22:24:42
  • 40.ShellehS
  • baidu 好

    搜的结果又快又多,又好,质量也高。
    不像google, 动不动“该页无法显示”

    我搜XX的时候只用baidu
    baidu在××界,是很有分量的!!力挺baidu !!希望能够再接再厉,再创xing高(潮)
  • 2006-5-22 11:19:14
  • 45.gcdmw
  • 人们看一些色情没关系,搞一些色情活动也没关系,最多自己得个性病什么的。但是如果不在色情上发泄一些体力,天天谈政治的话,这个问题可就大了。这可能也算是曲线救国吧。--色情政治
  • 2006-6-4 23:49:28
  • 49.hiyaho
  • Baidu搜索儿童色情信息的能力胜于任何一个搜索引擎. Google搜索的能力明显弱于Baidu. 可以自己试试.
    找出来的儿童色情网站可以提交到以下网站:
    http://www.web547.org.tw/ 台湾终止童妓协会
  • 2006-6-15 0:51:04
  • 50.x0618x
  • 我不要嘛.....

    年轻的我拥护百度, -它- 让我的青春期可以及时地了解性知识。

    年轻的我不喜欢google, -他- 不能满足我的原始欲望。

    老美真笨哦,他不了解我国是由叫"人民公仆"的主子,和很聪明的奴才组成的。
  • 2006-6-18 0:32:56
  • 53.mjsam
  • http://blog.mjsam.com
  • 我也很喜欢GOOGLE,尤其是技术类文章,百度搜出来的真烂。

    对于情色类的东西,百度不比GOOGLE差,呵呵。

    不让你搜色情,但用电影名或者公司名一搜就OK了,掩耳盗铃也是中国特色。

    另外现在BT的种子市场里各种信息都有,甚至根本不用搜索引擎就能看到各种东

    东,不过要小心病毒哦。

    我想中国更应该将精力放在教育小朋友如何去面对这一切,而不是努力回避。
  • 2006-6-22 11:05:09
  • 54.yaomy
  • http://yaomy.net
  • 我是一个普通的网民。
    我所需要的是最短的时间内找到自己所需。
    google和baidu只是一种工具。同时也是一把双刃剑。
    在不同的人手中使用会有不同的效果。
    相比之下我选择google.com
  • 2006-7-1 19:44:33
  • 56.Asura
  • 解决编程上的问题,第一个想到的的确是google,而且它也从来没让我失望过,这个很赞,不过国外的技术论坛本来就很不错阿。
    baidu也没那么差劲吧,这么天怒人怨的,或者我太out了? sex而已,需要用到baidu吗,大家是在天天上网吗??
  • 2006-7-18 3:11:16
  • 58.NEXTWAVE
  • 色情,google比百度多的要命,道理很简单,色情网多在国外,你用外语搜索相关词就知道了.

    这不重要,你怎么搜索才是王道.
  • 2006-7-27 19:13:29
  • 60.planemos
  • 用google搜索引起“该页无法显示”错误我觉得不是google的问题。因为有时候搜索某个与色情、政治毫不相干的东西,回馈信息带有某些怀疑与政治有关的内容,再看搜索第二页时候,就会返回“该页无法显示”的提示,要等候约10分钟或断掉ADSL再连才能再次搜索。
  • 2006-9-14 13:37:37
  • 61.p
  • 无论色情还是普通文本,可以搜出所需就说明结果符合用户要求,想说明些什么?
  • 2006-9-25 15:51:28
  • 63.卿琳子
  • 有必要这么去抨击百度吗? 什么东西有利则有弊, 百度的种种不好说出来还是一句: 你不喜欢! 关于技术这块, 百度是比不上GOOGLE, 但我也相信百度会去完善, 因为它还要在这个市场生存! 毕竟百度这个品牌已经人尽皆知了, 在这种基础上去做好这个企业的美誉度是百度高层必须重视的问题! 而技术这块自然也不需要我们这些人去操心, 简直没事找事嘛! 至少人家百度就能做到中国第一, 那是人家的本事! 不管用的是什么手段, 至少目前来说它是成功的
  • 2006-12-2 13:36:53
  • 64.
  • 一群SB,一大群SB。无聊至极!什么谷歌啊,名字就那么难听没创意!肯定干部过百度!!!!!
  • 2006-12-30 14:56:06
  • 65.止水
  • 对63楼:以前我对百度也没有太多恶印象,只是听说百度名声不太好,所以一直用GOOGLE不用百度,但是最近3个星期以来浏览器被百度劫持,上好多网站都会被劫持到一个:
    您输入的内容无法访问。
    有可能是输入错误,或者是网站访问超时。
    百度建议您:
    搜索:


    百度风云榜·流行金曲风云榜 ·美女风云榜 ·男歌手风云榜
    ·女歌手风云榜 ·游戏风云榜 ·小说风云榜
    ·热门搜索 ·上升最快 ·更多搜索风云榜


    MP3排行榜·MP3排行榜 ·新歌TOP100 ·歌曲TOP500
    ·歌手TOP200 ·歌手列表 ·点歌排行榜


    百度产品·网页搜索 ·新闻搜索 ·百度贴吧
    ·MP3搜索 ·图片搜索 ·百度网站
    ·硬盘搜索 ·超级搜霸 ·更多产品


    ©2007 Baidu

    的网页,用了无数杀毒工具,重新装了IE7依然无效,所以我决定这一生都不再用百度,并且和百度斗争到底,至于百度的其他无耻行径对我影响甚微,你可以自己去看



    对64楼:姑且不考虑你的来历和目的,仅代表我个人对您的母亲及您家庭里的女性成员表示最真挚的问候,有问题请到百度超级搜粑315举报网站去投诉
  • 2007-2-2 20:53:21
  • 68.lei
  • 你说的和反映的问题百度似乎很烂而GOOGLE似乎很纯洁.其实GOOGLE对站长随意封号,在个人站长里面似乎怨声载道.每个都有自身的问题不能光暴露百度的问题.
  • 2007-4-16 12:55:08
  • 69.ggg
  • 楼上那些狗杂种,卖国贼。国内的百度出一点事就如此炮轰,
    国外google乱搞就当耳边风,
    好像外国人放个屁都是香的,
    真不知到是吃什么长大的。
  • 2007-5-27 17:49:04
  • 70.可乐
  • http://www.kele.name
  • www.kele.name-一个关注最新数码产品-电脑-软件及网络资讯、互联网应用的博客;月光是我的榜样~可以和BLOGGER交换下连接吗?
    对了,别那么无聊;非常有可能是BAIDU竞争对手恶意而为!我有一次也是这样;浏览器被BAIDU劫持,后来杀了毒就好;请问:像BAIDU这样的站需要用这样的手段吗?鄙视骂BAIDU的!我一直用BAIDU,7年不变!
  • 2007-5-27 18:20:50
  • 74.Lucy
  • http://87insight.cn/
  • 同意32楼
    “不找真正的不良信息的源头,却要将责任加在一个只陈述事实的工具上,何其可笑啊”

    Google.cn怀疑到底有没有人用,如果是Google.com的话,信息量绝对不会少,库大,没办法。

    所以说……谁好一看就出来了。

    至于甲醇的国内某些媒体,像忽视和鄙视G~F~W一样忽视和鄙视他们。
  • 2007-7-16 2:38:32
  • 75.ning
  • http://www.uniq.cn
  • 不找真正的不良信息的源头,却要将责任加在一个只陈述事实的工具上,何其可笑啊”

    同意啊, 新浪也和百度合作了吗,那么多反对google的新闻。
  • 2007-8-13 20:01:41
  • 79.MMAAXX
  • 哪个要爱国就先把CPU拨了再说啊,我看你这么"爱国".
    要说什么病毒好像并没有那么可怕吧,我用的Linux,中了毒我就可以去买彩票了.
    不过我虽然不怕中毒,但也从来不去那些乱七八糟的网站.
    百度是什么我没用过,有问题都是Google.
    不过,我听说过"百度的图片搜索很懂中文".
  • 2007-10-11 19:20:32
  • 82.58
  • 随着时代的发展,相信“不服不行”的现象会不断改善的。毕竟社会是不断向好的方向发展的,真正为老百姓做事情满足需求的才是好的。
  • 2007-11-22 3:58:33
  • 86.你再搜搜
  • 约有167,000,000项符合hardcore的查询结果,以下是第1-10项 (搜索用时 0.08 秒)-----google 288条结果?!
    百度一下,找到相关网页约9,520,000篇,用时0.001秒 ---baidu
  • 2008-4-27 12:39:09

发表评论:

◎声明:转载本文时请务必以超链接形式标明文章原始出处和作者,本文严禁商业网站转载。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 通过Google订阅本站
  • 通过鲜果订阅本站
  • 通过抓虾订阅本站
  • 通过电子邮件订阅本站

站内搜索


热文排行

最新评论

最近发表

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.

This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.