青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 博客系统升级到Z-Blog 1.8月光Z-Blog反垃圾留言过滤插件 »

也谈Google搜索引擎对原创内容的识别

  Google中文网站管理员博客在《由抄袭造成的重复内容》文章中提到:“鉴别内容的原创来源是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来任何负面影响……当有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。Google在不同网站遇到相同内容的时候,会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。”  

  根据我的观察,Google识别原创内容源的能力有时候比较准,但有时候不太准,不准的情况主要是在中文网站上,因为Google无法用简单的链接权重来平衡门户网站和个人博客之间的孰是孰非。

  目前的中国互联网仍然是主流门户网站的天下,个人博客的生存环境异常艰辛,个人辛辛苦苦的写作往往得不到回报,产生的内容却因为种种原因无法给个人带来应该得到的回报,所有的流量都逐步流向主流门户网站。通常情况下,Google给予门户网站的权值和网站权威度都非常高,当一篇完全相同的文章同时出现在门户网站和个人博客上的时候,Google往往认为原创者是门户网站,除非个人博客的权值非常大。

  门户网站为了内容的大量更新而雇佣了不少“网站编辑”,“网站编辑”通过人肉筛选的方法从个人博客上挑选出优秀的文章,并将这些文章复制到门户网站,复制内容的同时通常会删除原始文章的作者和文章中的链接地址,同时小幅修改文章的标题,经过这一番“处理”,Google通常很难判断出到底哪个文章是原创,当一个原创个人博客的文章被大量门户网站复制之后,Google搜索引擎可能会惩罚这个原创博客,不再索引上面的文章。

  这里我举一个例子,我在今年三月份曾经写了一篇文章《十个常用网络密码的安全保护措施》,然而相当长的一段时间里,我在Google中搜索这篇文章的标题时,却看不到来自我的博客的一点踪影,我看到的是什么呢?这篇文章被21CN中关村在线新浪网硅谷动力计算机世界瑞星科技等等无数大型门户或专业网站非法转载,最具讽刺意味的是,国家违法和不良信息举报中心这样的国家政府机关的网站竟然也非法进行了转载,通常情况下政府网站在搜索引擎中的权威度是非常高的。

  结果是,我的原始文章被搜索引擎惩罚了,至今在百度上找不到我的文章地址了,而Google前几天才重新索引了我这篇文章,其余时间网站的排名都被上面那些主流门户网站抢走了。

  从内容上说,个人博客的内容远远无法和主流门户网站相比,主流门户网站拥有自己的编辑团队和营销团队,具有足够的资源和能力输出更好的内容,而个人博客要写一篇好文章需要酝酿很长时间,每周能写一篇好文章已经算不错了,这就注定了个人博客是竞争不过门户网站的。

  当然,个人博客也有自己的对策,就是要求门户网站删除复制的文章,但通常会浪费巨大的时间和精力,当被复制的文章累计到成千上万的时候,完成这种工作量通常是不可能的任务。

  因此,Google要想在中文的互联网环境下实现对于原创内容识别的准确性,需要考虑使用专门针对中国特殊国情的特殊算法,否则,中国原创的博客群落将会逐渐被门户网站边缘化,走向自生自灭的可悲下场,最为可悲的是,中国最大的搜索引擎百度对于原创内容的识别几乎是一片空白,这也使得当前中国的互联网的环境显得异常恶劣。



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/1410.html
  • 文章排行:
  • 1.Anonyshow
  • 建议Google通过日志发布时间来解决这个问题。
  • 2008/7/11 18:04:22   支持(11)反对(6) 回复
  • 2.linker
  • 我也知道百度也不是什么好鸟!而我也确实在寻找有关技术资料时,首用的就google.com,因为我不想浪费时间看百度前几页的垃圾;但,这不等于我否定我前列所言。

    民族情节高涨,不是高涨,是以前一直在低落,是一直在向平衡的水平线下堕落;就似海归现象一样,在外呆的就不爱国,归国的就是镀金而高人一等,这类似的现象,都有一个平衡点看待的问题,考虑点不对,那么这些行为就会变质。

    google确实有其技术方面称道的一方面,但我在另一方面不断的看到,大量的google爱好者,过于吹捧,过于痴迷,对待google的每一个小细节更改、出现,都到了信奉图腾似的地步,何至于此?这现象有吧?外国人把这现象都看待得很正常,何至国人对此有如此大的倾向?

    在没到真正的地球××主义到来之前,发展主体永远要以单方面为上,你拥戴起来的google,以后不一定会对你所在的国家采取什么样的不公正待遇。技术,什么时候真正纯粹过?

    学习先进技术,是为了强大自己,“师夷长技以制夷”,这个态度才对;

    如果哪位能够预测,google真正能够做到伟大的大公无私,中美之间产生问题google会作壁上观,那么我今天的发言,就算放×。
  • 2008/7/14 16:33:32   支持(10)反对(5) 回复
  • 3.N
  • 要怪,就怪中国这个环境太适合“盗版”的存在吧,不怪Google.
  • 2008/7/11 11:34:07   支持(10)反对(6) 回复
  • 4.stevenyin
  • 很多事情都是国情决定的,无力改变就去适应吧
  • 2008/7/11 11:49:04   支持(11)反对(7) 回复
  • 5.aw
  • 月光给这些external都加了nofollow,非常赞!!~
  • 2008/7/11 16:41:09   支持(12)反对(8) 回复
  • 6.eaglefantasy
  • 唉,咱这种小博客生存的太艰难了...
  • 2008/7/11 17:59:43   支持(13)反对(9) 回复
  • 7.pig
  • 在网吧用了百毒,真×××难用。第一页全×××广告、垃圾。
  • 2008/7/11 20:04:42   支持(11)反对(7) 回复
  • 8.leejonkang
  • 我有一种阻碍转载的专利,愿意在你的博客上试用.
    [email protected]
  • 2008/7/12 14:44:02   支持(8)反对(4) 回复
  • 9.铁碎牙
  • 遇到整个博客被人用博客搬家工具搬走的时候最头疼。。。
  • 2008/8/2 22:24:08   支持(13)反对(9) 回复
  • 10.zgjie
  • 这对独立博客或小网站确实是个严重的问题。
  • 2009/1/16 2:53:16   支持(11)反对(7) 回复
  • 11.农民伯伯
  • 通过关键字提交,然后根据提交时间辨别是否原创。一般所说的均是被动抓取,当然无法或者很难达到识别原创,而主动提交则可以。只要博客运营商提供这项功能即可,即写博客的时候多一个文本框让用户输入关键字即可,点发布的时候关键字即被提交给搜索引擎。而博客运营商也会乐意这么做,因为原创带来的排名变化能带给他更多流量;写博客的博主也会非常乐意,能与更多人分享;同时搜索引擎因为对原创的尊重和精准而赢得更多用户,多赢局面。现在需要的只是搜索赢球用心的来做这件事情,全国大型博客也就这么多家,合作一下,哪怕是发个公告重视一下也好。
  • 2010/7/6 11:21:13   支持(11)反对(7) 回复
  • 12.GoMain
  • 这也是没有办法的事情,我们不能太依靠搜索引擎。
  • 2008/7/11 8:54:04   支持(10)反对(7) 回复
  • 13.笑话
  • 和google比,百度就是一个笑话
  • 2008/7/11 11:35:02   支持(11)反对(8) 回复
  • 14.晨丞
  • 博主,晨丞是这么操作的:

    我的博客名字叫作"晨丞的个人空间"因此我在自己的原创贴子里都会加上一句也可能是多句这种类型的话:
    "晨丞在想..."
    "晨丞认为..."
    "晨丞观点..."
    ... ...

    晨丞个人认为这话还是有用的,你认为呢?

  • 2008/7/11 13:05:05   支持(11)反对(8) 回复
  • 15.williamlong
  • 晨丞,你这招我也尝试过,通常门户网站人肉转载的时候都会手动将其删除的。对于文章的原创的证明,通常发邮件告之原始链接地址即可,抄袭的网站通常做贼心虚,不会加以诡辩的。
  • 2008/7/11 13:29:10   支持(9)反对(6) 回复
  • 16.sherf
  • 这是中国的悲哀,国内个人的产物往往得不到重视,比如国外毕业证书完全可以只有老师和校长的签字,而在国内没有大红章人家就要怀疑你的证书的真实性。不过这需要整个体制与个人同时进步。
  • 2008/7/11 13:38:26   支持(10)反对(7) 回复
  • 17.Google还是具有识别原创的能力的
  • 最近分析,Google还是具有识别原创的能力的
  • 2008/12/5 11:29:23   支持(11)反对(8) 回复
  • 18.david
  • 我觉得还是在法律上没有加强对私有财产的保护,保护原创其实就是保护私有财产,这在法律精神上说的通的。
  • 2008/7/11 15:45:25   支持(10)反对(8) 回复
  • 19.凡
  • 在正文中加条自己网址,也许能起点作用.我通常就是这么干的.效果还行
  • 2008/7/11 19:26:41   支持(10)反对(8) 回复
  • 20.temple
  • 不过有时喜欢的文章,没转载,过几天就访问不好了,所以养成了转载的习惯,不过只是收藏,基本包括署名。
  • 2008/7/11 22:58:03   支持(11)反对(9) 回复
  • 21.tom
  • 这让我联想到了郎咸平所说的缺乏完善的法制化游戏规则,企业的营商环境就不会好,经济的可持续发展就有很大危机。

    虽然我也不反对转载,但是似乎不尊重版权,缺乏版权意识称为一种共同特征。

    另百度的搜索技术确实在退步,至少从我个人的经验对比看,没有明显改善,经常把百度知道的文章排在最前面。放百度广告和批评百度的搜索质量之间没有矛盾。

    用google不是想前卫,只和搜索需求有关系。

    emule确实被封了,我用英文版原版的emule一点感觉都没有。

    不能以我们发展不成熟作为借口,在今天是21世纪了,通讯沟通什么的都很方便,有些意识完全是可以确立的,但是大部分地方政府在法制方面确实做的不好,纵容犯罪。
  • 2008/7/12 10:41:25   支持(12)反对(10) 回复
  • 22.小龙
  • to 魑魅魍魉:
    超级菜鸟。。。。

  • 2008/7/13 11:26:00   支持(9)反对(7) 回复
  • 23.凯特猫
  • 转载其实是好事。关键就是转载了还把版权超链接给删了,变成他们“原创”的了
  • 2008/7/15 13:03:59   支持(11)反对(9) 回复
  • 24.LukeLiu
  • 确实是个麻烦,最终劣币驱逐良币。。
  • 2008/7/11 9:40:10   支持(9)反对(8) 回复
  • 25.神经猫
  • 引自 笑话
    和google比,百度就是一个笑话

    绝对同意。
  • 2008/7/11 15:15:15   支持(8)反对(7) 回复
  • 28.支持者
  • 《十个常用网络密码的安全保护措施》很好,学习了。博主继续加油·、·
  • 2008/7/31 22:06:01   支持(7)反对(6) 回复
  • 29.kelly
  • 月光博主, 刚好遇到一个关于GOOGLE 识别问题,因为不知道答案,所以,搜到了你的文章,但仍然没有找到答案,在此想请教一下,希望你可以回复. 感谢!
    问题如下:

    GOOGLE 等搜索引擎能否识别网页真正的发布时间呢?

    比如,我今天发布了一个最新的网页,但是我在后台上修改发布时间,把发布的时间修改成去年九月发布的

    你觉得这样的情况, 他们可以识别吗? 会不会认为我的网站进行了更新? 此外,我如果经常更改发布的时间,会使搜索引擎对我的网站产生负面影响吗?

  • 2010/2/9 14:05:55   支持(9)反对(8) 回复
  • 30.liaoqi
  • 在Google上输入“十个常用网络密码的安全保护措施”,月光确实排第一。

    同时,建议大家上百度搜索看看,第一页根本没有月光的影子
  • 2008/7/11 11:06:14   支持(7)反对(7) 回复
  • 31.blue
  • 以后大家遇到你月光的链接,即使搜索排行不是靠前,也要尽量点击!
  • 2008/7/11 12:08:28   支持(12)反对(12) 回复
  • 32.corleniet
  • 月光,怎么证明自己的文章是原创呢?

    别人说我日期改的.或者新浪自己改日期怎么办?
  • 2008/7/11 13:22:43   支持(9)反对(9) 回复
  • 34.不是俺
  • 至今在百度上找不到我的文章地址了

    百度的结果太混乱,谁也不知道他们是怎么排名的……
  • 2008/7/11 19:11:50   支持(8)反对(8) 回复
  • 35.nissen中国
  • 上次我记得谁说过搜索引擎使用服务器事件来看谁是原创,不过这也难啊,确实在中国要维权太难了。
  • 2008/7/11 22:28:51   支持(6)反对(6) 回复
  • 36.luckb
  • 月光可以加上代码,禁止右键复制,就可以避免被非法转载了!
  • 2008/7/11 23:22:30   支持(9)反对(9) 回复
  • 37.斯诺克俱乐部
  • 哎,我们的生存怎么办?
  • 2008/7/14 22:28:04   支持(9)反对(9) 回复
  • 38.canbeing
  • 好多正规的网站都有标来源,但不是最终来源,如果都统一标最终来源就好了
  • 2008/7/17 11:45:09   支持(9)反对(9) 回复
  • 39.J.wei
  • 是博客作者的无奈也是中国互联网的无奈
  • 2008/7/19 19:52:45   支持(11)反对(11) 回复
  • 40.支持者
  • google确实有其技术方面称道的一方面,但我在另一方面不断的看到,大量的google爱好者,过于吹捧,过于痴迷,对待google的每一个小细节更改、出现,都到了信奉图腾似的地步,何至于此?这现象有吧?外国人把这现象都看待得很正常,何至国人对此有如此大的倾向?

    在没到真正的地球××主义到来之前,发展主体永远要以单方面为上,你拥戴起来的google,以后不一定会对你所在的国家采取什么样的不公正待遇。技术,什么时候真正纯粹过?
  • 2008/7/31 22:06:57   支持(9)反对(9) 回复
  • 41.海之巅
  • 我的网站也有相当数量的原创文章,其中有的遭此厄运。
  • 2008/8/18 21:46:06   支持(7)反对(7) 回复
  • 42.wancn
  • 牛年灯谜 本是百度空间 玩吧主人 原创,百度搜不到,搜到的是新浪博客的转载;google以前能搜到,自从在百度空间首页出现过一次,就消失了,排第一的是西祠胡同的贴,晕死,还标原创
  • 2008/12/24 16:01:11   支持(8)反对(8) 回复
  • 43.countyinfo
  • 博客的无奈,门户的无赖。
  • 2008/7/11 11:02:05   支持(7)反对(8) 回复
  • 45.redleaffly
  • 但原创为你带来了订阅用户
  • 2008/7/11 13:02:47   支持(8)反对(9) 回复
  • 46.chxwei
  • 说得有理
    上周在我博客上写了几篇,然后在admin5上转载,结果1个多小时google就收录admin5的了,但是到现在我博客上的只收录了一篇,搜标题,我的排在了后面。
    没办法的事情
  • 2008/7/11 16:44:07   支持(10)反对(11) 回复
  • 47.Mao
  • 以后大家遇到你月光的链接,即使搜索排行不是靠前,也要尽量点击!
  • 2008/7/11 17:27:54   支持(10)反对(11) 回复
  • 48.Paul
  • 中国特色啊 这个很长一段时间内都不会改变 Btw:今年暨南大学分数很高,我失学了...
  • 2008/7/11 18:07:32   支持(7)反对(8) 回复
  • 49.WJ87
  • 月光有没有发现现在EMULE下载速度完全没有速度,KAD网络也无法连接上.
  • 2008/7/11 22:08:13   支持(9)反对(10) 回复
  • 50.linker
  • 看了三分之一就知道月光要提后面的内容了,愤青,提着有什么用吗?一边上着百度的广告,一边还对百度不满,呵!

    gg真的就很好吗?中国的东西真的就不好吗?外国的月亮又白又圆,怎么国内现在还是这论调?

    真不想说太多,国内虽然不正当现象多,但这是我们的国家,可以原谅在发展过程中的种种恶劣现象,不要把发展中的问题和国外已经发展成熟的现象作比较。你觉得这很公平?很时尚?很前卫?很酷?
  • 2008/7/11 23:17:45   支持(10)反对(11) 回复
  • 51.魑魅魍魉
  • 我的还好,因为博客小,所以会转载的没几个
  • 2008/7/12 4:12:57   支持(9)反对(10) 回复
  • 52.说两句
  • 引自 linker
    看了三分之一就知道月光要提后面的内容了,愤青,提着有什么用吗?一边上着百度的广告,一边还对百度不满,呵!

    gg真的就很好吗?中国的东西真的就不好吗?外国的月亮又白又圆,怎么国内现在还是这论调?

    真不想说太多,国内虽然不正当现象多,但这是我们的国家,可以原谅在发展过程中的种种恶劣现象,不要把发展中的问题和国外已经发展成熟的现象作比较。你觉得这很公平?很时尚?很前卫?很酷?
    我觉得你想得太多了,我认为绝大多数的人用GG不可能是因为GG是外国的,同时我也不觉得用个GOOGLE、上上网有什么“酷”、“前卫”可言,而且上个网,用什么搜索有必要拔高到民族、国家的高度吗?GG靠的还是技术和其它的服务。相对的,百度才是这样,技术不怎么样,服务也差,仅仅是大力宣传“国产”啊、“民族”才起家的。另外我的观点跟你正好相反,你觉得中国人有“外国月亮圆”的心态,我认为中国人有强烈的排外情绪,随着中国经济的发展,民族主义情绪也开始高涨起来了!
  • 2008/7/12 9:53:48   支持(9)反对(10) 回复
  • 53.Scofield
  • google还是不错的,慢慢来吧。
  • 2008/7/12 11:59:23   支持(9)反对(10) 回复
  • 54.行者自若
  • 在中国维权原创确实挺难,这与人们的观念以及社会的发展程度有关。我觉得个人博客的出路在于优质内容。如何产出优质内容,没有一定的时间的积淀是不行的(搜索引擎判定,内容越优质,权重或许越会提高)。还有就是有一个类似交通枢纽的草根站点,来为个人博客服务。
  • 2008/7/12 15:34:11   支持(8)反对(9) 回复
  • 55.花果山寨
  • 这是一个很可怕又必须面对的问题!
  • 2008/7/13 13:00:21   支持(7)反对(8) 回复
  • 58.迷茫着彷徨
  • 太无奈了。对于小博客来说,搜索引擎的收录与踢出根本没有规则,而我们的流量又主要来源与此,太无奈。
  • 2008/7/11 19:33:45   支持(8)反对(10) 回复
  • 60.魑魅魍魉
  • 另外Luckb:你做一个网页,加上禁止右键的代码,看看我能不能复制得了??提的建议很好,可是这个方法现在真的是不行了,最简单的方法就是查看源代码就OK了
  • 2008/7/12 4:14:22   支持(7)反对(9) 回复
  • 62.3R
  • 十个常用网络密码的安全保护措施


    你的博客在google第一名啊
  • 2008/7/11 9:59:06   支持(6)反对(9) 回复
  • 63.corleniet
  • 这是一个很严肃的问题.自己写的反倒被处罚,很恶劣啊

    那些人也太贱了.

    怎么证明自己的文章是原创呢,据说自己的时间也可以更改啊.这样就麻烦了.万一门户网站自己就修改时间?天呢
  • 2008/7/11 12:14:11   支持(7)反对(10) 回复
  • 64.David
  • 我们这个操蛋的国家从来不会对劳动者的利益加大保护力度的,也难怪外国人瞧不起咱们。

    巧取豪夺被跨赞成主流技术,各种伎俩被大肆宣扬,却缺乏踏实学习思考劳动的美德。法律上执法不严,治学上抄袭严重。伟大的复兴个×,靠历史复兴吗,还是靠当下的这帮鸟蛋呢
  • 2008/7/11 13:36:49   支持(7)反对(10) 回复
  • 65.aw
  • 如果门户决定干掉一篇优秀的文章,确实还是很容易的。
    这的确很讽刺。
  • 2008/7/11 16:40:44   支持(9)反对(12) 回复
  • 66.电子商务爱好者
  • 对于抄袭,剽窃,国人已经麻木了!
  • 2008/7/11 20:51:29   支持(9)反对(12) 回复
  • 68.t0xin
  • 我上次让我的律师在美国给中国电信发了律师函...这招很管用...不要去管是哪个网站...直接让律师给中国电信或者中国网通(只要他的服务器有该机构的IP)...让电信或者网通去联系他们删除...搞几次以后他们就...因为避风港条款适用于ISP因此只要通知ISP的话...他们就有义务去屏蔽...规定时间内网站没能删除...ISP就成为合格被告了
  • 2012/4/20 8:57:16   支持(7)反对(10) 回复
  • 69.Chintunglee
  • 月光你要知道很多网站工作都是招一些实习工给他们一定的工作额他们才能转正的...所以非法转载很正常了...
  • 2008/7/11 10:42:56   支持(7)反对(11) 回复
  • 70.支持
  • 这是最近以来月光篇幅最长的一篇博文了!别外你说的也是一件值得大家思考的问题。Google专业、权威、简洁,的确不错
  • 2008/7/11 12:29:37   支持(6)反对(10) 回复
  • 71.魑魅魍魉
  • 或者让浏览器禁止JS运行也行
  • 2008/7/12 4:14:54   支持(7)反对(11) 回复
  • 72.dfasdfas
  • google和百度都不是什么好货。
  • 2008/7/12 11:23:42   支持(7)反对(11) 回复
  • 75.ladyhb
  • 呵呵!那你还是自认到霉吧,不然又能怎样?
  • 2008/12/15 12:01:31   支持(8)反对(13) 回复
  • 76.sky
  • 在google 上 搜索 这篇文章,月光 的拍第一啊。。
  • 2008/7/11 10:03:20   支持(8)反对(14) 回复
  • 77.corleniet
  • 晨丞这种话多了让人觉得不舒服.像女人,也像小孩子.

    而且对方可以改名字啊.就算没改,等你告他的时候,他在改啊
  • 2008/7/11 13:19:42   支持(8)反对(14) 回复
  • 78.扫地老僧
  • 在google搜索“十个常用网络密码的安全保护措施”,你的blog是排第一,google做的还是不错的:)
  • 2008/7/11 19:48:49   支持(4)反对(10) 回复
  • 79.小龙
  • 百度会对百度空间进行优化。


    我的博客移到百度空间后访问量上升了好几倍。
  • 2008/7/13 11:27:07   支持(6)反对(13) 回复
  • 80.php随机数
  • 非常有同感!我的博客文章被cnbeta拿去用后,却没给我自己带来任何流量!
  • 2008/7/11 17:53:09   支持(5)反对(13) 回复
  • 82.GoogleKe谷歌客
  • B和G一个天上一个地下
  • 2008/7/13 14:55:53   支持(8)反对(24) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.