青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 申请Google AdSense for Feeds百度和Google的编程接口比较 »

防止文章被复制的网络分析软件

  很多Blogger都遇到过自己文章被其他人非法复制的情况,为了让大家能快速将恶意转载者找出来,我根据搜索引擎的一些原理,利用百度搜索引擎的数据,开发了一个可以自动分析查找那些对自己有“实质伤害”的复制人的地址。

防止文章被抄袭的网络分析软件

  这是一个独立的可执行的程序,完全免费,基于ACCESS数据库,目前支持Z-Blog系统,其实支持其他ASP的Blog修改也很简单,有需要的可以联系一下我。(注:其他Blog程序的使用方法:先建立一个Access文件,然后建立一个表,表名为blog_Article,表中增加字段log_ID和log_Title,log_ID为自动编号,log_Title为文章标题,然后将你Blog上的文章标题都复制过来,一篇文章对应一条记录,只复制标题即可,然后在本程序中选择这个数据库)

  数据挖掘我是直接通过调用搜索引擎来实现的。原先打算使用Java下调用Google SOAP API来实现,不过不知什么原因,Google SOAP API搜索英文没有任何问题,一搜索中文就报数组超界,不知道什么原因。只好去调用百度的搜索引擎。

  百度的搜索引擎没有API,不过我还是有办法间接调用的。调用的时候发现中文的确没有什么问题,也没有错误,很顺利就调通了程序。

  我目前搜索的时候,采用了“实质伤害”这个概念,因为目前文章转载的情况会非常多,每一个都去处理会很麻烦。因此我们只去寻找情况恶劣的即可。这个可以通过搜索引擎排名来实现。只寻找那些转载地址对于原文影响最坏的。

  这个程序使用起来很简单,先选择数据库文件,再选择Z-Blog系统,然后填写你自己的域名,点搜索即可开始执行。搜索完成后会自动生成一个名为list.txt的文件,就是搜索结果。此程序对于部分标题的文章会有误判,最好文章标题个性化浓一些。软件的界面看起来不是很好,因为我没有美工嘛。

  点击下载软件:转载文章搜索器



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/713.html
  • 文章排行:
  • 1.大猫
  • 我觉得关于转贴和抄袭的区别

    抄袭 :
    没有署名或者抄你的算我的
    没有原文链接

    转贴:
    有原作者署名和原始链接

    特别是抄袭后还加上广告的,我就日了
  • 2007/8/4 13:20:56   支持(25)反对(16) 回复
  • 2.geto
  • 有没有针对PJBlog的版本啊 :)
  • 2006/12/6 10:18:42   支持(14)反对(7) 回复
  • 3.tiger

  • 百度的超链技术:
    何为超链技术?举个例子:一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,也就是说越受用户欢迎的内容排名越靠前。

    Google的PageRank(tm)(网页级别)
    网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。
    Google 还对投票的网页进行分析, 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。 Google 在排列其搜索结果时,都会考虑每个网页的级别。

  • 2006/12/6 13:00:32   支持(14)反对(9) 回复
  • 4.麦穗
  • 间接调用百度搜索引擎的方法能教给我吗,发到我的邮箱谢谢了
  • 2011/9/13 23:51:38   支持(13)反对(8) 回复
  • 5.血色眼泪
  • 对付抄袭的最佳方式

    申请个skype

    注册个美国的电话号码

    就是电话要求他的IDC立即下架他的服务器

    并且删除相关的数据

    告诉他这个网站抄袭了你的朋友的内容

    然后告诉他你是某某牛X的黑客(报国外名字)

    如果IDC不答应的话

    就用2.5G以上的流量DDOS上半个小时

    继续电话IDC

    这时候你就可以看到效果了

    警察叔叔可能会找你谈话

    但是通常情况下他们无法获得实质性的证据
  • 2006/12/6 8:01:56   支持(16)反对(13) 回复
  • 6.currycn
  • 我用的是新浪博客,怎么用这个东东啊,一窍不通哦。能否帮我?求!~~
  • 2006/12/15 22:38:41   支持(15)反对(12) 回复
  • 7.women
  • 怎么调用百度去搜索的? 百度好象没有这样的API支持啊?
  • 2007/1/18 15:32:25   支持(19)反对(16) 回复
  • 8.5555
  • 我朋友07年发表的文章被抄了,但人家发表时是04年.我们被说成抄的怎么办啊.
  • 2007/1/31 22:49:26   支持(14)反对(11) 回复
  • 9.流星
  • 我用了
    新建了数据库,搜索结果很少,很奇怪,同一篇文章,这个软件搜索结果是2篇转载,而谷歌是9800,不理解为什么

    另外,搜索结束,会出现个确认框,一点就关闭了,这……
  • 2008/8/8 18:27:08   支持(13)反对(10) 回复
  • 11.百度的Webservice接口
  • 请问百度的Webservice接口是什么?有没有在JAVA中可以调用的Webservice查询接口?
  • 2007/4/19 11:22:02   支持(13)反对(11) 回复
  • 12.fenny
  • 开始麻木了。。。束手无策了。。。。
  • 2009/2/1 14:16:53   支持(11)反对(9) 回复
  • 13.血色眼泪
  • 月光考虑过可能在过不久就会出现很多XX站破解版和XX站专用版吗
  • 2006/12/6 8:02:39   支持(17)反对(16) 回复
  • 14.在世诸葛

  • 标题:防止文章被抄袭的网络分析软件
    http://www.williamlong.info/archives/713.html

    改成:

    标题:软件吐血推荐,防止章被COPY
    http://www.williamlong.info/archives/713.html


    我看你怎么找,怎么分析(转别人文章改标题,是很常见的)


  • 2006/12/7 8:54:50   支持(15)反对(14) 回复
  • 16.khaisuan
  • 許多人說,文章被抄,某個程度來說是值得高興的。
  • 2006/12/18 21:49:53   支持(14)反对(13) 回复
  • 19.DavidYin
  • 好工具。

    找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。
  • 2006/12/6 2:46:49   支持(13)反对(13) 回复
  • 20.成也散人
  • 这个想法还是不错的。不过解决方法呢?
  • 2006/12/6 11:31:51   支持(11)反对(11) 回复
  • 22.L
  • 理性同志们,不管找出来了有没有用,也不管改了标题能不能用。月光前辈发布这款软件出发点是好的。

    退一万步讲,用这软件起码可以知道自己的文章被“恶意”转载量啊。这是Alexa做不到的吧?如果在下的文章被“恶意”转载几百次几千次,在下是非常开心的——受欢迎嘛。

    当然,对于法律,取证还有执行方面的问题,这是需要大家思考并解决的。不去想怎么做,只是认定被剽窃无用,是消极的。Blog的形式,从某种程度上已经对于剽窃问题进行了防范。毕竟Blog强调的是个人品牌,一味的剽窃转载,降低的不仅仅是Page Rank,更是一个Blog格调的丧失。至少我们可以肯定一点:原创Blog的点击率必然高于那些营营苟苟的Blog。

    至于该标题的问题,莫言前辈的全文搜索方法还请月光前辈考虑改良。毕竟,比其标题,正文中的“个性语句”更多。这年电脑性能都好了,运算这种机械劳动应该不是问题。

    在下愚件,各位见笑。
  • 2006/12/7 17:09:42   支持(15)反对(15) 回复
  • 23.四川律师维权
  • 作者是本意是好的。谢谢。
      不过,在法律上,对网络作品抄袭的界定没有统一规定。如果出于公益性目的如教育和科研等进行转载,并注明了来源及使用说明(如果作者不同意转载可以立即删除等)的,一般不视为抄袭。
      一般意义上,抄袭指以营利为目的,未经著作权人许可,恶意将他人(包括自然人和组织机构等)的作品复制使用,或更换作者,不标明作品来路含作者姓名及刊载网址等信息。
      对于大量抄袭行为,可以保留相关证据,并向有管辖权的机构举报,同时保留或行使诉讼的权利。相关的机构如电信管理机关、网监部门、IDC等可以撤销其备案许可、关停网站、赔偿损失及至行政处罚,情节严重的可以追究刑事责任。
  • 2007/12/7 9:22:22   支持(19)反对(19) 回复
  • 24.没明白
  • 为什么不直接在百度搜呢?
  • 2006/12/6 9:56:59   支持(13)反对(14) 回复
  • 25.杜松子
  • 谢谢!这篇文章对我很有用。虽然我只是个无名小卒,但是我的东西居然也有人抄袭,而且还是全文搬去,并冠上自己的名字,非常讨厌。这个工具的用法还不太明白,数据库是什么?怎么选择呢?

    我转载这篇文章了,在我的blog里。http://hi.baidu.com/imhotep,


  • 2006/12/6 12:21:10   支持(10)反对(11) 回复
  • 26.莫言
  • 所以呢,要么月光就到此为止,要么我倒是有一个针对全文的防剽窃手段。
    首先,不仅对标题进行搜索,而且要对全文进行搜索,当然了搜索不可能是全篇文章而是特定关键词。
    首先根据文章标题(全文)分析关键词,然后再标题搜索结束后再对相关关键词进行搜索。
    此关键词不同于tags而是地名、人名、事件名甚至是一些个人习惯用语。
    添加方式可以为手动添加也可软件分析。

    恩,想了想估计挺有难度的,如果月光把这个做好了就可以拿去卖了,我想新浪和搜狐一定会很喜欢的,他俩不就喜欢互抄、互骂、互起诉么
  • 2006/12/7 11:39:15   支持(11)反对(12) 回复
  • 27.老刘
  • 根本不好用,绝大多数都是误判
  • 2011/6/29 10:39:03   支持(11)反对(12) 回复
  • 28.莫言
  • 谢谢月光了,一会儿的功夫就发现我不少文章被剽窃。按照先礼后兵的原则已经发了警告,我还是觉得对于此类问题还是要用法律好一些,不要怕事情小,正是因为大家都觉得事情小所以才会造成今日剽窃泛滥的情况。
    顺便AD一下我对剽窃的看法:http://www.yorke.cn/blog/post/112.html
  • 2006/12/7 3:16:26   支持(13)反对(15) 回复
  • 29.williamlong
  • 全文方式的搜索技术难度太大,涉及到的东西太复杂,不好开发,真的去研究开发,也需要很大的工作量和开发时间,所以目前可也只能使用标题方式了。标题方式简单而易于开发,不过“误判”的情况可能比较多,需要人工方式再检验一下。
  • 2006/12/7 18:46:16   支持(14)反对(16) 回复
  • 30.炎藤
  • 没有用处
    查到也没有用
    告他们吗?你以为你可以得到什么补偿吗?
    在中国,咱们都是穷人,不比美国~!

    大不了就让他们Copy算了~
  • 2006/12/11 6:49:42   支持(15)反对(17) 回复
  • 31.sorryle
  • 可惜俺用Wordpress,有这个版本的吗
  • 2007/12/26 11:39:48   支持(11)反对(13) 回复
  • 32.orz
  • 要是支持的blog系统再多一点,估计这篇文章又会被“实质伤害”了
  • 2006/12/5 23:50:21   支持(14)反对(17) 回复
  • 33.tiger

  • 试问一下,如果你的文章没有价值,又有谁会来转贴?恐怕请人转贴你的文章,人家都认为是垃圾,还是把有限的空间让给更有价值的文章。

    不要一提转贴,就认为是抄袭!就认为侵犯了你的知识产权!!google的PageRank(网页级别)也是基于网页之间相互的超链接计算网页排名,说白了,你网站的PageRank值有一半也是通过人家转贴给你的!你从中得到好处的时候怎么不想到人家了?这是一把双刃剑,在你伤害到别人的同时,你也束缚了自己!!!


    PS:只是就事论事,对事不对人。

  • 2006/12/6 12:46:17   支持(10)反对(13) 回复
  • 34.无双
  • 很好的工具,只是不知道可支持blogcn的系统。。
  • 2006/12/6 17:48:57   支持(8)反对(11) 回复
  • 35.sen
  • 现在网上这种事多得麻木了! 现在不是都有“小偷”和“采集”程序么?
    根本防不了! 其实我也常转别人的! 呵呵(记得转时说明出处)
    不过还是支持你!
  • 2007/1/24 22:29:48   支持(11)反对(14) 回复
  • 36.剽窃检查服务
  • 由复旦大学软件学院开发的,国内唯一一个面向中文的剽窃检查服务,在线注册用户就可以使用。目前该平台由上海晨鸟公司运营。用户名:ls,密码:1.欢迎大家使用!
  • 2008/11/9 20:54:37   支持(13)反对(16) 回复
  • 37.forestbeggar
  • 什么叫抄袭?
    如果单纯以盈利为目的不加注释的转载那一定是不道德的行为

    那么因为某篇文章的确很不错,被转载者标明原创人和原文连接,并想其他人推广原创者的网站,那这种算什么呢?
    是不是也是你说的抄袭呢?

    因为看了许多个人站点,发现你和幻灭的一些资讯类的东西很相似,很难说是谁先创谁后创.
    中国的个人站点不容易(贵站不是经常被拔网线么),希望之间多些谅解吧
  • 2006/12/6 11:35:56   支持(12)反对(16) 回复
  • 39.慕以
  • 搜狗在推出搜狗文品指数测算时,我当时想到希望有这样一个工具。
    不错!
  • 2006/12/8 22:40:24   支持(6)反对(11) 回复
  • 40.e起来
  • 不错不错 下载了以后用。。。
  • 2007/6/6 20:47:35   支持(7)反对(12) 回复
  • 41.长天暮鼓
  • 不过现在的问题是,就算抄袭者都被找出来了我们又能怎样?
  • 2006/12/6 0:40:29   支持(12)反对(18) 回复
  • 42.blogsir
  • 不错的工具,支持。记得以前介绍过一个网络服务,也是查找网络相似文章的,可惜忘了叫什么了。

    其实找到抄袭的文章不难,还是找到后没有对策,也没什么维权的手段。
  • 2006/12/6 8:17:29   支持(11)反对(17) 回复
  • 43.hung
  • 找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。


    都不知道再说谁呢
  • 2006/12/6 9:31:59   支持(14)反对(20) 回复
  • 44.云裳丽影
  • 哈哈,楼上的问题是比较难解决。
    很多cms系统都支持修改时间的。
  • 2007/4/18 14:48:29   支持(13)反对(19) 回复
  • 46.金色葡萄
  • 用del。icio。us给抄袭者的网页标上“抄袭者”的tag,然后取得这个tag的RSS,送进feedburner烧成feeds。feedburner。com/ctrl_c 再通过feedburner的buzzboost获得一段jsp代码,贴在侧边栏里,可以显示出最近5位抄袭者。
    代码我贴不上,具体做法在我的blog里《标签权续篇,以tag对抗抄袭》

    如果参与的人够多的话,相当于一个公共监督媒体了。
  • 2006/12/6 13:44:09   支持(11)反对(18) 回复
  • 47.哈哈
  • 国内的环境如此,其实都是防君子不防小人的。
  • 2007/11/16 13:55:09   支持(6)反对(14) 回复
  • 48.visc
  • 看到好的文章就不由自主的转载了。
    blog就成了个收藏箱了。
    这不算抄袭吧~~有的时候也忘记注明转自哪儿了~~~~~
  • 2007/1/4 16:18:20   支持(10)反对(21) 回复
  • 49.Washun
  • 月光,现在这个程序不能用了,什么原因
  • 2007/8/9 14:20:48   支持(10)反对(24) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.