月光博客 » 编程开发 » 防止文章被复制的网络分析软件

防止文章被复制的网络分析软件

  很多Blogger都遇到过自己文章被其他人非法复制的情况,为了让大家能快速将恶意转载者找出来,我根据搜索引擎的一些原理,利用百度搜索引擎的数据,开发了一个可以自动分析查找那些对自己有“实质伤害”的复制人的地址。

防止文章被抄袭的网络分析软件

  这是一个独立的可执行的程序,完全免费,基于ACCESS数据库,目前支持Z-Blog系统,其实支持其他ASP的Blog修改也很简单,有需要的可以联系一下我。(注:其他Blog程序的使用方法:先建立一个Access文件,然后建立一个表,表名为blog_Article,表中增加字段log_ID和log_Title,log_ID为自动编号,log_Title为文章标题,然后将你Blog上的文章标题都复制过来,一篇文章对应一条记录,只复制标题即可,然后在本程序中选择这个数据库)

  数据挖掘我是直接通过调用搜索引擎来实现的。原先打算使用Java下调用Google SOAP API来实现,不过不知什么原因,Google SOAP API搜索英文没有任何问题,一搜索中文就报数组超界,不知道什么原因。只好去调用百度的搜索引擎。

  百度的搜索引擎没有API,不过我还是有办法间接调用的。调用的时候发现中文的确没有什么问题,也没有错误,很顺利就调通了程序。

  我目前搜索的时候,采用了“实质伤害”这个概念,因为目前文章转载的情况会非常多,每一个都去处理会很麻烦。因此我们只去寻找情况恶劣的即可。这个可以通过搜索引擎排名来实现。只寻找那些转载地址对于原文影响最坏的。

  这个程序使用起来很简单,先选择数据库文件,再选择Z-Blog系统,然后填写你自己的域名,点搜索即可开始执行。搜索完成后会自动生成一个名为list.txt的文件,就是搜索结果。此程序对于部分标题的文章会有误判,最好文章标题个性化浓一些。软件的界面看起来不是很好,因为我没有美工嘛。

  点击下载软件:转载文章搜索器

顶一下 ▲()   踩一下 ▼()

相关文章

  1. 1
    大猫   说道:
    我觉得关于转贴和抄袭的区别

    抄袭 :
    没有署名或者抄你的算我的
    没有原文链接

    转贴:
    有原作者署名和原始链接

    特别是抄袭后还加上广告的,我就日了
    支持(25反对(16回复
  1. 2
    geto   说道:
    有没有针对PJBlog的版本啊 :)
    支持(14反对(7回复
  1. 3
    tiger   说道:

    百度的超链技术:
    何为超链技术?举个例子:一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,也就是说越受用户欢迎的内容排名越靠前。

    Google的PageRank(tm)(网页级别)
    网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。
    Google 还对投票的网页进行分析, 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。 Google 在排列其搜索结果时,都会考虑每个网页的级别。

    支持(14反对(9回复
  1. 4
    麦穗   说道:
    间接调用百度搜索引擎的方法能教给我吗,发到我的邮箱谢谢了
    支持(13反对(8回复
  1. 5
    血色眼泪   说道:
    对付抄袭的最佳方式

    申请个skype

    注册个美国的电话号码

    就是电话要求他的IDC立即下架他的服务器

    并且删除相关的数据

    告诉他这个网站抄袭了你的朋友的内容

    然后告诉他你是某某牛X的黑客(报国外名字)

    如果IDC不答应的话

    就用2.5G以上的流量DDOS上半个小时

    继续电话IDC

    这时候你就可以看到效果了

    警察叔叔可能会找你谈话

    但是通常情况下他们无法获得实质性的证据
    支持(16反对(13回复
  1. 6
    currycn   说道:
    我用的是新浪博客,怎么用这个东东啊,一窍不通哦。能否帮我?求!~~
    支持(15反对(12回复
  1. 7
    women   说道:
    怎么调用百度去搜索的? 百度好象没有这样的API支持啊?
    支持(19反对(16回复
  1. 8
    5555   说道:
    我朋友07年发表的文章被抄了,但人家发表时是04年.我们被说成抄的怎么办啊.
    支持(14反对(11回复
  1. 9
    流星   说道:
    我用了
    新建了数据库,搜索结果很少,很奇怪,同一篇文章,这个软件搜索结果是2篇转载,而谷歌是9800,不理解为什么

    另外,搜索结束,会出现个确认框,一点就关闭了,这……
    支持(13反对(10回复
  1. 10
    AT   说道:
    已经完全麻木了Orz...
    支持(16反对(14回复
  1. 11
    百度的Webservice接口   说道:
    请问百度的Webservice接口是什么?有没有在JAVA中可以调用的Webservice查询接口?
    支持(13反对(11回复
  1. 12
    fenny   说道:
    开始麻木了。。。束手无策了。。。。
    支持(11反对(9回复
  1. 13
    血色眼泪   说道:
    月光考虑过可能在过不久就会出现很多XX站破解版和XX站专用版吗
    支持(17反对(16回复
  1. 14
    在世诸葛   说道:

    标题:防止文章被抄袭的网络分析软件
    https://www.williamlong.info/archives/713.html

    改成:

    标题:软件吐血推荐,防止章被COPY
    http://www.williamlong.info/archives/713.html


    我看你怎么找,怎么分析(转别人文章改标题,是很常见的)
    支持(15反对(14回复
  1. 15
    ade   说道:
    我就知道会出现这样的软件^_^
    支持(14反对(13回复
  1. 16
    khaisuan   说道:
    許多人說,文章被抄,某個程度來說是值得高興的。
    支持(14反对(13回复
  1. 17
    capella   说道:
    不错,挺有想法的东西。
    支持(14反对(14回复
  1. 18
    DonauYa   说道:
    这个要顶顶
    支持(15反对(15回复
  1. 19
    DavidYin   说道:
    好工具。

    找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。
    支持(13反对(13回复
  1. 20
    成也散人   说道:
    这个想法还是不错的。不过解决方法呢?
    支持(11反对(11回复
  1. 21
    nckggood   说道:
    用VB写的?
    支持(14反对(14回复
  1. 22
    L   说道:
    理性同志们,不管找出来了有没有用,也不管改了标题能不能用。月光前辈发布这款软件出发点是好的。

    退一万步讲,用这软件起码可以知道自己的文章被“恶意”转载量啊。这是Alexa做不到的吧?如果在下的文章被“恶意”转载几百次几千次,在下是非常开心的——受欢迎嘛。

    当然,对于法律,取证还有执行方面的问题,这是需要大家思考并解决的。不去想怎么做,只是认定被剽窃无用,是消极的。Blog的形式,从某种程度上已经对于剽窃问题进行了防范。毕竟Blog强调的是个人品牌,一味的剽窃转载,降低的不仅仅是Page Rank,更是一个Blog格调的丧失。至少我们可以肯定一点:原创Blog的点击率必然高于那些营营苟苟的Blog。

    至于该标题的问题,莫言前辈的全文搜索方法还请月光前辈考虑改良。毕竟,比其标题,正文中的“个性语句”更多。这年电脑性能都好了,运算这种机械劳动应该不是问题。

    在下愚件,各位见笑。
    支持(15反对(15回复
  1. 23
    四川律师维权   说道:
    作者是本意是好的。谢谢。
      不过,在法律上,对网络作品抄袭的界定没有统一规定。如果出于公益性目的如教育和科研等进行转载,并注明了来源及使用说明(如果作者不同意转载可以立即删除等)的,一般不视为抄袭。
      一般意义上,抄袭指以营利为目的,未经著作权人许可,恶意将他人(包括自然人和组织机构等)的作品复制使用,或更换作者,不标明作品来路含作者姓名及刊载网址等信息。
      对于大量抄袭行为,可以保留相关证据,并向有管辖权的机构举报,同时保留或行使诉讼的权利。相关的机构如电信管理机关、网监部门、IDC等可以撤销其备案许可、关停网站、赔偿损失及至行政处罚,情节严重的可以追究刑事责任。
    支持(19反对(19回复
  1. 24
    没明白   说道:
    为什么不直接在百度搜呢?
    支持(13反对(14回复
  1. 25
    杜松子   说道:
    谢谢!这篇文章对我很有用。虽然我只是个无名小卒,但是我的东西居然也有人抄袭,而且还是全文搬去,并冠上自己的名字,非常讨厌。这个工具的用法还不太明白,数据库是什么?怎么选择呢?

    我转载这篇文章了,在我的blog里。http://hi.baidu.com/imhotep,


    支持(10反对(11回复
  1. 26
    莫言   说道:
    所以呢,要么月光就到此为止,要么我倒是有一个针对全文的防剽窃手段。
    首先,不仅对标题进行搜索,而且要对全文进行搜索,当然了搜索不可能是全篇文章而是特定关键词。
    首先根据文章标题(全文)分析关键词,然后再标题搜索结束后再对相关关键词进行搜索。
    此关键词不同于tags而是地名、人名、事件名甚至是一些个人习惯用语。
    添加方式可以为手动添加也可软件分析。

    恩,想了想估计挺有难度的,如果月光把这个做好了就可以拿去卖了,我想新浪和搜狐一定会很喜欢的,他俩不就喜欢互抄、互骂、互起诉么
    支持(11反对(12回复
  1. 27
    莫言   说道:
    谢谢月光了,一会儿的功夫就发现我不少文章被剽窃。按照先礼后兵的原则已经发了警告,我还是觉得对于此类问题还是要用法律好一些,不要怕事情小,正是因为大家都觉得事情小所以才会造成今日剽窃泛滥的情况。
    顺便AD一下我对剽窃的看法:http://www.yorke.cn/blog/post/112.html
    支持(13反对(15回复
  1. 28
    williamlong   说道:
    全文方式的搜索技术难度太大,涉及到的东西太复杂,不好开发,真的去研究开发,也需要很大的工作量和开发时间,所以目前可也只能使用标题方式了。标题方式简单而易于开发,不过“误判”的情况可能比较多,需要人工方式再检验一下。
    支持(14反对(16回复
  1. 29
    炎藤   说道:
    没有用处
    查到也没有用
    告他们吗?你以为你可以得到什么补偿吗?
    在中国,咱们都是穷人,不比美国~!

    大不了就让他们Copy算了~
    支持(15反对(17回复
  1. 30
    sorryle   说道:
    可惜俺用Wordpress,有这个版本的吗
    支持(11反对(13回复
  1. 31
    老刘   说道:
    根本不好用,绝大多数都是误判
    支持(11反对(13回复
  1. 32
    orz   说道:
    要是支持的blog系统再多一点,估计这篇文章又会被“实质伤害”了
    支持(14反对(17回复
  1. 33
    tiger   说道:

    试问一下,如果你的文章没有价值,又有谁会来转贴?恐怕请人转贴你的文章,人家都认为是垃圾,还是把有限的空间让给更有价值的文章。

    不要一提转贴,就认为是抄袭!就认为侵犯了你的知识产权!!google的PageRank(网页级别)也是基于网页之间相互的超链接计算网页排名,说白了,你网站的PageRank值有一半也是通过人家转贴给你的!你从中得到好处的时候怎么不想到人家了?这是一把双刃剑,在你伤害到别人的同时,你也束缚了自己!!!


    PS:只是就事论事,对事不对人。

    支持(10反对(13回复
  1. 34
    无双   说道:
    很好的工具,只是不知道可支持blogcn的系统。。
    支持(8反对(11回复
  1. 35
    sen   说道:
    现在网上这种事多得麻木了! 现在不是都有“小偷”和“采集”程序么?
    根本防不了! 其实我也常转别人的! 呵呵(记得转时说明出处)
    不过还是支持你!
    支持(11反对(14回复
  1. 36
    剽窃检查服务   说道:
    由复旦大学软件学院开发的,国内唯一一个面向中文的剽窃检查服务,在线注册用户就可以使用。目前该平台由上海晨鸟公司运营。用户名:ls,密码:1.欢迎大家使用!
    支持(13反对(16回复
  1. 37
    forestbeggar   说道:
    什么叫抄袭?
    如果单纯以盈利为目的不加注释的转载那一定是不道德的行为

    那么因为某篇文章的确很不错,被转载者标明原创人和原文连接,并想其他人推广原创者的网站,那这种算什么呢?
    是不是也是你说的抄袭呢?

    因为看了许多个人站点,发现你和幻灭的一些资讯类的东西很相似,很难说是谁先创谁后创.
    中国的个人站点不容易(贵站不是经常被拔网线么),希望之间多些谅解吧
    支持(12反对(16回复
  1. 38
    Kevin   说道:
    发明啊。。。
    支持(12反对(16回复
  1. 39
    慕以   说道:
    搜狗在推出搜狗文品指数测算时,我当时想到希望有这样一个工具。
    不错!
    支持(6反对(11回复
  1. 40
    e起来   说道:
    不错不错 下载了以后用。。。
    支持(7反对(12回复
  1. 41
    长天暮鼓   说道:
    不过现在的问题是,就算抄袭者都被找出来了我们又能怎样?
    支持(12反对(18回复
  1. 42
    blogsir   说道:
    不错的工具,支持。记得以前介绍过一个网络服务,也是查找网络相似文章的,可惜忘了叫什么了。

    其实找到抄袭的文章不难,还是找到后没有对策,也没什么维权的手段。
    支持(11反对(17回复
  1. 43
    hung   说道:
    找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。


    都不知道再说谁呢
    支持(14反对(20回复
  1. 44
    云裳丽影   说道:
    哈哈,楼上的问题是比较难解决。
    很多cms系统都支持修改时间的。
    支持(13反对(19回复
  1. 45
    Washun   说道:
    我先顶一下,试试看了!
    支持(10反对(17回复
  1. 46
    金色葡萄   说道:
    用del。icio。us给抄袭者的网页标上“抄袭者”的tag,然后取得这个tag的RSS,送进feedburner烧成feeds。feedburner。com/ctrl_c 再通过feedburner的buzzboost获得一段jsp代码,贴在侧边栏里,可以显示出最近5位抄袭者。
    代码我贴不上,具体做法在我的blog里《标签权续篇,以tag对抗抄袭》

    如果参与的人够多的话,相当于一个公共监督媒体了。
    支持(11反对(18回复
  1. 47
    哈哈   说道:
    国内的环境如此,其实都是防君子不防小人的。
    支持(6反对(14回复
  1. 48
    visc   说道:
    看到好的文章就不由自主的转载了。
    blog就成了个收藏箱了。
    这不算抄袭吧~~有的时候也忘记注明转自哪儿了~~~~~
    支持(10反对(21回复
  1. 49
    Washun   说道:
    月光,现在这个程序不能用了,什么原因
    支持(10反对(24回复

发表留言