月光博客

青青子衿, 悠悠我心, 但为君故, 沉吟至今

« 申请Google AdSense for Feeds百度和Google的编程接口比较 »

防止文章被复制的网络分析软件

  很多Blogger都遇到过自己文章被其他人非法复制的情况,为了让大家能快速将恶意转载者找出来,我根据搜索引擎的一些原理,利用百度搜索引擎的数据,开发了一个可以自动分析查找那些对自己有“实质伤害”的复制人的地址。

防止文章被抄袭的网络分析软件

  这是一个独立的可执行的程序,完全免费,基于ACCESS数据库,目前支持Z-Blog系统,其实支持其他ASP的Blog修改也很简单,有需要的可以联系一下我。(注:其他Blog程序的使用方法:先建立一个Access文件,然后建立一个表,表名为blog_Article,表中增加字段log_ID和log_Title,log_ID为自动编号,log_Title为文章标题,然后将你Blog上的文章标题都复制过来,一篇文章对应一条记录,只复制标题即可,然后在本程序中选择这个数据库)

  数据挖掘我是直接通过调用搜索引擎来实现的。原先打算使用Java下调用Google SOAP API来实现,不过不知什么原因,Google SOAP API搜索英文没有任何问题,一搜索中文就报数组超界,不知道什么原因。只好去调用百度的搜索引擎。

  百度的搜索引擎没有API,不过我还是有办法间接调用的。调用的时候发现中文的确没有什么问题,也没有错误,很顺利就调通了程序。

  我目前搜索的时候,采用了“实质伤害”这个概念,因为目前文章转载的情况会非常多,每一个都去处理会很麻烦。因此我们只去寻找情况恶劣的即可。这个可以通过搜索引擎排名来实现。只寻找那些转载地址对于原文影响最坏的。

  这个程序使用起来很简单,先选择数据库文件,再选择Z-Blog系统,然后填写你自己的域名,点搜索即可开始执行。搜索完成后会自动生成一个名为list.txt的文件,就是搜索结果。此程序对于部分标题的文章会有误判,最好文章标题个性化浓一些。软件的界面看起来不是很好,因为我没有美工嘛。

  点击下载软件:转载文章搜索器



原创文章如转载,请注明:转载自月光博客 [ http://www.williamlong.info/ ]

本文链接地址:http://www.williamlong.info/archives/713.html
  • 文章排行:
  • 防止文章被抄袭的网络分析软件(引用)
  • Dream Blog's
  •   很多Blogger都遇到过自己文章被其他人抄袭剽窃的情况,为了让大家能快速将恶意转载抄袭者找出来,我根据搜索引擎的一些原理,利用百度搜索引擎的数据,开发了一个可以自动分析查找那些对自己有“实质伤害”的抄袭者的地址。  这是一个独立的可执行的程序,完全
  • 2006-12-7 15:56:57
  • 6.DavidYin
  • http://seo.g2soft.net
  • 好工具。

    找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。
  • 2006-12-6 2:46:49
  • 7.血色眼泪
  • 对付抄袭的最佳方式

    申请个skype

    注册个美国的电话号码

    就是电话要求他的IDC立即下架他的服务器

    并且删除相关的数据

    告诉他这个网站抄袭了你的朋友的内容

    然后告诉他你是某某牛X的黑客(报国外名字)

    如果IDC不答应的话

    就用2.5G以上的流量DDOS上半个小时

    继续电话IDC

    这时候你就可以看到效果了

    警察叔叔可能会找你谈话

    但是通常情况下他们无法获得实质性的证据
  • 2006-12-6 8:01:56
  • 9.blogsir
  • http://www.bokeebao.com
  • 不错的工具,支持。记得以前介绍过一个网络服务,也是查找网络相似文章的,可惜忘了叫什么了。

    其实找到抄袭的文章不难,还是找到后没有对策,也没什么维权的手段。
  • 2006-12-6 8:17:29
  • 10.hung
  • 找到了的话,可以请他们删去相关的文章。
    如果他们有投放Google AdSense,也可以按照DMCA的规定,请Google帮助停止他们的帐号。
    总有办法,如果对方够大的话,还可以告它。


    都不知道再说谁呢
  • 2006-12-6 9:31:59
  • 14.forestbeggar
  • http://www.kakug.com
  • 什么叫抄袭?
    如果单纯以盈利为目的不加注释的转载那一定是不道德的行为

    那么因为某篇文章的确很不错,被转载者标明原创人和原文连接,并想其他人推广原创者的网站,那这种算什么呢?
    是不是也是你说的抄袭呢?

    因为看了许多个人站点,发现你和幻灭的一些资讯类的东西很相似,很难说是谁先创谁后创.
    中国的个人站点不容易(贵站不是经常被拔网线么),希望之间多些谅解吧
  • 2006-12-6 11:35:56
  • 15.杜松子
  • http://hi.baidu.com/imhotep
  • 谢谢!这篇文章对我很有用。虽然我只是个无名小卒,但是我的东西居然也有人抄袭,而且还是全文搬去,并冠上自己的名字,非常讨厌。这个工具的用法还不太明白,数据库是什么?怎么选择呢?

    我转载这篇文章了,在我的blog里。http://hi.baidu.com/imhotep,


  • 2006-12-6 12:21:10
  • 16.tiger
  • http://www.51tiger.com

  • 试问一下,如果你的文章没有价值,又有谁会来转贴?恐怕请人转贴你的文章,人家都认为是垃圾,还是把有限的空间让给更有价值的文章。

    不要一提转贴,就认为是抄袭!就认为侵犯了你的知识产权!!google的PageRank(网页级别)也是基于网页之间相互的超链接计算网页排名,说白了,你网站的PageRank值有一半也是通过人家转贴给你的!你从中得到好处的时候怎么不想到人家了?这是一把双刃剑,在你伤害到别人的同时,你也束缚了自己!!!


    PS:只是就事论事,对事不对人。

  • 2006-12-6 12:46:17
  • 17.tiger
  • http://www.51tiger.com/

  • 百度的超链技术:
    何为超链技术?举个例子:一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,也就是说越受用户欢迎的内容排名越靠前。

    Google的PageRank(tm)(网页级别)
    网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。
    Google 还对投票的网页进行分析, 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。 Google 在排列其搜索结果时,都会考虑每个网页的级别。

  • 2006-12-6 13:00:32
  • 18.金色葡萄
  • http://goldengrape.blogbus.com
  • 用del。icio。us给抄袭者的网页标上“抄袭者”的tag,然后取得这个tag的RSS,送进feedburner烧成feeds。feedburner。com/ctrl_c 再通过feedburner的buzzboost获得一段jsp代码,贴在侧边栏里,可以显示出最近5位抄袭者。
    代码我贴不上,具体做法在我的blog里《标签权续篇,以tag对抗抄袭》

    如果参与的人够多的话,相当于一个公共监督媒体了。
  • 2006-12-6 13:44:09
  • 21.莫言
  • http://www.yorke.cn
  • 谢谢月光了,一会儿的功夫就发现我不少文章被剽窃。按照先礼后兵的原则已经发了警告,我还是觉得对于此类问题还是要用法律好一些,不要怕事情小,正是因为大家都觉得事情小所以才会造成今日剽窃泛滥的情况。
    顺便AD一下我对剽窃的看法:http://www.yorke.cn/blog/post/112.html
  • 2006-12-7 3:16:26
  • 22.在世诸葛

  • 如果别人转载标题都完全修改了。
    那你这个软件不就完蛋 ?
    http://bbs.rainbowsoft.org/viewthread.php?tid=1444&extra=page%3D1


  • 2006-12-7 8:50:48
  • 23.在世诸葛

  • 标题:防止文章被抄袭的网络分析软件
    http://www.williamlong.info/archives/713.html

    改成:

    标题:软件吐血推荐,防止章被COPY
    http://www.williamlong.info/archives/713.html


    我看你怎么找,怎么分析(转别人文章改标题,是很常见的)


  • 2006-12-7 8:54:50
  • 24.莫言
  • http://www.yorke.cn
  • 所以呢,要么月光就到此为止,要么我倒是有一个针对全文的防剽窃手段。
    首先,不仅对标题进行搜索,而且要对全文进行搜索,当然了搜索不可能是全篇文章而是特定关键词。
    首先根据文章标题(全文)分析关键词,然后再标题搜索结束后再对相关关键词进行搜索。
    此关键词不同于tags而是地名、人名、事件名甚至是一些个人习惯用语。
    添加方式可以为手动添加也可软件分析。

    恩,想了想估计挺有难度的,如果月光把这个做好了就可以拿去卖了,我想新浪和搜狐一定会很喜欢的,他俩不就喜欢互抄、互骂、互起诉么
  • 2006-12-7 11:39:15
  • 25.L
  • http://www.no9cn.com/blog
  • 理性同志们,不管找出来了有没有用,也不管改了标题能不能用。月光前辈发布这款软件出发点是好的。

    退一万步讲,用这软件起码可以知道自己的文章被“恶意”转载量啊。这是Alexa做不到的吧?如果在下的文章被“恶意”转载几百次几千次,在下是非常开心的——受欢迎嘛。

    当然,对于法律,取证还有执行方面的问题,这是需要大家思考并解决的。不去想怎么做,只是认定被剽窃无用,是消极的。Blog的形式,从某种程度上已经对于剽窃问题进行了防范。毕竟Blog强调的是个人品牌,一味的剽窃转载,降低的不仅仅是Page Rank,更是一个Blog格调的丧失。至少我们可以肯定一点:原创Blog的点击率必然高于那些营营苟苟的Blog。

    至于该标题的问题,莫言前辈的全文搜索方法还请月光前辈考虑改良。毕竟,比其标题,正文中的“个性语句”更多。这年电脑性能都好了,运算这种机械劳动应该不是问题。

    在下愚件,各位见笑。
  • 2006-12-7 17:09:42
  • 26.williamlong
  • http://www.williamlong.info
  • 全文方式的搜索技术难度太大,涉及到的东西太复杂,不好开发,真的去研究开发,也需要很大的工作量和开发时间,所以目前可也只能使用标题方式了。标题方式简单而易于开发,不过“误判”的情况可能比较多,需要人工方式再检验一下。
  • 2006-12-7 18:46:16
  • 35.sen
  • http://blog.52icetip.com
  • 现在网上这种事多得麻木了! 现在不是都有“小偷”和“采集”程序么?
    根本防不了! 其实我也常转别人的! 呵呵(记得转时说明出处)
    不过还是支持你!
  • 2007-1-24 22:29:48
  • 41.大猫
  • http://caitou.com
  • 我觉得关于转贴和抄袭的区别

    抄袭 :
    没有署名或者抄你的算我的
    没有原文链接

    转贴:
    有原作者署名和原始链接

    特别是抄袭后还加上广告的,我就日了
  • 2007-8-4 13:20:56
  • 45.四川律师维权
  • http://www.sc148.net
  • 作者是本意是好的。谢谢。
      不过,在法律上,对网络作品抄袭的界定没有统一规定。如果出于公益性目的如教育和科研等进行转载,并注明了来源及使用说明(如果作者不同意转载可以立即删除等)的,一般不视为抄袭。
      一般意义上,抄袭指以营利为目的,未经著作权人许可,恶意将他人(包括自然人和组织机构等)的作品复制使用,或更换作者,不标明作品来路含作者姓名及刊载网址等信息。
      对于大量抄袭行为,可以保留相关证据,并向有管辖权的机构举报,同时保留或行使诉讼的权利。相关的机构如电信管理机关、网监部门、IDC等可以撤销其备案许可、关停网站、赔偿损失及至行政处罚,情节严重的可以追究刑事责任。
  • 2007-12-7 9:22:22

发表评论:

◎声明:转载本文时请务必以超链接形式标明文章原始出处和作者,本文严禁商业网站转载。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 通过Google订阅本站
  • 通过鲜果订阅本站
  • 通过抓虾订阅本站
  • 通过电子邮件订阅本站

站内搜索


热文排行

最新评论

最近发表

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.

This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.