青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 搜索引擎工作的基础流程与原理UGC社区类产品系列2:如何让用户创造内容 »

UGC社区类产品系列1:违规内容的处理

  景德镇是一个文明和谐的国度,而我们时刻要保持互联网环境的干净。但对于UGC社区类产品,内容是用户创造的,平台只能即时发现及时处理。倘若不干不净的信息被网警盯上了,可能不会向你打任何招呼,直接拔掉网线了。

  所以,在景德镇干产品,你还得学会一件事:如何快速高效处理违规信息。

  按照内容传播环节,扼杀在摇篮里是最保险的,即提交后自动处理。但总有漏网之鱼还是没法被干掉,那就只能在传播中解决掉。

  提交后如何识别并自动处理

  如何自动识别和处理,需要搞清楚内容包含的信息载体元素和发布内容的行为模式。

  信息载体上,内容可分为文字、图片、音频、视频,其中对文字的处理手段最成熟,即关键词、URL等特殊文本信息过滤,图片、音频、视频,恶意URL链接地址识别。这个过程时间极短,系统只能通过词库或者二维模型做简单运算并给出是否发布成功的提示,不能做过多运算。如BBS、CMS都采用此过滤法处理。

  传播中如何识别和处理

  行为模式上,对用户所处地理位置(IP识别、地域识别)、访问方式(登录行为方式停留时间、是否立即发布后离开)、内容发布行为(发布频率、提交速度如何)、账号资料(昵称、邮箱是否有无规律;是否间隔更换账号登录、账户之间是否同一批次注册等)、社交关系(是否与马甲账号关联、是否有真实社交关系存在、是否参与互动),通过这些维度建立模型进行用户过滤(是否禁用账号),内容过滤。这个过程需要系统强大的运算,故在发布后进行处理。比如搜搜问问违规问答发布后几分钟被清理,就是采用的此方法。

  对机器无法识别处理的内容,比如一些文字内容中关键词隐喻(正话反说、哑谜等手法)、拆分(如装13)等处理手法,机器没法识别,可采用用户举报功能。系统通过收集用户反馈,对内容进行协同过滤。比如新浪微博大多数内容的有举报功能。

  但也有特殊情况,内容发布的时候不违法规则,但发布后造成了不良影响被判为违规内容了。这时候通常采用系统管理员立即进行人工清理。如新浪微博李开复事件禁言三天。

  对违规内容处理手段

  对违规内容,一般采用前台清理后台数据保留的做法,严肃的,数据全部清理。又或者采用仅发布者可见,其他用户不可见。或者内容排序垫底靠后不靠前显示,让违规内容直接淹没掉。

  看完你会发现处理违规内容的过程,其实和推荐引擎的工作原理挺相似的。最开始一层过滤需要快速响应,类似推荐引擎的冷启动,第二层、和第三层过滤,就需要采用离线数据模型和在线隐性行为模型(系统对用户交互产生的数据反馈分析)和显性行为模型(其他用户举报的反馈数据分析)结合分析过滤掉。

  本文虽然写的有点硬,但还是较好理解。主要分享的是一种思路,处理此类问题的方式。产品同学在具体工作实践中,可以结合自己的产品找出维度建立过滤层级模型使用。

  来源:投稿,作者Gauin,微信公众账号Gauin’s Blog,原文链接



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/3437.html
  • 文章排行:
  • 1.gaga
  • 景德镇是一个没有底线的国度,人民都麻木
  • 2013/4/18 18:06:03   支持(12)反对(4) 回复
  • 2.Mono
  • 简单的说,就是自我阉割。
    拔网线这种政策,使得网站运营者始终处于一种恐惧的状态中,逼迫ugc媒体不得不自我阉割,比它们亲自阉割的还要干净。
    更可怕的是,它们可以在事后把责任推卸的一干二净,公然宣称不存在审查,它们的确不审查,因为有人帮它们审查。
  • 2013/5/21 21:16:45   支持(11)反对(6) 回复
  • 3.地源热泵
  • 但总有漏网之鱼还是没法被干掉,
  • 2013/4/20 17:14:55   支持(8)反对(6) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.