青青子衿, 悠悠我心, 但为君故, 沉吟至今
« 安徽小偷偷了部三星Note7 未及销赃手机自燃阿里双十一成交额1207亿创新记录 »

川普赢了,但美国数据同行们却输了

  今天全世界都在讨论一个事,那就是美国大选。是的,川普赢了!

  我也很意外,因为前几天我还看到各种民调希拉里领先优势明显,结局有点出乎意料,说好的预测希拉里成果率80%的呢?

  是的,美国那边的数据同行们,被“啪啪”打脸了!

  说好的“啤酒与尿布”呢?哦,对了,还有说好的“成功预测流感”呢?咋就不好使了。

  莫非,是美国那边的数据同行们,水准下降了?!

  好了,打住,不要偷偷得意了。

  盆友圈里,有个数据同行盆友发了这样一个状态:“美国大选出乎意料的核心在于数据的不完整性。我们以为全世界的人都在互联网上,其实没有在互联网的人是多数。所以这个时候的大数据分析技术就是个伪命题,无法预测也是合理的。”

  一语中的!

  很多分析这次美国大选结果的盆友,很喜欢用的一个句话“农村包围城市”。

  我们来看这张图,相信已经有不少盆友都看过投票选举地图,从地图上可以看出,支持希拉里的蓝色部分,分布在西部沿海,以及东北部,当然其中包括了我们耳熟能详的纽约,以及加州。这些地方人口相对比较密集,也是美国经济比较发达的地区。

美国大选

  就算在一个州里,只有相对发达的城市对希拉里的支持是比较彻底的,例如佛罗里达州。 所以,确实是印证了“农村包围城市”的说法。

  那么,这个现状对于之前我们说的数据预测有什么影响呢?

  不可否认,互联网在美国的普及率也算是足够高了,但不得不承认的一个事实是:互联网上相对活跃的人群,肯定是经济能力相对较高,整体学识素质相对比较高的群体。

  从这点来说,基于互联网的数据去做大选预测,本身就存在数据样本的不公平性。

  也就印证了,盆友圈中的那句“其实很多人都不在互联网上的”,那部分人群是没有参与到预测中的。

  还有一个比较重要的点就是:关键意见领袖(KOL)再加上社交媒体的影响力,使得数据预测进一步偏离了正确的方向。

  我们都知道,现任美国总统奥巴马公开为希拉里拉选票,而苹果、Google、脸书等互联网领袖也都公开支持希拉里,当然还包括很多体育、娱乐明星等为希拉里站台。

  这些人在互联网的公开影响力是不可忽视的,再结合社交网络的病毒式扩散,以“精英”阶层为主体的互联网,于是就这样被偏向了希拉里。

  且不论国外,就算在国内。

  就以微信热点传播为例,一些微信大号发表的一些对时事热点的看法,是很容易大面积覆盖朋友圈的,而作为吃瓜群众的我们也很容易受到这种意见领袖的影响(不受影响,你会转发吗)。

  而今天虽然智能手机的普及率已经算是比较广了,但是作为经常吃瓜群众的我们,其实也算是“精英人士”了,我们是无法想象三四线城市的情况的,更何况那些农村地带呢?

  你朋友圈中经常传播的热点,你那些依然拿着诺基亚的七大姑、八大姨听过吗?

  你造中国农村人口有多少吗?

  所以,基于互联网数据的选举预测,不可避免的使用了本身成分就不全面的基础数据,哪怕美国同行们用"看似"再精准,再智能的预测算法,结果一样是错的。

  这里又回归到了我们的原始话题,并不是说预测的过程或者说算法存在问题,而是数据源存在问题。

  这里告诉我们,作为大数据领域里开挖掘机的我们,在苦练开挖掘机技术的时候,不要忽视了前期数据收集,以及数据预处理的重要性。

  很多时候,数据源的选取,以及数据的预处理过程,将会对你的后续挖掘结果产生巨大的影响,包括我们经常说的推荐。

  当然,包括对数据源要求更严格的预测模型等。

  最后,作为数据领域的我们,要正确的看待这一次的美国大选数据预测事件,一方面要严谨对待数据选择的问题,另一方面也不要就因此而否定数据挖掘的价值!

  来源:博客虫大数据投稿,博客虫大数据公众号,blogchong



  除非注明,月光博客文章均为原创,转载请以链接形式标明本文地址

  本文地址:http://www.williamlong.info/archives/4787.html
  • 文章排行:
  • 1.冰剑
  • 人家都说了是80%,又没说100%,作者真能纠结。
  • 2016/11/14 8:44:44   支持(3)反对(0) 回复
  • 2.数据同行真的错了吗
  • 我不觉得是数据同行出了错,现实就是票数希是胜了川
    要说失败,不如说是在选举人票这个变数下增加的误差值
  • 2016/11/14 1:08:03   支持(1)反对(0) 回复
  • 4.note
  • 我们来看这张图——图呢?
  • 2016/11/14 12:11:11   支持(0)反对(0) 回复
  • 5.你猜猜
  • 哈哈哈哈哈哈哈哈哈哈哈哈哈哈
  • 2016/11/16 10:42:07   支持(0)反对(0) 回复

发表评论:

 请勿发送垃圾信息、广告、推广信息或链接,这样的信息将会被直接删除。

订阅博客

  • 订阅我的博客:订阅我的博客
  • 关注新浪微博:关注新浪微博
  • 关注腾讯微博:关注腾讯微博
  • 关注认证空间:关注QQ空间
  • 通过电子邮件订阅
  • 通过QQ邮件订阅

站内搜索

相关文章

热文排行


月度排行

本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享. 转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议.
This site is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License.