咖啡:对于川普当选,我对大数据分析有了一些思考。川普当选前,各种大数据分析,都是希拉里领先,搞的好像希拉里奶奶铁定当选总统一样。可是最后结果却是川普当上了总统。这个结果无异于对大数据分析给了当头一棒!反思:大数据分析对人的行为研究究竟是否适合。互联网在美国的普及率也算是足够高了,但不得不承认的一个事实是:互联网上相对活跃的人群,肯定是经济能力相对较高,整体学识素质相对比较高的群体。从这点来说,基于互联网的数据去做大选预测,本身就存在数据样本的不公平性。其实很多人都不在互联网上的。‘其实很多人都不在互联网上的’这句话说明,现有的大数据分析仅仅针对上网人群,包括电脑端和手机端。基于互联网人群得出的大数据分析结果,仅仅适用于上网人群,且是参加调查的这部分人群,仍然不具备普适性。三家bat企业的数据仓库大些,但其缺陷也是如此。皎皎孤*:舍恩伯格讲,大数据分析的是全部数据,而不是数据样本。而各家民调机构的数据仍然是基于样本的而不是全部数据。预测错误也许是因为民调机构的有限数据和分析方法,不能完全指责大数据吧?咖啡:全部数据是什么数据?还不是互联网数据!网下数据,只能是样本,不可能覆盖全部。皎皎孤*:一件事情的全部数据。iceberg:预测的只是可能。咖啡:这里有一个概念:数据的范围。线上数据,和线下数据。数据源的选取,以及数据的预处理过程,将会对你的后续挖掘结果产生巨大的影响。大数据分析里有个经典案例:啤酒和尿布。其实这个案例的本质是,放在出口处的低货值商品更容易被顾客加钱买走。。不在于是尿布还是别的。而且这个行为习惯,通过观察就可以得出,无需大数据分析。对于电商而言,由于其顾客都是网上消费者,因此大数据分析结果可靠,有效。而对于线下卖家而言,大数据分析就不是那么重要了。。即使重要,也仅仅在公司内部管理和供应链行为的预测模型上。
以下格式等价,请按需引用或修改后使用:
[1]圕人堂QQ群知识库.川普当选的大数据分析[EB/OL].(2016-11-18)[2025-04-04].http://tuan.pub/server/detail.php?id=2465.
[2]咖啡,皎皎孤*,iceberg.川普当选的大数据分析[DB/OL].圕人堂周讯,2016(132):17.
[3]咖啡,皎皎孤*,iceberg.川普当选的大数据分析[DB/OL].(2016-11-18)[2025-04-04].http://tuan.pub/server/detail.php?id=2465.