沈*林:经典故事是伪造的,你知道吗?这是一个关于零售帝国沃尔玛的故事。在一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。上面这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》。在这个案例中,要情节有情节,要数据,有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:1.案例是编造的这个经典的‘啤酒和尿布’(BeerandDiapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于‘数据挖掘’之类的书籍中,特别是用来解释‘关联规则(AssociationRule)’的概念,更是‘居家旅行,必备之良药(周星驰语)’。当前,基本上所有讲大数据应用,都会捎带讲上这个经典案例,要求大圕人堂周讯(总第84期 20151218)- 12 -家多研究‘相关性’,少研究因果关系!但实在扫兴的是,这个案例仅是一碗数据分析的‘心灵鸡汤’——听起来很爽,但信不得!实践是检验真理的唯一标准。如果这个故事是真的,按理说,应该给超级市场以无限启发才对,可实际上,不管是中国,还是在美国,在超市里面观察一下,就会发现,根本没有类似的物品摆放,相近的都很少。故事性强,事出有因。据吴甘沙先生透露,它是Teradata公司一位经理编出来的‘故事’,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过,感兴趣的读者可以自己参阅文献。但公平地讲,这个故事对数据挖掘的普及意义重大,仅从教育意义上看,仍不失为一个好故事。2.相关性并非什么大事即便真的有这个案例,也不说明数据分析出来的‘相关性’,有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是:趾高气扬的因果关系光芒不再,卑微的相关关系将被‘翻身做主人’,知道‘是什么’就够了,没必要知道‘为什么’。但需要我们更为深入了解的事实是:‘要相关,不要因果’,这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》(Wired)主编ChrisAnderson,2008年他在题为‘理论的终结:数据洪流让科学方法依然过时(EndofTheory:theDataDelugeMakestheScientificMethodObsolete)文章中,率先提出:在PB时代,我们可以说,有相关性足够了(Petabytesallowustosay: Correlationisenough)。大数据‘要相关,不要因果’的观点,并不受学术界待见。甚至,《大数据时代》的中文版翻译者周涛亦在序言里说,‘放弃对因果关系的追求,是人类的堕落’。对于这个观点,李国杰院士认为:在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了‘相关性’背后的理由,才是新知识或新发现。大数据分析的第二个功能,或者说更为的核心功能在于,预测。预测主要用于对未来进行筹划,大到产业的布局,小到流感的预警,均可用预测。但是对未来的预测,能准吗?
以下格式等价,请按需引用或修改后使用:
[1]圕人堂QQ群知识库.经典故事“啤酒和尿布”的真伪[EB/OL].(2015-12-18)[2024-11-24].http://tuan.pub/server/detail.php?id=1838.
[2]沈*林.经典故事“啤酒和尿布”的真伪[DB/OL].圕人堂周讯,2015(84):10.
[3]沈*林.经典故事“啤酒和尿布”的真伪[DB/OL].(2015-12-18)[2024-11-24].http://tuan.pub/server/detail.php?id=1838.