大数据分析与数据统计的关系

   圕人堂周讯(总第165期20170707),第5页,梅吉整理王启云助理   
洞庭水手:正在修改湖南理工学院图书馆服务数据报告(南湖创客空间学风指数项目组编制)。
广州书童:学风指数?有兴趣。
木西:数据从哪儿来。
洞庭水手:从各个系统里调度啊。
木西:全分析?还是部分。
洞庭水手:全分析。
木西:好庞大。
sonoro*:老师您这名字可以改成:大数据环境下图书馆服务量化报告。
图谋:水手那边这块工作做得很扎实。从2007年开始发布图书馆年度使用报告。
广州书童:半年的数据有啥庞大的,主要有什么数据?
洞庭水手:现在也只是基本的数据调度呢,之前做了一些展示的。领导觉得好,做一期整体的数据报告。
洞庭水手:之前做的,都是到各个系统里面去统计。每次做一年的,都很辛苦。现在想把各个系统自动调度起来,服务器硬件以及自身能力有限,只能做到每天调度一次。
sonoro*:大数据环境下的调度。
洞庭水手:是的,这个有点大数据的概念,用到了大数据的工具。6百万的数据,处理时间大约是2秒。自我感觉还可以。
图谋:回头可以分享的话,也请发给我一份,欣赏一下。
洞庭水手:嗯,内部分享。上次分享的一些东西被一些不良商家变成自家的东西了。
图谋:俺学不来,但愿意欣赏。
广州书童:每天统计一次?
洞庭水手:对,每天调度一些数据,自动形成一些报告和手册。
图谋:各种系统里边数据关联,不是每天统计一次吧。
洞庭水手:是每天到各个系统里去收割进来呢,然后形成一些实时数据在大屏等地方展示。有些数据不便公开的,内部使用呢有多种输出啊,不仅仅是报告更多的是为了提升图书馆服务。
图谋:群里有多位特别善钻研、能专研的圕人,如果形成合力,或许将是更加难得、非常了得。比如沈奎林老师、www老师、发条兔子……。
sonoro*:上海交大图书馆每年给每一位毕业生一个图书馆做的小册子,册子上有这位毕业生大学四年第一次进图书馆是哪一天,借了什么书,还有很多数据统计。感觉挺好的。滴滴发布吃货出行指南大数据告诉你今天吃什么。
麦子:关于大数据的讨论,我的感触是:反正到现在为止,我自己每天接触的只是统计数据,和大数据一点没关系。
黑天鹅:大数据与统计数据区别在哪?
海边:大数据是统计数据的一个分支吧。我们基层接触的是小范围的统计数据。麦子,你儿子不是天天接触这些大数据吗?
麦子:他是,他们这个小公司每月在亚马逊上存数据的钱是25000美元。但我接触的数据最多就是几兆,这种比较是原子弹和一根火柴比较,你说你拿一个火柴,能算是进入核武器级别吗?当然,数据量大并不一定是大数据,但大数据一定数据量大。美国的图书馆统计,即使像ARL这种统计到所有人工资多少,性别,年龄,族裔和很多参数的,在他们的年度统计报告里,statistics但不会说的data.https://www.arlstatistics.org/home
麦子:http://www.ibmbigdatahub.com/infographic/four-vs-big-data,这是大数据定义的一个图,我大约用了3年,也就是所谓4V.。
sonoro*:大数据现在是国内高校里的一个专业。2016年2月,教育部公布新增的‘数据科学与大数据技术’专业,北京大学、对外经济贸易大学、中南大学成为首家获批高校。时隔一年,2017年3月,教育部公布第二批‘数据科学与大数据技术’专业获批的32所高校。到此为止,我国已有35所高校获批该专业。情报学也有好多毕业后搞大数据。
木西:大数据是不是可以把传统的统计PK下去了,一个行业兴起,一个行业陨落。有没有对比下,新增大数据专业的同时,统计学招生是否吃紧。
麦子:这又是国内特色。美国好像没有这个专业,有datascience数据科学这个专业,但设的往往都是函授。
木西:本来嘛,样本数据抽取辣么随机,还那么多假设、推理检定,往大数据面前一站,我说我做样本估计,我咋那么底气不足呢。
cpulib*:统计跟大数据应该是两回事,前者靠样本,后者靠全面的数据,而且可以不需要统计方法,更多的依赖信息技术。
麦子:不过我不敢说大数据不需要统计方法,因为我也不懂。
gaozy:大数据,如果停留在概念,那就不够形象。为了便于感受,可缩小范围,如图书馆大数据,交通大数据,购物大数据等。
Y:统计学和数据挖掘属于数据分析中一体两面的事情,二者是对同一事物或现象的不同方面的数据表述,缺一不可。就像一座山,一面是数据挖掘,一面是统计学。二者一体两面。
麦子:但我还是要说,上面的很多例子其实就是数字统计(不是什么统计学),当然更不要说大数据了。类似的东西ARL做了7,80年,里面的内容变化似乎不大。
星星:统计学是做离散方差描述之类的,均值、平均值、中位值。实证研究就是搞统计的。

以下格式等价,请按需引用或修改后使用:

[1]圕人堂QQ群知识库.大数据分析与数据统计的关系[EB/OL].(2017-07-07)[2024-07-04].http://tuan.pub/server/detail.php?id=3061.

[2]洞庭水手,麦子,木西,等.大数据分析与数据统计的关系[DB/OL].圕人堂周讯,2017(165):5.

[3]洞庭水手,麦子,木西,等.大数据分析与数据统计的关系[DB/OL].(2017-07-07)[2024-07-04].http://tuan.pub/server/detail.php?id=3061.