这个全是不学无术的人在那儿哗众取宠,给自己寻找生存之处。所谓的

来源: 多哥 2014-07-22 08:02:46 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (2515 bytes)
本文内容已被 [ 多哥 ] 在 2014-07-22 08:30:00 编辑过。如有问题,请报告版主或论坛管理删除.
大数据,自有了数据库之后就存在了。也就是人们经常在此之上谈论的 data marts 以及 data warehouse。

有了 data warehouse 储存的这些历史性的原始数据,就可以据此预测某类事物的今后发展方向或意向。这个东西人们是一直在做的。不是什么大数据,就灵魂突然开窍。比如联邦调查局对犯罪现场罪犯的 profile 描述,就是根据历史上已知的同类罪犯的性格特征,进行目前罪犯特征的推测。也就是根据目前犯罪现场的,和已知罪犯所共有的东西,进行推测。历史上已知的,就是历代罪犯或反革命分子的犯罪记录,数据库 或“大数据。” 还有个常举的例子就是收集你所有的物品购买记录,推测你的收入及购物习性,进而对你的个性,进行估摸,等等,等等。

这些都是我这里对大数据这类提法的根本性东西,一种比较通俗的说法;专业上的说辞,我就不多讲了。

所以现在鼓吹所谓的大数据,都是文人墨客发现可以谋生的一条新途径,对专家来讲,很好笑。但这样一来,也的确能养活一大批人。这一大批人,靠的就是现成的软件,在那里 drag and drop,妄想就这样,就是在做 predictive analytics 之上的 Business Intelligence (BI)了。这种现象已引起好多生产部门有识之士的厌恶。他们把这些行为称之为:garbage in,garbage out。什么意思呢?就是真正能得出比较正确的推测结果,她的原始数据,要通过一些特别设计的数理或统计模型;而且输入模型的原始数据,也要根据统计原理或理论,进行选择和整理。简单地说,那是一个统计学上的 sampling 的过程。没有这些过程,光是靠大型数据库的连接,输入的数据,就是 garbage。然后就是一系列的 drag and drop 加 button clicking,那是搞不出 qualified 的结果的。所以没有 sampling 的过程,那就是 garbage 的数据输入,出来的自然就是 garbage 的结果了。

所以光靠某些现成的商业软件所附普遍意义上的模型,连上背后的数据库,或“大数据”库,再用 drag and drop 或 button clicking 来搞所谓的 BI,基本都是糊弄人的事儿。解决不了特别的实际问题。

以上 “谬论,” 敬请专家指正。

所有跟帖: 

不是这么简单,更不是自封专家就可以获得权威:) -数据分析- 给 数据分析 发送悄悄话 (2022 bytes) () 07/22/2014 postreply 08:29:32

此文说的大数据,不是常规数据库,不是人们经常谈论的 data marts 以及 data warehouse。 -美国老土- 给 美国老土 发送悄悄话 美国老土 的博客首页 (965 bytes) () 07/22/2014 postreply 08:35:07

Redeveloped, following Google white papers -数据分析- 给 数据分析 发送悄悄话 (233 bytes) () 07/22/2014 postreply 08:40:13

两位补充的,非常 educational ! -多哥- 给 多哥 发送悄悄话 多哥 的博客首页 (0 bytes) () 07/22/2014 postreply 08:42:22

哪里哪里,都是胡说之。 多哥才是真知灼见。 Enjoy the day! -美国老土- 给 美国老土 发送悄悄话 美国老土 的博客首页 (0 bytes) () 07/22/2014 postreply 08:44:41

哪里哪里,随便说说,供大家批判提高啊。 -多哥- 给 多哥 发送悄悄话 多哥 的博客首页 (0 bytes) () 07/22/2014 postreply 13:50:20

一个炤头吃饭,多多包涵!:) -数据分析- 给 数据分析 发送悄悄话 (42 bytes) () 07/22/2014 postreply 08:50:00

我看几位好像有大阴谋 -怪哉- 给 怪哉 发送悄悄话 怪哉 的博客首页 (3 bytes) () 07/22/2014 postreply 08:56:13

换汤不换药。。。我的理解,把草帽摘了换个礼帽 -小谋- 给 小谋 发送悄悄话 小谋 的博客首页 (0 bytes) () 07/22/2014 postreply 08:52:27

most agree with you. -xiaoxing- 给 xiaoxing 发送悄悄话 xiaoxing 的博客首页 (134 bytes) () 07/22/2014 postreply 11:18:04

modeling 的方法当然是与时俱进,和过去搞到现在,原则上都是一回事。 -多哥- 给 多哥 发送悄悄话 多哥 的博客首页 (199 bytes) () 07/22/2014 postreply 13:57:23

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”