大数据,自有了数据库之后就存在了。也就是人们经常在此之上谈论的 data marts 以及 data warehouse。
有了 data warehouse 储存的这些历史性的原始数据,就可以据此预测某类事物的今后发展方向或意向。这个东西人们是一直在做的。不是什么大数据,就灵魂突然开窍。比如联邦调查局对犯罪现场罪犯的 profile 描述,就是根据历史上已知的同类罪犯的性格特征,进行目前罪犯特征的推测。也就是根据目前犯罪现场的,和已知罪犯所共有的东西,进行推测。历史上已知的,就是历代罪犯或反革命分子的犯罪记录,数据库 或“大数据。” 还有个常举的例子就是收集你所有的物品购买记录,推测你的收入及购物习性,进而对你的个性,进行估摸,等等,等等。
这些都是我这里对大数据这类提法的根本性东西,一种比较通俗的说法;专业上的说辞,我就不多讲了。
所以现在鼓吹所谓的大数据,都是文人墨客发现可以谋生的一条新途径,对专家来讲,很好笑。但这样一来,也的确能养活一大批人。这一大批人,靠的就是现成的软件,在那里 drag and drop,妄想就这样,就是在做 predictive analytics 之上的 Business Intelligence (BI)了。这种现象已引起好多生产部门有识之士的厌恶。他们把这些行为称之为:garbage in,garbage out。什么意思呢?就是真正能得出比较正确的推测结果,她的原始数据,要通过一些特别设计的数理或统计模型;而且输入模型的原始数据,也要根据统计原理或理论,进行选择和整理。简单地说,那是一个统计学上的 sampling 的过程。没有这些过程,光是靠大型数据库的连接,输入的数据,就是 garbage。然后就是一系列的 drag and drop 加 button clicking,那是搞不出 qualified 的结果的。所以没有 sampling 的过程,那就是 garbage 的数据输入,出来的自然就是 garbage 的结果了。
所以光靠某些现成的商业软件所附普遍意义上的模型,连上背后的数据库,或“大数据”库,再用 drag and drop 或 button clicking 来搞所谓的 BI,基本都是糊弄人的事儿。解决不了特别的实际问题。
以上 “谬论,” 敬请专家指正。
这个全是不学无术的人在那儿哗众取宠,给自己寻找生存之处。所谓的
所有跟帖:
•
不是这么简单,更不是自封专家就可以获得权威:)
-数据分析-
♂
(2022 bytes)
()
07/22/2014 postreply
08:29:32
•
此文说的大数据,不是常规数据库,不是人们经常谈论的 data marts 以及 data warehouse。
-美国老土-
♂
(965 bytes)
()
07/22/2014 postreply
08:35:07
•
Redeveloped, following Google white papers
-数据分析-
♂
(233 bytes)
()
07/22/2014 postreply
08:40:13
•
两位补充的,非常 educational !
-多哥-
♀
(0 bytes)
()
07/22/2014 postreply
08:42:22
•
哪里哪里,都是胡说之。 多哥才是真知灼见。 Enjoy the day!
-美国老土-
♂
(0 bytes)
()
07/22/2014 postreply
08:44:41
•
哪里哪里,随便说说,供大家批判提高啊。
-多哥-
♀
(0 bytes)
()
07/22/2014 postreply
13:50:20
•
一个炤头吃饭,多多包涵!:)
-数据分析-
♂
(42 bytes)
()
07/22/2014 postreply
08:50:00
•
我看几位好像有大阴谋
-怪哉-
♂
(3 bytes)
()
07/22/2014 postreply
08:56:13
•
换汤不换药。。。我的理解,把草帽摘了换个礼帽
-小谋-
♀
(0 bytes)
()
07/22/2014 postreply
08:52:27
•
most agree with you.
-xiaoxing-
♀
(134 bytes)
()
07/22/2014 postreply
11:18:04
•
modeling 的方法当然是与时俱进,和过去搞到现在,原则上都是一回事。
-多哥-
♀
(199 bytes)
()
07/22/2014 postreply
13:57:23