这个全是不学无术的人在那儿哗众取宠，给自己寻找生存之处。所谓的

来源: 多哥于 2014-07-22 08:02:46 [博客] [旧帖] [给我悄悄话] 本文已被阅读：次

大数据，自有了数据库之后就存在了。也就是人们经常在此之上谈论的 data marts 以及 data warehouse。

有了 data warehouse 储存的这些历史性的原始数据，就可以据此预测某类事物的今后发展方向或意向。这个东西人们是一直在做的。不是什么大数据，就灵魂突然开窍。比如联邦调查局对犯罪现场罪犯的 profile 描述，就是根据历史上已知的同类罪犯的性格特征，进行目前罪犯特征的推测。也就是根据目前犯罪现场的，和已知罪犯所共有的东西，进行推测。历史上已知的，就是历代罪犯或反革命分子的犯罪记录，数据库或“大数据。” 还有个常举的例子就是收集你所有的物品购买记录，推测你的收入及购物习性，进而对你的个性，进行估摸，等等，等等。

这些都是我这里对大数据这类提法的根本性东西，一种比较通俗的说法；专业上的说辞，我就不多讲了。

所以现在鼓吹所谓的大数据，都是文人墨客发现可以谋生的一条新途径，对专家来讲，很好笑。但这样一来，也的确能养活一大批人。这一大批人，靠的就是现成的软件，在那里 drag and drop，妄想就这样，就是在做 predictive analytics 之上的 Business Intelligence （BI）了。这种现象已引起好多生产部门有识之士的厌恶。他们把这些行为称之为：garbage in，garbage out。什么意思呢？就是真正能得出比较正确的推测结果，她的原始数据，要通过一些特别设计的数理或统计模型；而且输入模型的原始数据，也要根据统计原理或理论，进行选择和整理。简单地说，那是一个统计学上的 sampling 的过程。没有这些过程，光是靠大型数据库的连接，输入的数据，就是 garbage。然后就是一系列的 drag and drop 加 button clicking，那是搞不出 qualified 的结果的。所以没有 sampling 的过程，那就是 garbage 的数据输入，出来的自然就是 garbage 的结果了。

所以光靠某些现成的商业软件所附普遍意义上的模型，连上背后的数据库，或“大数据”库，再用 drag and drop 或 button clicking 来搞所谓的 BI，基本都是糊弄人的事儿。解决不了特别的实际问题。

以上 “谬论，” 敬请专家指正。