这个全是不学无术的人在那儿哗众取宠,给自己寻找生存之处。所谓的

来源: 2014-07-22 08:02:46 [博客] [旧帖] [给我悄悄话] 本文已被阅读:
大数据,自有了数据库之后就存在了。也就是人们经常在此之上谈论的 data marts 以及 data warehouse。

有了 data warehouse 储存的这些历史性的原始数据,就可以据此预测某类事物的今后发展方向或意向。这个东西人们是一直在做的。不是什么大数据,就灵魂突然开窍。比如联邦调查局对犯罪现场罪犯的 profile 描述,就是根据历史上已知的同类罪犯的性格特征,进行目前罪犯特征的推测。也就是根据目前犯罪现场的,和已知罪犯所共有的东西,进行推测。历史上已知的,就是历代罪犯或反革命分子的犯罪记录,数据库 或“大数据。” 还有个常举的例子就是收集你所有的物品购买记录,推测你的收入及购物习性,进而对你的个性,进行估摸,等等,等等。

这些都是我这里对大数据这类提法的根本性东西,一种比较通俗的说法;专业上的说辞,我就不多讲了。

所以现在鼓吹所谓的大数据,都是文人墨客发现可以谋生的一条新途径,对专家来讲,很好笑。但这样一来,也的确能养活一大批人。这一大批人,靠的就是现成的软件,在那里 drag and drop,妄想就这样,就是在做 predictive analytics 之上的 Business Intelligence (BI)了。这种现象已引起好多生产部门有识之士的厌恶。他们把这些行为称之为:garbage in,garbage out。什么意思呢?就是真正能得出比较正确的推测结果,她的原始数据,要通过一些特别设计的数理或统计模型;而且输入模型的原始数据,也要根据统计原理或理论,进行选择和整理。简单地说,那是一个统计学上的 sampling 的过程。没有这些过程,光是靠大型数据库的连接,输入的数据,就是 garbage。然后就是一系列的 drag and drop 加 button clicking,那是搞不出 qualified 的结果的。所以没有 sampling 的过程,那就是 garbage 的数据输入,出来的自然就是 garbage 的结果了。

所以光靠某些现成的商业软件所附普遍意义上的模型,连上背后的数据库,或“大数据”库,再用 drag and drop 或 button clicking 来搞所谓的 BI,基本都是糊弄人的事儿。解决不了特别的实际问题。

以上 “谬论,” 敬请专家指正。