且不说这些东西是否能使这些产品得到广泛应用,速度慢,还牵涉到一个系统设计的问题,即 qualified data input/capture、(subject) data marts 、以及其它类似有关的东西如何设计及应用并系统化。要是模型 runs against 相对集中的 data warehouse 身上,query 相关subjects 就肯定要花一大把时间。另外,还要加上另一大把时间来认识这些上层表面来的东西,再行 query data。
我听说从前在 IBM DB2 上搞模型,都是直接用 C 写的,相对运行就较快。现在这些东西,上层花哩胡稍的东西太多。要把这些花头取消,看来是不可能了,靠这类东西混饭吃的人太多,真正专家不是当了领导混退休,就是进了天堂混上帝。唯一可以改进速度的手段,就是我说的对于系统设计方面的关注。比如很多数据分类的逻辑运行,都可以分散在单独的 data mart 之上定时运行。一旦运行模型发布报告,就可以直接从各个需要的 data marts 上提取早已分类好的数据。
“大数据”运行,不仅单靠一个产品,比如 SAP 或 SAS, 更重要的,是如何设计数据库系统,分散运行力量和时间。这是个软件工程问题,要花大钱雇佣真正的大牛才行。问题是,大牛都在玩自家飞机或混退休。这样一来,老印就来撑市面了。
SAS,以及 IBM 的类似产品,还有 SAP,上层表面的东西搞得太多了。这是个主要原因。
本帖于 2015-03-31 14:02:37 时间, 由普通用户 拉兄弟一把 编辑
回答: 谢谢分享!我不是IT人士,但据我了解,在用SAS从大数据里(TB级别的)提取符合条件的数据,常常要耗上几个小时,更别提model
由 wolikeyou
于 2015-03-31 11:30:17
所有跟帖:
•
呵呵,我们老板要我搞hadoop,刚开始我就觉得不乐观,结果搞了3年,也没有搞成,现在还是 用PC机处理数据
-wolikeyou-
♀
(1532 bytes)
()
03/31/2015 postreply
19:53:44