我听说从前在 IBM DB2 上搞模型,都是直接用 C 写的,相对运行就较快。现在这些东西,上层花哩胡稍的东西太多。要把这些花头取消,看来是不可能了,靠这类东西混饭吃的人太多,真正专家不是当了领导混退休,就是进了天堂混上帝。唯一可以改进速度的手段,就是我说的对于系统设计方面的关注。比如很多数据分类的逻辑运行,都可以分散在单独的 data mart 之上定时运行。一旦运行模型发布报告,就可以直接从各个需要的 data marts 上提取早已分类好的数据。
“大数据”运行,不仅单靠一个产品,比如 SAP 或 SAS, 更重要的,是如何设计数据库系统,分散运行力量和时间。这是个软件工程问题,要花大钱雇佣真正的大牛才行。问题是,大牛都在玩自家飞机或混退休。这样一来,老印就来撑市面了。