1. Distributed data system administrator. 做这部分,大学数学过得去就行了。主要要对各个framework的配置比较熟悉。linux 系统要玩的流畅,shell script写得好就行了。
2. Distributed data system developer. 这部分,主要是参照各个系统的api, 进行计算。数学厉害的话,可以写底层的算法。数学一般的话,也可以混的好。主要还是要java或python写的好。会 scala也有帮助。
3. Distributed data scientist/engineer. 这部分,基本要懂主流的算法,数学越好,越能做优化和customization. 要在这个方向混的好,基本要数学好。