DeepSeek把RL(unsupervised)引入LLM训练的后期阶段,取代监督微调(SFT),这是由监督学习,转向非监督学习的重要算法改进,业内称为飞轮,依靠飞轮自身转动,改进大语言模型的效率,就像AlphGo Zero那样。这套方法明显可以被OpenAI,Google,XAI等美国AI大玩家利用,改进自己现有的模型训练。简单来说,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鉴RL这个飞轮,施加100%的算力,能达到10000%的performance吗?能达成1000%也很好了啊,甚至200%也行啊。将来施加1000%的算力,就会达成2000%的效果了。感觉距离AGI越来越近了。
好像DeepSeek证明了“中国人”,从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进,借鉴了LLM训练的注意力机制,AlphaGo Zero的非监督强化学习,以及模型蒸馏和浓缩技巧,这是算法上的重要改进,能把整个大模型训练提高一个台阶。但是十分明显,就像Deep Seek借鉴别人成果一样,别人也可以借鉴这一成果,加速自己模型的训练,在算法差不多的情况下,数据(数量和质量)和算力依然决定模型的性能。