Deepseek 的成功说明了中国人在AI领域的创新力是充满竞争力的。 在今年的NeuoIP年会上,出自中国的论文非常多。 在大模型领域,除了美国的META, OPENAI, ANTHROPIC, GOOGLE 出自己的大模型外, 还有法国的Mistral 之外,就是中国自己训练自己的大模型, 比如以前就发布的QWEN 。 法国的Mistral最先把MoE(Mixture of Experts)引入到大模型的架构中,而中国的DS在此基础上做了很几点的大的改进。比如, 用MLA(Multi-head latent attention), MTP(Multi-Token Prediction), GRPO(Group Relative Policy Optimization), 大大降低了训练成本。 其中GRPO让SFT (supervised fine tuning)变得不那么重要,只要给一个最终结果,比如数学上给出最后答案,GRPO可以自己出琢磨出得出最终答案的过程出来,而且会自己实验用不同的过程来解题,这是一个了不起的创新。这被DeepSeek 自己说成是AHA 瞬间,被外界观察者说成是alphago的在大模型上的重演。 Deepseek 这些创新,展现了中国人的才智,在海外华人受中美关系政治打压和受印度人在高科技打压的前提下,中国人能出这样的成绩,也是于有荣焉。
Deepseek的模型是开源的,就是说每个公司和个人可以使用这模型,还可以继续改进该模型。而且Deepseek也支持聊天的终端,普通人都可以去用。 应该很多人已经测试了Deepseek的模型,而且肯定有公司也用AI的好多种不同的测试方法测试过Deepseek模型。所以对Deepseek的轰动, 没有什么韩国超导的假冒之说。
听说开发Deepseek是很多刚得到国内博士学位的年轻人,openAI的开发者也很年轻,这说明了国内在AI领域已经大面积开花,也说明了AI领域是大大的民主化,就是进入的门槛不高,想进入的年轻人或国家很容易进入取得成绩。