Deepseek 的模型突破

来源: voiceofme 于 2025-01-27 07:49:53 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (1967 bytes)

本帖于 2025-01-27 07:56:57 时间, 由普通用户 voiceofme 编辑

Deepseek 的成功说明了中国人在AI领域的创新力是充满竞争力的。在今年的NeuoIP年会上，出自中国的论文非常多。在大模型领域，除了美国的META, OPENAI, ANTHROPIC, GOOGLE 出自己的大模型外，还有法国的Mistral 之外，就是中国自己训练自己的大模型，比如以前就发布的QWEN 。法国的Mistral最先把MoE(Mixture of Experts)引入到大模型的架构中，而中国的DS在此基础上做了很几点的大的改进。比如，用MLA(Multi-head latent attention)， MTP（Multi-Token Prediction), GRPO(Group Relative Policy Optimization), 大大降低了训练成本。其中GRPO让SFT (supervised fine tuning)变得不那么重要，只要给一个最终结果，比如数学上给出最后答案，GRPO可以自己出琢磨出得出最终答案的过程出来，而且会自己实验用不同的过程来解题，这是一个了不起的创新。这被DeepSeek 自己说成是AHA 瞬间，被外界观察者说成是alphago的在大模型上的重演。 Deepseek 这些创新，展现了中国人的才智，在海外华人受中美关系政治打压和受印度人在高科技打压的前提下，中国人能出这样的成绩，也是于有荣焉。

Deepseek的模型是开源的，就是说每个公司和个人可以使用这模型，还可以继续改进该模型。而且Deepseek也支持聊天的终端，普通人都可以去用。应该很多人已经测试了Deepseek的模型，而且肯定有公司也用AI的好多种不同的测试方法测试过Deepseek模型。所以对Deepseek的轰动，没有什么韩国超导的假冒之说。

听说开发Deepseek是很多刚得到国内博士学位的年轻人，openAI的开发者也很年轻，这说明了国内在AI领域已经大面积开花，也说明了AI领域是大大的民主化，就是进入的门槛不高，想进入的年轻人或国家很容易进入取得成绩。

您的位置：文学城 » 论坛 » 时事述评 » Deepseek 的模型突破

所有跟帖：

• 哈哈，抄乱了，Aha 不是haha. -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 07:55:32

• 改了。不是抄的，是刚写的。 -voiceofme- ♂ (0 bytes) () 01/27/2025 postreply 07:57:17

• 对于人才的观点不能认同，DS团队代表着本土顶尖精英教育水平的成功，而不是门槛低了。 -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 08:19:39

• 在数学上，用先给答案再反推的训练方式生成的模型，有多少通用性是个问题。 -uptrend- ♂ (0 bytes) () 01/27/2025 postreply 08:10:51

• 在数学上，这方法有通用性，但这方法能运用在其他领域吗？这个确实是问题。 -voiceofme- ♂ (0 bytes) () 01/27/2025 postreply 08:18:58

• 如今的社会就是依赖于现代逻辑打造的，类似于半部论语治天下，因为社会制度本来就是依于儒家思想建立的。 -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 08:23:09

• 试用了一下deepseek, 觉得很罗嗦啊。先不直接回答问题，做一大堆自我思考，然后才给出答案。答案也不简明。好像不适合 -ice_tea- ♂ (0 bytes) () 01/27/2025 postreply 09:24:46

• OpenAI 不肯公开思考过程被很多人诟病。不利于交流学习。 -监考老师- ♂ (0 bytes) () 01/27/2025 postreply 09:27:12

请您先登陆，再发跟帖！