我的一点看法，我花了点时间学习Deepseek的training方法

来源: 当年情于 2025-01-02 09:04:15 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (688 bytes)

回答: 大家都在说deepseek，但是没说到点子上，尤其在NVDA上由 bupu 于 2025-01-02 08:41:12

它的优化主要是engineering optimization on training pipeline and methods，所谓算法优化是误导。

这个优化说难不难，说不难很难，主要是需要一个专注的团队钻进去，如果放在美国的大公司，一般来讲要一年。决策者怎么想很重要，硬件不是问题的时候，没有决策者会干这种傻事，速度比成本更重要。

这个优化能让效率提高10倍，就好比各大航空公司购买燃油，现在跑同样的航班每周跑100个，用了新方法后，只需要1/10的燃油。

如果要维持燃油公司的原来的利润，就需要航空公司每周跑1000个航班。

您的位置：文学城 » 论坛 » 大千股坛 » 我的一点看法，我花了点时间学习Deepseek的training方法

• 中国特色 -12qw- ♀ (0 bytes) () 01/02/2025 postreply 09:11:15

• 中国特色还没有上路 -neillu- ♂ (882 bytes) () 01/02/2025 postreply 09:25:49

• 完全失效 -neillu- ♂ (0 bytes) () 01/02/2025 postreply 09:39:09

• link please -bupu- ♂ (0 bytes) () 01/02/2025 postreply 09:39:55