我的一点看法,我花了点时间学习Deepseek的training方法

它的优化主要是engineering optimization on training pipeline and methods,所谓算法优化是误导。

这个优化说难不难,说不难很难,主要是需要一个专注的团队钻进去,如果放在美国的大公司,一般来讲要一年。决策者怎么想很重要,硬件不是问题的时候,没有决策者会干这种傻事,速度比成本更重要。

这个优化能让效率提高10倍,就好比各大航空公司购买燃油,现在跑同样的航班每周跑100个,用了新方法后,只需要1/10的燃油。

如果要维持燃油公司的原来的利润,就需要航空公司每周跑1000个航班。

所有跟帖: 

中国特色 -12qw- 给 12qw 发送悄悄话 12qw 的博客首页 (0 bytes) () 01/02/2025 postreply 09:11:15

中国特色还没有上路 -neillu- 给 neillu 发送悄悄话 (882 bytes) () 01/02/2025 postreply 09:25:49

没问题,但是chatgpt离AGI还差十万八千里,deepseek更是,没有迹象表明scaling law失效了 -bupu- 给 bupu 发送悄悄话 (48 bytes) () 01/02/2025 postreply 09:23:00

完全失效 -neillu- 给 neillu 发送悄悄话 (0 bytes) () 01/02/2025 postreply 09:39:09

link please -bupu- 给 bupu 发送悄悄话 (0 bytes) () 01/02/2025 postreply 09:39:55

现在除了斯特曼,整个AI都是这个共识啊,这半年都在议论这个 -neillu- 给 neillu 发送悄悄话 (0 bytes) () 01/02/2025 postreply 09:43:26

我了解的业界情况并非如此。所以,link please -bupu- 给 bupu 发送悄悄话 (0 bytes) () 01/02/2025 postreply 09:48:04

请您先登陆,再发跟帖!