这个不是意外,国内AI界都是互相指责别人蒸馏国外model。

大家在研发过程中都会试着用GPT来训练自己的模型。但是deepseek有多少是靠蒸馏,有待证据。deepseek自己说的是几个新方法减少训练费用和减少硬件要求,比如专家构架(只激发需要的parameter),自我多轮迭化训练(减少训练费用),用Floating point 8 而不是32减少对内存的需要。

仅仅说DS蒸馏了GPT的模型,并不能遮掩DS其他方面的革新。指责偷窃是一个大帽子,把技术拉到道德政治法律地位,是为以后查禁做准备的。因为普通人一听中国偷窃就主观下定论了,你再说有什么革新,他们都会说,DS偷了就是偷了。

所有跟帖: 

蒸馏技术本身不是问题,问题是DS有没有蒸馏闭源的o1模型 -未知- 给 未知 发送悄悄话 未知 的博客首页 (98 bytes) () 01/29/2025 postreply 21:42:56

请您先登陆,再发跟帖!