大家在研发过程中都会试着用GPT来训练自己的模型。但是deepseek有多少是靠蒸馏,有待证据。deepseek自己说的是几个新方法减少训练费用和减少硬件要求,比如专家构架(只激发需要的parameter),自我多轮迭化训练(减少训练费用),用Floating point 8 而不是32减少对内存的需要。
仅仅说DS蒸馏了GPT的模型,并不能遮掩DS其他方面的革新。指责偷窃是一个大帽子,把技术拉到道德政治法律地位,是为以后查禁做准备的。因为普通人一听中国偷窃就主观下定论了,你再说有什么革新,他们都会说,DS偷了就是偷了。