V3是从DeepSeek自己的671b参数的大模型上蒸馏的

蒸馏完的小模型是在手机和PC上跑的,它technical paper上的结果又不是蒸馏模型跑出来的。671b参数已经属于相当大的模型了。

请您先登陆,再发跟帖!