V3是从DeepSeek自己的671b参数的大模型上蒸馏的

来源: 2025-01-28 19:05:18 [旧帖] [给我悄悄话] 本文已被阅读:

蒸馏完的小模型是在手机和PC上跑的,它technical paper上的结果又不是蒸馏模型跑出来的。671b参数已经属于相当大的模型了。