V3是从DeepSeek自己的671b参数的大模型上蒸馏的
来源:
maniac63
于
2025-01-28 19:05:18
[
旧帖
] [
给我悄悄话
] 本文已被阅读:次
蒸馏完的小模型是在手机和PC上跑的,它technical paper上的结果又不是蒸馏模型跑出来的。671b参数已经属于相当大的模型了。