蒸馏是指从用大模型比如DeepSeek R1去训练参数少的小模型,从而得到8B,14B,32B等等对资源要求较少的版本。

来源: 2025-01-26 22:55:17 [博客] [旧帖] [给我悄悄话] 本文已被阅读: