蒸馏是指从用大模型比如DeepSeek R1去训练参数少的小模型,从而得到8B,14B,32B等等对资源要求较少的版本。
来源:
监考老师
于
2025-01-26 22:55:17
[
博客
] [
旧帖
] [
给我悄悄话
] 本文已被阅读:次