说的是这个 s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。二级蒸馏

来源: 2025-02-06 09:53:55 [旧帖] [给我悄悄话] 本文已被阅读: