用“蒸馏”过的数据,直接上RL,省了pre-taining ,是大胆,也算是“二次开发”。当然省时省钱。

来源: 2025-01-26 21:43:00 [博客] [旧帖] [给我悄悄话] 本文已被阅读: