用“蒸馏”过的数据,直接上RL,省了pre-taining ,是大胆,也算是“二次开发”。当然省时省钱。
来源:
kl3527
于
2025-01-26 21:43:00
[
博客
] [
旧帖
] [
给我悄悄话
] 本文已被阅读:次