有些模型譬如Meta的Code Llama-Instruct是用Supervised Learning再加RLHF。

来源: 2025-02-05 17:11:26 [博客] [旧帖] [给我悄悄话] 本文已被阅读: