有些模型譬如Meta的Code Llama-Instruct是用Supervised Learning再加RLHF。
来源:
大观园的贾探春
于
2025-02-05 17:11:26
[
博客
] [
旧帖
] [
给我悄悄话
] 本文已被阅读:次