有些模型譬如Meta的Code Llama-Instruct是用Supervised Learning再加RLHF。

请您先登陆,再发跟帖!