用“蒸馏”过的数据,直接上RL,省了pre-taining ,是大胆,也算是“二次开发”。当然省时省钱。

请您先登陆,再发跟帖!