R1擅长的推理模型,领先O1但非碾压。最出色的还是用RL代替人工做微调,再度证明:AI胜过人力。

请您先登陆,再发跟帖!