哎,牛顿说的,站在巨人的肩膀上。这个模型并不是完全从头培训的,而是用的GPT们的培训结果,再用RL矫正,如此循环

来源: 2025-01-26 10:16:07 [旧帖] [给我悄悄话] 本文已被阅读: