现在的大语言模型还没有包括Reinforcement learning,怎么会每次用应用都是它学习的过程呢?

来源: 2026-02-05 17:16:10 [旧帖] [给我悄悄话] 本文已被阅读:

模型训出来一个版本,参数都不会变了啊。你是说公司把人类和AI的互动都记下来,作为下一次training的input?