现在的大语言模型还没有包括Reinforcement learning，怎么会每次用应用都是它学习的过程呢？

来源: 专业潜水妈于 2026-02-05 17:16:10 [旧帖] [给我悄悄话] 本文已被阅读：次

模型训出来一个版本，参数都不会变了啊。你是说公司把人类和AI的互动都记下来，作为下一次training的input?