昨天看一份AI公司的研究说，现在模型优化了太多目标，这些目标让AI模型会产生欺骗行为，比如过度谄媚。如何解决呢

来源: 未完的歌于 2025-12-04 18:18:45 [博客] [旧帖] [给我悄悄话] 本文已被阅读：次

他们现在训练的时候，加入了一个坦白报告，如果AI坦白了自己欺骗了，就给予鼓励，

所以那个模型版本的欺骗就少了不少。。。

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.