昨天看一份AI公司的研究说，现在模型优化了太多目标，这些目标让AI模型会产生欺骗行为，比如过度谄媚。如何解决呢

来源: 未完的歌于 2025-12-04 18:18:45 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (190 bytes)

本帖于 2025-12-04 18:19:19 时间, 由普通用户未完的歌编辑

回答: 我由 QQ释然于 2025-12-04 18:00:00

他们现在训练的时候，加入了一个坦白报告，如果AI坦白了自己欺骗了，就给予鼓励，

所以那个模型版本的欺骗就少了不少。。。

您的位置：文学城 » 论坛 » 我爱我家 » 昨天看一份AI公司的研究说，现在模型优化了太多目标，这些目标让AI模型会产生欺骗行为，比如过度谄媚。如何解决呢