昨天看一份AI公司的研究说,现在模型优化了太多目标,这些目标让AI模型会产生欺骗行为,比如过度谄媚。如何解决呢

来源: 2025-12-04 18:18:45 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

他们现在训练的时候,加入了一个坦白报告,如果AI坦白了自己欺骗了,就给予鼓励,

所以那个模型版本的欺骗就少了不少。。。