昨天看一份AI公司的研究说,现在模型优化了太多目标,这些目标让AI模型会产生欺骗行为,比如过度谄媚。如何解决呢

本帖于 2025-12-04 18:19:19 时间, 由普通用户 未完的歌 编辑
回答: QQ释然2025-12-04 18:00:00

他们现在训练的时候,加入了一个坦白报告,如果AI坦白了自己欺骗了,就给予鼓励,

所以那个模型版本的欺骗就少了不少。。。

请您先登陆,再发跟帖!