昨天看一份AI公司的研究说,现在模型优化了太多目标,这些目标让AI模型会产生欺骗行为,比如过度谄媚。如何解决呢
来源:
未完的歌
于
2025-12-04 18:18:45
[
博客
] [
旧帖
] [
给我悄悄话
] 本文已被阅读:次
他们现在训练的时候,加入了一个坦白报告,如果AI坦白了自己欺骗了,就给予鼓励,
所以那个模型版本的欺骗就少了不少。。。