他们只是再次核实了 deepseek 推崇的方向:在一个比较好的 base model 基础上,鼓励它自己跟自己说话,用给予奖赏的 Reinforced Learning 可以得到意想不到的好效果。
也就是说,AI 已经慢慢从 generative AI, 跨入了 reasoning AI。