LLM以前和现在,本质上还是大参数的数学函数,先用监督学习,然后用强化学习来微调这些参数,就有了越来越强大逻辑思维能力。

来源: 2026-03-09 05:18:56 [博客] [旧帖] [给我悄悄话] 本文已被阅读: