LLM以前和现在,本质上还是大参数的数学函数,先用监督学习,然后用强化学习来微调这些参数,就有了越来越强大逻辑思维能力。

本帖于 2026-03-09 05:23:02 时间, 由普通用户 QualityWithoutName 编辑
请您先登陆,再发跟帖!