LLM以前和现在，本质上还是大参数的数学函数，先用监督学习，然后用强化学习来微调这些参数，就有了越来越强大逻辑思维能力。

来源: QualityWithoutName 于 2026-03-09 05:18:56 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (0 bytes)

本帖于 2026-03-09 05:23:02 时间, 由普通用户 QualityWithoutName 编辑

您的位置：文学城 » 论坛 » 文化走廊 » LLM以前和现在，本质上还是大参数的数学函数，先用监督学习，然后用强化学习来微调这些参数，就有了越来越强大逻辑思维能力。