GRPO 的确节约了显存和计算资源。但是是否真的提升复杂任务能力保留疑问。这是国内内行的分析

来源: zaocha2002 于 2025-01-28 14:35:49 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (266 bytes)

回答: 这里很多奇怪的人在deny reality 由我是谁的谁于 2025-01-28 13:59:24

GRPO丢弃PPO里的value model 只在几个答案里优化，而VALUE MODEL 是afterwards的learning 会减少噪音。哈哈，很多年前做工艺模拟优化就是采用跳步，后来发现降躁避免不了欧拉公式数字解里的一些因子确定

您的位置：文学城 » 论坛 » 子女教育 » GRPO 的确节约了显存和计算资源。但是是否真的提升复杂任务能力保留疑问。这是国内内行的分析

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

GRPO 的确节约了显存和计算资源。 但是是否真的提升复杂任务能力保留疑问。这是国内内行的分析