GRPO 的确节约了显存和计算资源。 但是是否真的提升复杂任务能力保留疑问。这是国内内行的分析

回答: 这里很多奇怪的人在deny reality我是谁的谁2025-01-28 13:59:24

GRPO丢弃PPO里的value model 只在几个答案里优化,而VALUE MODEL 是afterwards的learning 会减少噪音。哈哈,很多年前做工艺模拟优化就是采用跳步,后来发现降躁避免不了欧拉公式数字解里的一些因子确定

请您先登陆,再发跟帖!