GRPO丢弃PPO里的value model 只在几个答案里优化,而VALUE MODEL 是afterwards的learning 会减少噪音。哈哈,很多年前做工艺模拟优化就是采用跳步,后来发现降躁避免不了欧拉公式数字解里的一些因子确定
GRPO丢弃PPO里的value model 只在几个答案里优化,而VALUE MODEL 是afterwards的learning 会减少噪音。哈哈,很多年前做工艺模拟优化就是采用跳步,后来发现降躁避免不了欧拉公式数字解里的一些因子确定
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy