DS V1.5鸟瞰:最大贡献是引入RL,GRPO,一次性生成整个认证过程,再用truncate-&-resume校正。

 

大大提高了学习效率和生成效率。

 

 

所有跟帖: 

truncate-&-resume像极了DFS。两篇短的读完了,后面的都巨长,五十多页一篇,intimating... -成功的飞过- 给 成功的飞过 发送悄悄话 (0 bytes) () 01/28/2025 postreply 11:42:00

相关文章贴一下,我也要阅读 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 01/28/2025 postreply 11:43:00

arxiv.org/abs/2408.08152 -成功的飞过- 给 成功的飞过 发送悄悄话 (249 bytes) () 01/28/2025 postreply 11:45:38

继续update:) 我肯定看不懂这方面的论文了,所以楼主愿意读然后深入浅出的解读一下,对我非常有价值 -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 01/28/2025 postreply 12:21:02

meta家正在组织工程师分组学习,全世界的工程师们卷起来,很棒 -快乐的小鸟- 给 快乐的小鸟 发送悄悄话 (0 bytes) () 01/28/2025 postreply 12:21:11

+1000。。。科技是没有国界的:) -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 01/28/2025 postreply 12:23:13

meta家的估计没安什么好心,在找有什么可以告DS的。 -baydad- 给 baydad 发送悄悄话 (0 bytes) () 01/28/2025 postreply 12:41:03

GRPO听起来是很关键的贡献,这里有个通俗易懂点的介绍,评论区第一个人的问题怎么解? -专业潜水妈- 给 专业潜水妈 发送悄悄话 (276 bytes) () 01/28/2025 postreply 12:40:31

DeepSeek does seem to be a game changer -gezhu- 给 gezhu 发送悄悄话 (81 bytes) () 01/28/2025 postreply 13:38:47

这里很多奇怪的人在deny reality -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 01/28/2025 postreply 13:59:24

GRPO 的确节约了显存和计算资源。 但是是否真的提升复杂任务能力保留疑问。这是国内内行的分析 -zaocha2002- 给 zaocha2002 发送悄悄话 zaocha2002 的博客首页 (266 bytes) () 01/28/2025 postreply 14:35:49

请您先登陆,再发跟帖!