所有的成功都是站在巨人的肩膀上负重而来,没有什么捷径。刚读完DS第一版发布的技术论文,就对LLM作了很多工程改进,

来源: 2025-01-28 09:06:06 [旧帖] [给我悄悄话] 本文已被阅读:

 

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度,改用 IsoFLOP。抛弃了简单的Cosine学习速度计划,改用多级进阶式学习速度计划。等等等等。

成功绝非偶然,也不是一蹴而就。

这还只是第一版,引起轰动的DS R1是其第四版。