所有的成功都是站在巨人的肩膀上负重而来，没有什么捷径。刚读完DS第一版发布的技术论文，就对LLM作了很多工程改进，

来源: 成功的飞过于 2025-01-28 09:06:06 [旧帖] [给我悄悄话] 本文已被阅读：次

花了很多精力探索、调试最优宏观参数组合。而且花了很多精力prepare培训数据(The filtering stage enhances the density of information). 抛弃了简单以参数量度量模型复杂度，改用 IsoFLOP。抛弃了简单的Cosine学习速度计划，改用多级进阶式学习速度计划。等等等等。

成功绝非偶然，也不是一蹴而就。

这还只是第一版，引起轰动的DS R1是其第四版。

文学城简介
广告服务
联系我们
招聘信息
注册笔名
申请版主
收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.