成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了

来源: 2025-02-06 09:38:07 [旧帖] [给我悄悄话] 本文已被阅读:

成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了 

S1的研究团队表示,s1模型是以谷歌推理模型Gemini2.0 Flash Thinking Experimental为基础模型,通过蒸馏法提炼出来的。

他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K,通过难度、多样性和质量三个标准来筛选,其中包括1000个经过精心挑选的问题以及相应答案,并附上了“推理”过程,仅使用了16台英伟达H100 GPU,耗时26分钟就完成了训练。


 

https://wallstreetcn.com/articles/3740484