成本仅50美元，性能媲美Deepseek-R1，李飞飞带着S1来炸场了

来源: Zhivago 于 2025-02-06 09:38:07 [旧帖] [给我悄悄话] 本文已被阅读：次

S1的研究团队表示，s1模型是以谷歌推理模型Gemini2.0 Flash Thinking Experimental为基础模型，通过蒸馏法提炼出来的。

他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K，通过难度、多样性和质量三个标准来筛选，其中包括1000个经过精心挑选的问题以及相应答案，并附上了“推理”过程，仅使用了16台英伟达H100 GPU，耗时26分钟就完成了训练。

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.