Benchmark | DeepSeek-R1 (%) | OpenAI o1-1217 (%) | Verdict |
AIME 2024 (Pass@1) | 79.8 | 79.2 | DeepSeek-R1 wins (better math problem-solving) |
Codeforces (Percentile) | 96.3 | 96.6 | OpenAI-o1-1217 wins (better competitive coding) |
GPQA Diamond (Pass@1) | 71.5 | 75.7 | OpenAI-o1-1217 wins (better general QA performance) |
MATH-500 (Pass@1) | 97.3 | 96.4 | DeepSeek-R1 wins (stronger math reasoning) |
MMLU (Pass@1) | 90.8 | 91.8 | OpenAI-o1-1217 wins (better general knowledge understanding) |
SWE-bench Verified (Resolved) | 49.2 | 48.9 | DeepSeek-R1 wins (better software engineering task handling) |
DeepSeek R1 最多也就是赶上 OpenAI o1-1217
所有跟帖:
•
轻松赶上,超越后就一骑绝尘了
-Amerix-
♂
(0 bytes)
()
01/27/2025 postreply
19:06:44
•
算了吧,我们release产品从来都是比竞争对手好的多
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:08:55
•
还没赶上OpenAI的第一代,OpenAI已经第四代了
-victor1988-
♂
(0 bytes)
()
01/27/2025 postreply
19:15:16
•
说啥呢,o1 o3 哪来的第四代
-监考老师-
♂
(0 bytes)
()
01/27/2025 postreply
19:32:03
•
GPT-4
-victor1988-
♂
(0 bytes)
()
01/27/2025 postreply
20:17:38
•
o1 不是 GPT-1
-监考老师-
♂
(0 bytes)
()
01/27/2025 postreply
21:53:15
•
比的还是OpenAI 一个月前的产品
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:07:28
•
海量烧钱,后劲不足了
-Amerix-
♂
(0 bytes)
()
01/27/2025 postreply
19:10:56
•
AI革命方兴未艾,很多开创性的工作可做
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:12:31
•
真要想提高Math benchmark的分数,其实可以拿数学软件来训练AI
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:16:35
•
AI 水平早超过数学软件了,数学软件偏重计算,符号操作比AI差。
-pichawxc-
♂
(0 bytes)
()
01/27/2025 postreply
20:54:33
•
这是AI比较ChatGPT和Mathematica
-Bob007-
♂
(1108 bytes)
()
01/28/2025 postreply
06:09:29
•
关键看DS能不能有比O3厉害的R2,比如比O3 提前发出来?
-pichawxc-
♂
(0 bytes)
()
01/27/2025 postreply
20:36:14