DeepSeek R1 最多也就是赶上 OpenAI o1-1217

Benchmark DeepSeek-R1 (%) OpenAI o1-1217 (%) Verdict
AIME 2024 (Pass@1) 79.8 79.2 DeepSeek-R1 wins (better math problem-solving)
Codeforces (Percentile) 96.3 96.6 OpenAI-o1-1217 wins (better competitive coding)
GPQA Diamond (Pass@1) 71.5 75.7 OpenAI-o1-1217 wins (better general QA performance)
MATH-500 (Pass@1) 97.3 96.4 DeepSeek-R1 wins (stronger math reasoning)
MMLU (Pass@1) 90.8 91.8 OpenAI-o1-1217 wins (better general knowledge understanding)
SWE-bench Verified (Resolved) 49.2 48.9 DeepSeek-R1 wins (better software engineering task handling)

所有跟帖: 

轻松赶上,超越后就一骑绝尘了 -Amerix- 给 Amerix 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:06:44

算了吧,我们release产品从来都是比竞争对手好的多 -Bob007- 给 Bob007 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:08:55

还没赶上OpenAI的第一代,OpenAI已经第四代了 -victor1988- 给 victor1988 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:15:16

说啥呢,o1 o3 哪来的第四代 -监考老师- 给 监考老师 发送悄悄话 监考老师 的博客首页 (0 bytes) () 01/27/2025 postreply 19:32:03

GPT-4 -victor1988- 给 victor1988 发送悄悄话 (0 bytes) () 01/27/2025 postreply 20:17:38

o1 不是 GPT-1 -监考老师- 给 监考老师 发送悄悄话 监考老师 的博客首页 (0 bytes) () 01/27/2025 postreply 21:53:15

比的还是OpenAI 一个月前的产品 -Bob007- 给 Bob007 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:07:28

海量烧钱,后劲不足了 -Amerix- 给 Amerix 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:10:56

AI革命方兴未艾,很多开创性的工作可做 -Bob007- 给 Bob007 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:12:31

真要想提高Math benchmark的分数,其实可以拿数学软件来训练AI -Bob007- 给 Bob007 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:16:35

AI 水平早超过数学软件了,数学软件偏重计算,符号操作比AI差。 -pichawxc- 给 pichawxc 发送悄悄话 pichawxc 的博客首页 (0 bytes) () 01/27/2025 postreply 20:54:33

这是AI比较ChatGPT和Mathematica -Bob007- 给 Bob007 发送悄悄话 (1108 bytes) () 01/28/2025 postreply 06:09:29

关键看DS能不能有比O3厉害的R2,比如比O3 提前发出来? -pichawxc- 给 pichawxc 发送悄悄话 pichawxc 的博客首页 (0 bytes) () 01/27/2025 postreply 20:36:14

请您先登陆,再发跟帖!