刚才找了一道抽象一些的数学题来考几个 AI

chatgpt 4 和 deepseek 做了些不错的分析,然后就是胡说八道。deepseek 给出的分析内容稍微多些,糟糕的地方是,如果你追问分析细节,马上胡说八道。

Gemini: 给出了同样的分析,但没有胡说八道,承认自己不能确定答案。

付费版的 chatgpt o1: 想了好久,然后给出了正确答案,very impressed!

所有跟帖: 

所以就是不给钱就胡说八道?lol -成功的米菲兔- 给 成功的米菲兔 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:16:37

AI大门八字开,有理无钱莫进来 -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:18:21

我拿O1和DS做申学benchmarking 分析。o1 中规中矩,DS经常卡在那。不过二者都挺敢说。o1 肯定还是胜出 -oryzivore- 给 oryzivore 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:18:34

DS需要增加个功能,付费Prime服务。LOL -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 01/27/2025 postreply 19:53:00

有没有付费版做不出来的一些竞赛题?比如Putman级别的? -Pilsung- 给 Pilsung 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:19:29

有,以前试过一些,有时也胡说八道,但逻辑比免费版的强不少 -STEMkid- 给 STEMkid 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:21:30

谢谢...我用的是免费的,难道经常出错. -Pilsung- 给 Pilsung 发送悄悄话 (83 bytes) () 01/27/2025 postreply 19:27:56

第一手资料通常有说服力! -CR2019- 给 CR2019 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:28:45

给出正确答案的,需要你提示方向吗? -trivial- 给 trivial 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:31:34

没有提示,直接给了解法和用到的定理。o1 的缺点就是慢,要等它想一会 -STEMkid- 给 STEMkid 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:34:00

是不是敲字一字一顿的,蹦出几个词要半分钟? LOL -Pilsung- 给 Pilsung 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:37:01

是要想一会儿才开始出字。你可以选 o1 mini,快不少,但逻辑比 o1 差些 -STEMkid- 给 STEMkid 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:39:00

谢谢... -Pilsung- 给 Pilsung 发送悄悄话 (0 bytes) () 01/27/2025 postreply 19:53:47

所以你觉得它是搜索,还是推理? -trivial- 给 trivial 发送悄悄话 (0 bytes) () 01/27/2025 postreply 20:07:44

应该都有吧,能做证明题少不了推理 -STEMkid- 给 STEMkid 发送悄悄话 (0 bytes) () 01/27/2025 postreply 20:12:00

哈哈哈 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 01/27/2025 postreply 19:52:00

请您先登陆,再发跟帖!