OpenAI 最差劲,给出的答案80%是错的,还很自信的错。
Deep seek,啰嗦的不像话,大多数情况啰嗦半天没答案,或者错。出错率 60%, 但是比Open AI诚实。
Gemini 明显比上面两家好一点。做不出,能老老实实说解不了。没有混说的状态。
AP Calculus是好多工程项目的基础,就这样的水平,AI的现实离我们远着呢。
我没有试过Grok,主要是不喜欢用Twitter/X。不知道Grok如何。
OpenAI 最差劲,给出的答案80%是错的,还很自信的错。
Deep seek,啰嗦的不像话,大多数情况啰嗦半天没答案,或者错。出错率 60%, 但是比Open AI诚实。
Gemini 明显比上面两家好一点。做不出,能老老实实说解不了。没有混说的状态。
AP Calculus是好多工程项目的基础,就这样的水平,AI的现实离我们远着呢。
我没有试过Grok,主要是不喜欢用Twitter/X。不知道Grok如何。
•
Grok 是目前最棒的
-青裁-
♂
(0 bytes)
()
05/08/2025 postreply
10:20:00
•
Twitter让我却步。要想想是否用。
-加州lalin-
♀
(200 bytes)
()
05/08/2025 postreply
10:24:04
•
OpenAI 要用对model 不同的表现差很多 GEMINI 承认错误最彻底 每次都是发至内心的检讨 但表现差
-挖矿-
♂
(0 bytes)
()
05/08/2025 postreply
10:21:19
•
Gemini 实诚。 Open AI最滑头,就是骗子。Deep Seek是个不懂装懂 啰啰嗦嗦的砖头。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:25:36
•
同意 OpenAI 最接近印度思维 第三次开始偷懒 cut corner
-挖矿-
♂
(0 bytes)
()
05/08/2025 postreply
10:27:16
•
哎,我看答案,脑补画面就是对面坐着一个摇头的阿三
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:19
•
哈哈
-凊荷-
♀
(0 bytes)
()
05/08/2025 postreply
10:29:17
•
哈哈哈。 尤其是大语言模型, 要达到解微积分,阻碍很大。
-24桥明月夜-
♀
(0 bytes)
()
05/08/2025 postreply
10:22:31
•
Open AI 要用O3 or O4mini 这个才是reasoning model
-凊荷-
♀
(240 bytes)
()
05/08/2025 postreply
10:24:34
•
用的就是O4
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:25:56
•
也这么差啊
-凊荷-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:44
•
态度很好,我说你答案错,他就再做一遍,换个错法。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:29:53
•
很热情,说个没完没了。Gemini强不少。哦,还有个
-凊荷-
♀
(34 bytes)
()
05/08/2025 postreply
10:31:26
•
both OpenAI 和deep Seek都会卡壳,自己编不下去。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:41:23
•
人脑的复杂性, AI 一时代替不了
-恒妈-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:56
•
做不好数学的Ai, 都是骗子。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:30:25
•
試試AIME? 上次不是說AIME的題都可以做了?
-violinpiano-
♂
(0 bytes)
()
05/08/2025 postreply
10:33:16
•
靠题库?AP calculus没啥题库。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:36:05
•
你用的是免费还是付费的,Open AI?
-两女宝妈-
♀
(0 bytes)
()
05/08/2025 postreply
10:37:41
•
O4手机版每天有几次免费使用。但,大多数都是错的答案,就这样,想让我付费?
-加州lalin-
♀
(248 bytes)
()
05/08/2025 postreply
10:50:27
•
哈哈,主要我是用付费的。。。
-两女宝妈-
♀
(0 bytes)
()
05/08/2025 postreply
11:32:34
•
而且,我深度怀疑他们的大数据后面有不同的路径,导向不同的答案。如果是用人训练的
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:37:55
•
随着训练人才越来越多倾向用印度,咖喱味越来越多。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:38:54
•
我自己用的经验,Deep seek 最好,至少有对的内容,讨论几次后能得到想要的,不会错的太离谱
-linda2-
♀
(0 bytes)
()
05/08/2025 postreply
10:56:50
•
和我的经验一样。 Deep Seek的业绩最好, 各方面都好。
-24桥明月夜-
♀
(0 bytes)
()
05/08/2025 postreply
11:27:54
•
握手~
-linda2-
♀
(0 bytes)
()
05/08/2025 postreply
11:44:38
•
人类智力的基础是逻辑(数学) 和表达。LLM目前的应用都停留在表达上,内容是靠搜索不是思考。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:59:37
•
最近用了Claude,还不错
-qqdragon-
♀
(0 bytes)
()
05/08/2025 postreply
11:05:49
•
AI做AP cal 是不行,我娃自己错了一个选择题,用AI居然同样错法,物理也是类似,最后还是问老师了
-maplewind011-
♂
(0 bytes)
()
05/08/2025 postreply
12:18:02
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy