AI漫漫长路。最近用open AI, deep seek和 gemini 做AP calculus题目

OpenAI 最差劲,给出的答案80%是错的,还很自信的错。

Deep seek,啰嗦的不像话,大多数情况啰嗦半天没答案,或者错。出错率 60%, 但是比Open AI诚实。

Gemini 明显比上面两家好一点。做不出,能老老实实说解不了。没有混说的状态。

AP Calculus是好多工程项目的基础,就这样的水平,AI的现实离我们远着呢。

我没有试过Grok,主要是不喜欢用Twitter/X。不知道Grok如何。

所有跟帖: 

Grok 是目前最棒的 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:20:00

Twitter让我却步。要想想是否用。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (200 bytes) () 05/08/2025 postreply 10:24:04

OpenAI 要用对model 不同的表现差很多 GEMINI 承认错误最彻底 每次都是发至内心的检讨 但表现差 -挖矿- 给 挖矿 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:21:19

Gemini 实诚。 Open AI最滑头,就是骗子。Deep Seek是个不懂装懂 啰啰嗦嗦的砖头。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:25:36

同意 OpenAI 最接近印度思维 第三次开始偷懒 cut corner -挖矿- 给 挖矿 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:27:16

哎,我看答案,脑补画面就是对面坐着一个摇头的阿三 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:28:19

哈哈 -凊荷- 给 凊荷 发送悄悄话 凊荷 的博客首页 (0 bytes) () 05/08/2025 postreply 10:29:17

哈哈哈。 尤其是大语言模型, 要达到解微积分,阻碍很大。 -24桥明月夜- 给 24桥明月夜 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:22:31

Open AI 要用O3 or O4mini 这个才是reasoning model -凊荷- 给 凊荷 发送悄悄话 凊荷 的博客首页 (240 bytes) () 05/08/2025 postreply 10:24:34

用的就是O4 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:25:56

也这么差啊 -凊荷- 给 凊荷 发送悄悄话 凊荷 的博客首页 (0 bytes) () 05/08/2025 postreply 10:28:44

态度很好,我说你答案错,他就再做一遍,换个错法。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:29:53

很热情,说个没完没了。Gemini强不少。哦,还有个 -凊荷- 给 凊荷 发送悄悄话 凊荷 的博客首页 (34 bytes) () 05/08/2025 postreply 10:31:26

both OpenAI 和deep Seek都会卡壳,自己编不下去。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:41:23

人脑的复杂性, AI 一时代替不了 -恒妈- 给 恒妈 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:28:56

做不好数学的Ai, 都是骗子。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:30:25

試試AIME? 上次不是說AIME的題都可以做了? -violinpiano- 给 violinpiano 发送悄悄话 (0 bytes) () 05/08/2025 postreply 10:33:16

靠题库?AP calculus没啥题库。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:36:05

你用的是免费还是付费的,Open AI? -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 05/08/2025 postreply 10:37:41

O4手机版每天有几次免费使用。但,大多数都是错的答案,就这样,想让我付费? -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (248 bytes) () 05/08/2025 postreply 10:50:27

哈哈,主要我是用付费的。。。 -两女宝妈- 给 两女宝妈 发送悄悄话 两女宝妈 的博客首页 (0 bytes) () 05/08/2025 postreply 11:32:34

而且,我深度怀疑他们的大数据后面有不同的路径,导向不同的答案。如果是用人训练的 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:37:55

随着训练人才越来越多倾向用印度,咖喱味越来越多。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:38:54

我自己用的经验,Deep seek 最好,至少有对的内容,讨论几次后能得到想要的,不会错的太离谱 -linda2- 给 linda2 发送悄悄话 linda2 的博客首页 (0 bytes) () 05/08/2025 postreply 10:56:50

和我的经验一样。 Deep Seek的业绩最好, 各方面都好。 -24桥明月夜- 给 24桥明月夜 发送悄悄话 (0 bytes) () 05/08/2025 postreply 11:27:54

握手~ -linda2- 给 linda2 发送悄悄话 linda2 的博客首页 (0 bytes) () 05/08/2025 postreply 11:44:38

人类智力的基础是逻辑(数学) 和表达。LLM目前的应用都停留在表达上,内容是靠搜索不是思考。 -加州lalin- 给 加州lalin 发送悄悄话 加州lalin 的博客首页 (0 bytes) () 05/08/2025 postreply 10:59:37

最近用了Claude,还不错 -qqdragon- 给 qqdragon 发送悄悄话 (0 bytes) () 05/08/2025 postreply 11:05:49

AI做AP cal 是不行,我娃自己错了一个选择题,用AI居然同样错法,物理也是类似,最后还是问老师了 -maplewind011- 给 maplewind011 发送悄悄话 (0 bytes) () 05/08/2025 postreply 12:18:02

请您先登陆,再发跟帖!