AI漫漫长路。最近用open AI, deep seek和 gemini 做AP calculus题目

来源: 2025-05-08 10:19:23 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

OpenAI 最差劲,给出的答案80%是错的,还很自信的错。

Deep seek,啰嗦的不像话,大多数情况啰嗦半天没答案,或者错。出错率 60%, 但是比Open AI诚实。

Gemini 明显比上面两家好一点。做不出,能老老实实说解不了。没有混说的状态。

AP Calculus是好多工程项目的基础,就这样的水平,AI的现实离我们远着呢。

我没有试过Grok,主要是不喜欢用Twitter/X。不知道Grok如何。