AI漫漫长路。最近用open AI, deep seek和 gemini 做AP calculus题目
OpenAI 最差劲,给出的答案80%是错的,还很自信的错。
Deep seek,啰嗦的不像话,大多数情况啰嗦半天没答案,或者错。出错率 60%, 但是比Open AI诚实。
Gemini 明显比上面两家好一点。做不出,能老老实实说解不了。没有混说的状态。
AP Calculus是好多工程项目的基础,就这样的水平,AI的现实离我们远着呢。
我没有试过Grok,主要是不喜欢用Twitter/X。不知道Grok如何。