GPT5 来了

经济价值型任务表现

在 OpenAI 内部一个评估基准上,GPT5 同样表现卓越,该测试专门评估模型在复杂、经济价值知识型工作上的表现。在启用推理功能时,GPT?5 在大约半数案例中的表现达到或超越人类专家水平,同时在法律、物流、销售、工程等 40 多个职业领域的综合任务表现上全面优于 o3 模型和 ChatGPT Agent。

所有跟帖: 

据说没有大的突破,业界很失望的 -12度圆缺- 给 12度圆缺 发送悄悄话 12度圆缺 的博客首页 (0 bytes) () 08/07/2025 postreply 13:53:30

比别的模型更强就行。要是真的AGI,咱们也没有存在的必要了 -ClearCase- 给 ClearCase 发送悄悄话 ClearCase 的博客首页 (0 bytes) () 08/07/2025 postreply 13:55:00

說了很久了,當下的LLM基本上到頭了,除非有基礎模型突破 -喀爾判0715- 给 喀爾判0715 发送悄悄话 (0 bytes) () 08/07/2025 postreply 14:01:22

Inch improvement. 以后是应用多了 -挖矿- 给 挖矿 发送悄悄话 挖矿 的博客首页 (0 bytes) () 08/07/2025 postreply 14:21:50

應用也很crappy,你去看看什麼是RAG,等於你上完課去考試得帶八個TA輔助你考試 -喀爾判0715- 给 喀爾判0715 发送悄悄话 (0 bytes) () 08/07/2025 postreply 14:39:30

现在已经是CAG了。 -ClearCase- 给 ClearCase 发送悄悄话 ClearCase 的博客首页 (0 bytes) () 08/07/2025 postreply 15:31:00

Hallucination下降了很多,是很大进步 -风景线2- 给 风景线2 发送悄悄话 (0 bytes) () 08/07/2025 postreply 14:35:28

AI,AI,夢幻迷彩。。。 -喀爾判0715- 给 喀爾判0715 发送悄悄话 (0 bytes) () 08/07/2025 postreply 14:42:07

放心了,娃们的工作很长时间都没有问题。 -katies- 给 katies 发送悄悄话 (0 bytes) () 08/07/2025 postreply 14:38:06

“ClearCase”这是要“搞事情 -醉过风喝过茶- 给 醉过风喝过茶 发送悄悄话 (1008 bytes) () 08/14/2025 postreply 11:56:11

请您先登陆,再发跟帖!