前两天刚发布的o3的最高版本得分才是13%。BTW,DS是9.4%。
=======================================================
顺便介绍一下“人类最后的考试”这套题。。
人类最后的考试(HLE)是一项全球性的合作项目,由来自 50 个国家 500 多所院校的近千名学科专家提供试题,其中大部分是教授、研究人员和研究生学位获得者。
由3,000 多道选择题和简答题,涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科
这一套题用来测试各种AI模型的水平,有两个分数,一个是准确性。一个校准错误。
准确性。所有前沿模型在人类上次考试中的准确性都很低,这凸显了在缩小当前法学硕士与专家级学术能力在封闭式问题上的差距方面还有很大的改进空间。
校准错误。鉴于人类上次考试的表现较低,应该对模型进行校准,认识到它们的不确定性,而不是自信地提供不正确的答案,表明虚构/幻觉。为了测量校准,我们提示模型提供从 0% 到 100% 的答案及其置信度%.