这个厉害了，open AI刚刚发布最新版本在“人类最后的考试” 拿下26.6% 的高分

未完的歌 · 2025-02-02 17:54:59Z

这个厉害了，open AI刚刚发布最新版本在“人类最后的考试” 拿下26.6% 的高分简介

来源: 未完的歌于 2025-02-02 17:54:59 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (10888 bytes)

本帖于 2025-02-02 18:07:32 时间, 由普通用户未完的歌编辑

前两天刚发布的o3的最高版本得分才是13%。BTW，DS是9.4%。

=======================================================

顺便介绍一下“人类最后的考试”这套题。。

人类最后的考试（HLE）是一项全球性的合作项目，由来自 50 个国家 500 多所院校的近千名学科专家提供试题，其中大部分是教授、研究人员和研究生学位获得者。

由3,000 多道选择题和简答题，涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科

这一套题用来测试各种AI模型的水平，有两个分数，一个是准确性。一个校准错误。

准确性。所有前沿模型在人类上次考试中的准确性都很低,这凸显了在缩小当前法学硕士与专家级学术能力在封闭式问题上的差距方面还有很大的改进空间。

校准错误。鉴于人类上次考试的表现较低,应该对模型进行校准,认识到它们的不确定性,而不是自信地提供不正确的答案,表明虚构/幻觉。为了测量校准,我们提示模型提供从 0% 到 100% 的答案及其置信度%.

您的位置：文学城 » 论坛 » AI 潮流社 » 这个厉害了，open AI刚刚发布最新版本在“人类最后的考试” 拿下26.6% 的高分

• 这个是真的吗？ -种西瓜- ♂ (234 bytes) () 02/02/2025 postreply 18:08:47

• 目前看大概是这样的 -未完的歌- ♂ (258 bytes) () 02/02/2025 postreply 18:31:14