人类最后的考试

来源: 2025-02-03 06:04:21 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

八卦大S津津乐道。AI不能聊?,

做调研报告的福音,OpenAI 最新发布Deep Research

自己查资料很辛苦,DS可做大量的基础调查,分析,并做出总结报告,

 

===============

考试成绩

人类最后的考试(HLE)是一项全球性的合作项目,由来自 50 个国家 500 多所院校的近千名学科专家提供试题,其中大部分是教授、研究人员和研究生学位获得者。

由3,000 多道选择题和简答题,涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科

这一套题用来测试各种AI模型的水平,有两个分数,一个是准确性。一个校准错误。

准确性。所有前沿模型在人类上次考试中的准确性都很低,这凸显了在缩小当前法学硕士与专家级学术能力在封闭式问题上的差距方面还有很大的改进空间。

校准错误。鉴于人类上次考试的表现较低,应该对模型进行校准,认识到它们的不确定性,而不是自信地提供不正确的答案,表明虚构/幻觉。为了测量校准,我们提示模型提供从 0% 到 100% 的答案及其置信度%.

 

但愿Deep Research 能到达L4