英国研究发现,AI回答历史问题时漏洞百出。用AI抄袭中国近现代史的人要小心了。网上近现代史99%反映中共意图

本帖于 2025-01-19 09:40:10 时间, 由普通用户 yzout 编辑

人工智能可能擅长某些任务,例如编码或制作播客。但一篇新论文发现,它很难通过高级历史考试。

一个研究小组创建了一个新的基准,以测试三个顶级大型语言模型 (LLM)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini——在历史问题上的表现。基准 Hist-LLM 根据 Seshat 全球历史数据库测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

奥地利研究机构复杂性科学中心 (CSH) 的研究人员表示,上个月在备受瞩目的人工智能会议 NeurIPS 上公布的结果令人失望。表现最好的 LLM 是 GPT-4 Turbo,但准确率仅为 46% 左右——比随机猜测高不了多少。

“这项研究的主要结论是,虽然 LLM 令人印象深刻,但仍然缺乏高级历史所需的理解深度。 “它们在基本事实方面很出色,但在更细致入微的博士级历史调查方面,它们还无法胜任,”该论文的合著者之一、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 说道。

研究人员与 TechCrunch 分享了LLM答错的历史问题样本。例如,GPT-4 Turbo 被问及古埃及特定时期是否存在鳞甲。LLM说是的,但这项技术直到 1500 年后才出现在埃及。

为什么LLM在回答技术性历史问题方面表现不佳,而他们却能很好地回答关于编码等非常复杂的问题?Del Rio-Chanona 告诉 TechCrunch,这可能是因为法学硕士倾向于从非常突出的历史数据中推断,很难检索到更晦涩的历史知识。

例如,研究人员问 GPT-4 古埃及在特定历史时期是否有一支职业常备军。虽然正确答案是否定的,但LLM却错误地回答说有。这可能是因为有很多关于其他古代帝国(如波斯)拥有常备军的公开信息。


“如果有人告诉你 A 和 B 100 次,C 1 次,然后问你一个关于 C 的问题,你可能只会记住 A 和 B 并尝试从中推断,”del Rio-Chanona 说。

研究人员还发现了其他趋势,包括 OpenAI 和 Llama 模型在某些地区(如撒哈拉以南非洲)的表现更差,这表明它们的训练数据可能存在偏差。

研究负责人、CSH 教员 Peter Turchin 表示,结果表明,在某些领域,LLM 仍然无法替代人类。

但研究人员仍然希望 LLM 将来能够帮助历史学家。他们正在努力完善基准,包括更多来自代表性不足地区的数据和添加更复杂的问题。

“总体而言,虽然我们的结果突出了 LLM 需要改进的领域,但它们也强调了这些模型在历史研究方面的潜力,”论文中写道。

请您先登陆,再发跟帖!