人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

AutoGPT 在新的测试中表现不佳GPT-4,这位自诞生以来一直以高分数著称的“优等生”,在一份新的测试中只拿到了15分,而人类能拿92分。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

这份名为 “GAIA” 的测试题是由来自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的团队制作的。它设计了一些需要一系列基本能力才能解决的问题,例如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单,但对大多数高级 AI 来说却极具挑战性。如果这些问题都能解决,那么通过测试的模型将成为 AI 研究的重要里程碑人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

GAIA 的设计理念和当前的很多 AI 基准不同,后者往往倾向于设计一些对人类来说越来越难的任务。这背后其实反映了当前社区对 AGI (通用人工智能)理解的差异。GAIA 背后的团队认为,AGI 的出现取决于系统能否在上述“简单”问题上表现出与普通人类似的稳健性。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

尽管 LLM (大型语言模型)能成功完成人类难以完成的任务,但能力最强的 LLM 在 GAIA 上的表现却不尽如人意。即使配备了工具,GPT-4在最简单的任务中的成功率也不超过30%,而在最难的任务中的成功率则为0%。与此同时,人类受访者的平均成功率为92%。

因此,如果一个系统能解决 GAIA 里的问题,我们就能在 t-AGI 系统中去评估它。t-AGI 是 OpenAI 工程师 Richard Ngo 构建的一套细化 AGI 评估系统,其中包括1-second AGI、1-minute AGI、1-hour AGI 等等,用来考察某个 AI 系统能否在限定时间里完成人类通常花相同时间可以完成的任务。作者表示,在 GAIA 测试中,人类通常需要6分钟左右回答最简单的问题,17分钟左右回答最复杂的问题。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

此外,该研究还设计了一个包含466个问题和答案的开发者集,其中166个问题和答案已经发布,另外300个问题则发布时不带答案。该基准以排行榜的形式发布。GAIA 是一项用于测试人工智能系统的基准,旨在评估它们在一般助理任务中的表现。该基准由人类设计和注释的问题组成,涵盖各种辅助性质的任务,例如个人日常任务、科学或常识问题。这些问题基于文本,有的附带文件(例如图像或电子表格),并且指向一个简短的、单一的正确答案,因此易于验证。

要使用 GAIA,只需向人工智能助手提出问题并附上依据(如有的话)。在 GAIA 上获得完美得分需要一系列不同的基本能力,包括推理、多模态理解、网页浏览和工具使用等。制作者在该项目的补充材料中提供了各种问题和元数据。

GAIA 的产生源于对人工智能基准的升级需求,以及当前广泛观察到的 LLM 评估的缺点。作者表示,设计 GAIA 的首要原则是针对概念上简单的问题,它们虽然对人类来说可能很乏味,但又多种多样,植根于现实世界,对当前的人工智能系统具有挑战性。这使得我们可以专注于基本能力,例如通过推理快速适应、多模态理解和潜在的多样化工具使用,而不是专业技能方面。

这些问题通常包括查找和转换从不同来源(例如提供的文档或开放且不断变化的网络)收集的信息,以产生准确的答案。要回答图1的示例问题,LLM 通常应该浏览网络查找研究,然后寻找正确的注册位置。这与此前基准体系的趋势相反,以前的基准对人类来说越来越困难,和 / 或在纯文本或人工环境中操作。

GAIA 的第二个原则是可解释性。与题海相比,精心策划的问题数量有限,使得新基准更易于使用。该任务概念简单(人类成功率为92%),使用户很容易理解模型的推理轨迹。对于图1中的1级问题,推理跟踪主要包括检查正确的网站,并报告正确的数字,这很容易验证。

GAIA 的第三个原则是对记忆的鲁棒性:GAIA 的目标是比大多数当前基准测试的猜题可能性更低。为了完成一项任务,系统必须计划好并成功完成一些步骤。因为根据设计,当前预训练数据中没有以纯文本形式生成结果答案。准确性的进步反映了系统的实际进步。由于它们的多样性和行动空间的大小,这些任务不能在不作弊的情况下被暴力破解,例如通过记住基本事实。尽管数据污染可能导致额外的正确率,但答案所需的准确性、答案在预训练数据中的缺失以及检查推理轨迹的可能性减轻了这种风险。

相反,多项选择答案使污染评估变得困难,因为错误的推理痕迹仍然可以得出正确的选择。如果尽管采取了这些缓解措施,还是发生了灾难性记忆问题,那么使用作者在论文中提供的指南很容易设计新问题。

GAIA 的最后一个原则是易用性。其中的任务是简单的提示,可能会附带一个附加文件。最重要的是,问题的答案是事实、简洁且明确的。这些属性允许简单、快速和真实的评估。问题旨在测试 zero-shot 能力,限制评估设置的影响。相反,许多 LLM 基准要求对实验设置敏感的评估,例如提示的数量和性质或基准实现。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

现有模型的跑分

GAIA 的设计使得大模型智能水平的评估自动化、快速且真实。实际上,除非另有说明,每个问题都需要一个答案,该答案可以是字符串(一个或几个单词)、数字或逗号分隔的字符串或浮点数列表,但只有一个正确答案。因此,评估是通过模型的答案和基本事实之间的准精确匹配来完成的(直到与基本事实的「类型」相关的某种归一化)。系统(或前缀)提示用于告知模型所需的格式,请参见图2。

实际上,GPT4级别模型很容易遵循 GAIA 的格式。GAIA 已提供了评分功能和排行榜。

目前只测试了大模型领域的「标杆」,OpenAI 的 GPT 系列,可见不管哪个版本分数都很低,Level3的得分还经常是零分。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

使用 GAIA 评估 LLM 只需要能够提示模型,即有 API 访问权限即可。在 GPT4测试中,最高分数是人类手动选择插件的结果。值得注意的是,AutoGPT 能够自动进行此选择。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

只要 API 可用,测试时就会运行该模型3次并报告平均结果。

图4:每种方法和级别的分数和回答时间。人类在92分题中胜出,GPT-4仅获15分:测试升级暴露大模型的弱点

总体而言,人类在问答中的各个层面都表现出色,但目前最好的大模型显然表现不佳。作者认为,GAIA 可以对有能力的 AI 助手进行清晰的排名,同时在未来几个月甚至几年内留下很大的改进空间。

不过从回答花费的时间上来看,像 GPT-4这样的大模型有潜在的可以替代现有搜索引擎的能力。没有插件的 GPT4结果与其他结果之间的差异表明,通过工具 API 或访问网络来增强 LLM 可以

暂无评论

暂无评论...