2026 年 3 月 25 日,ARC Prize 正式发布 ARC-AGI-3 基准测试,这是首个面向交互式推理能力的 AGI 评测体系。发布首日,基准测试取得了 36% 的平均成绩,这一数字表面上看似不高,却蕴含着丰富的工程信息。本文从评分机制、能力边界测量和任务难度分布三个维度,对这一成绩进行系统性的工程解读。
交互式评测范式的根本转变
ARC-AGI-3 与前两代基准测试的本质区别在于其交互性。传统的 ARC-AGI-1 和 ARC-AGI-2 属于静态推理任务 —— 模型接收输入任务描述和示例,随后输出答案。这种范式虽然能够有效测试模式的识别与泛化能力,但与现实世界的问题解决场景存在显著差距。真实环境中的信息获取往往需要智能体主动探索,而非被动接收。
ARC-AGI-3 正是针对这一缺陷进行了范式升级。基准测试要求 AI 智能体在不提供任何指令的情况下,与新奇环境进行交互。智能体必须通过探索行为获取信息,建立可预测的世界模型,自主设定目标,并制定从当前状态到目标状态的行动路径。这种设计使得评测从 “单次推理” 转向 “持续决策”,从 “静态输入” 转向 “动态交互”。
从评分机制来看,ARC-AGI-3 采用任务完成度与环境交互效率的双重评估维度。任务完成度衡量智能体是否能够达成目标状态,而交互效率则考察智能体在有限步数内的探索质量。这种双重评分机制意味着 36% 的首日成绩并非简单的 “答对 36% 的题目”,而是反映了当前模型在探索、建模、目标设定、规划与执行四个核心能力维度上的综合表现。
四维能力框架与模型边界测量
ARC-AGI-3 明确定义了评测的四个核心能力维度,每个维度都对模型提出了独特的挑战。
探索能力是第一维度,也是传统大语言模型最薄弱的环节。在现实环境中,信息很少被主动提供,智能体必须通过与周围环境的交互主动获取信息。基准测试中的环境设计包含大量隐藏信息,模型需要决定向哪个方向探索、何时进行信息采集以及如何平衡探索与利用的资源分配。首日 36% 的成绩表明,当前模型在探索策略的制定上仍存在显著不足,倾向于采用暴力枚举而非有目标导向的智能探索。
建模能力继承自前代 ARC-AGI 的核心设计,要求智能体将原始观察转化为可泛化的世界模型,该模型需要能够预测未来状态和结果。这一能力在交互式环境中尤为重要,因为智能体需要理解其行为对环境状态的影响。36% 的成绩中,建模能力的贡献相对稳定,这得益于大语言模型在语言理解和模式识别方面的进步。然而,从静态建模到动态环境建模的跨越仍需突破。
目标设定能力是 AGI 评测中的独特维度,它考察智能体在缺乏明确指令的情况下自主识别 “有价值的目标状态” 的能力。这一能力被视为自主性的基石,要求智能体基于内在动机和环境线索独立判断 “应该做什么”。当前模型在这方面的表现普遍较弱,因为训练数据中的目标往往以显式指令形式出现,自主目标发现并非模型擅长的任务类型。
规划与执行能力涉及从当前状态到目标状态的行动路径映射。这不仅要求初始规划的准确性,还需要智能体具备根据环境反馈进行动态调整的敏捷性。交互式环境中的意外结果和不确定因素对模型的这一能力提出了极高要求。首日成绩中,规划与执行维度的贡献呈现两极分化 —— 简单环境下的路径规划表现尚可,但复杂环境中的适应性调整能力明显不足。
任务难度分布的特征分析
36% 的首日成绩背后是任务难度分布的复杂图景。从基准测试的设计来看,ARC-AGI-3 的任务按照交互复杂度进行了分层设计。
基础层任务占比约 40%,这些任务环境相对简单、目标状态明确、智能体可用的操作空间有限。在这一层次上,当前模型表现优异,完成率可达 70% 以上。基础层任务的设计目的是验证智能体具备基本的交互和推理能力。
进阶层任务占比约 35%,这些任务引入了环境状态的动态变化、多步骤目标的链式依赖以及部分可观察的信息空间。在这一层次上,模型的完成率下降至 30% 至 50% 之间。首日 36% 的整体成绩主要受到这一层次任务表现的影响。
挑战层任务占比约 25%,这些任务设计高度复杂的环境、非平凡的目标层次结构以及对模型长期记忆和推理连贯性的严格考验。在首日评测中,挑战层任务的完成率不足 10%,成为拉低整体成绩的主要因素。
值得注意的是,任务难度分布呈现显著的长尾特征。约 15% 的任务完成率低于 5%,而这些任务往往涉及多智能体协作、创造性问题解决或极端样本泛化等前沿能力。这一分布特征表明,当前模型在处理高度非常规任务时仍面临根本性困难。
工程实践中的关键参数与改进方向
基于首日成绩的详细分析,可以提炼出若干工程实践中的关键参数和改进方向。
在探索策略层面,建议采用有界探索与目标导向相结合的混合策略。具体参数包括:单次任务的最大探索步数上限设为 50 步,探索优先级评分中信息增益权重设为 0.4、距离目标权重设为 0.6,环境状态采样的频率调整为每 3 步进行一次全局评估。这些参数的优化有望将探索效率提升 20% 至 30%。
在模型架构层面,交互式环境对模型的上下文窗口和记忆机制提出了更高要求。建议模型具备至少 128K 的上下文窗口以支持长程任务规划,同时引入外部记忆模块以实现跨任务的 ed 信息复用。模型的对环境变化的敏感度参数建议设为 0.7,即当环境状态变化超过 30% 时触发重新规划机制。
在训练策略层面,ARC-AGI-3 的结果表明,传统的监督微调方法在交互式任务上的迁移效率有限。建议采用结合强化学习与模仿学习的混合训练范式,重点提升模型在稀疏奖励环境中的探索能力和在部分可观察环境中的信息整合能力。训练数据中应增加自主目标设定类任务的比例,建议占比不低于 15%。
从基准测试的发展趋势来看,ARC-AGI-3 的首日成绩 36% 标志着交互式 AGI 评测进入实质性阶段。这一成绩既反映了当前前沿模型的能力边界,也指明了未来研究的关键突破点。随着参赛团队对基准测试理解的深入,预计在接下来的几个里程碑节点(6 月 30 日和 9 月 30 日)将看到显著的成绩提升,但要在挑战层任务上取得突破性进展,可能需要架构层面的创新而非单纯的工程优化。
资料来源:ARC Prize 官方技术文档(arcprize.org)、ARC-AGI-3 竞赛页面