2026 年 3 月,ARC Prize 正式发布 ARC-AGI-3,这是该系列基准的第三个主要版本,也是首个面向交互式推理的 AGI 评估框架。与前两代侧重于静态谜题解决不同,ARC-AGI-3 将 AI 智能体的评估场景从 “给出固定答案” 转向 “通过探索与交互发现规则”,这一设计理念的转变标志着 AGI 评估范式的重要演进。

从静态推理到交互式推理的设计范式转移

ARC-AGI 系列基准最初旨在评估 AI 系统的泛化能力,其核心思路是通过大量形式多样但底层逻辑统一的视觉推理任务,检测模型是否真正理解了问题的抽象结构,而非依赖记忆或模式匹配。前两代基准(ARC-AGI-1 与 ARC-AGI-2)虽然成功暴露了现有前沿模型在泛化方面的显著短板,但其评估方式仍然停留在静态输出层面:智能体接收一个输入 grid,直接产生一个转换后的输出 grid,整个过程是一次性的、无状态的。

ARC-AGI-3 的设计哲学则截然不同。它将每个评估任务封装为一个完整的游戏环境,智能体需要在一个有状态的、动态演化的世界中执行一系列行动。这意味着智能体必须具备探索未知环境的能力、制定长期规划的能力、在稀疏反馈下调整策略的能力,以及持续记忆和利用中间信息的能力。用 ARC Prize 官方的话说,“100% 得分意味着 AI 智能体能够像人类一样高效地击败每一款游戏”。

这一设计背后的核心假设是:真正的通用智能不应该仅仅擅长解决已经明确表述的问题,而应该能够在完全陌生的环境中通过试错、学习和适应来达成目标。ARC-AGI-3 通过将评估任务游戏化,实现了这一理念的量化衡量。

核心设计原则与任务构造

ARC-AGI-3 的任务构造遵循四项核心原则。首先是易上手性:所有游戏环境对人类而言都是可以快速理解的,不存在需要专业知识或外部提示才能理解的抽象概念。其次是无先验知识:智能体不能依赖任何预加载的知识库、提示工程或记忆化的解决方案,每一次评估都是全新的学习过程。第三是明确目标与有意义反馈:每个游戏都有清晰的胜利条件,且智能体的每一个行动都会产生可观察的状态变化,从而提供持续的学习信号。第四是反记忆化:游戏设计确保无法通过暴力枚举或查表方式绕过真正的推理过程。

在实际评估中,ARC-AGI-3 采用了 100% 人类可解的环境集合。这些环境被组织为多个独立的 “游戏”,每个游戏包含若干个难度递增的关卡。智能体需要与游戏环境进行多轮交互,每一轮提交一个影响环境状态的行动(如移动、放置、转换等),环境随后返回新的状态信息。这种交互循环持续进行,直到智能体达成目标或耗尽允许的步数上限。

RHAE 评分机制的工程细节

ARC-AGI-3 引入了相对人类行动效率(Relative Human Action Efficiency,简称 RHAE)作为核心评分指标。这一指标的设计体现了对 “完成度” 与 “效率” 的双重关注。

在完成度维度上,评分系统会评估智能体在每个游戏中完成了多少个关卡。未完成的关卡不贡献任何分数。在效率维度上,系统会比较智能体完成任务所需的行动数与人类基准行动数。人类基准的建立方式尤为精细:每个游戏会由多个首次接触该游戏的人类玩家进行测试,取第二名玩家的行动数作为基准。选择 “第二名” 而非 “第一名” 是为了剔除极端异常值,同时保留真正代表熟练人类表现的数据;而 “首次接触” 的要求则确保基准反映的是人类在面对全新问题时的真实学习曲线,而非反复练习后的最优表现。

具体到每关的得分计算,公式为:关卡得分 =(人类基准行动数 ÷ 智能体行动数)²。例如,若人类基准需要 10 步完成某一关,而智能体同样使用了 10 步,则该关得分为 1.0(100%);若智能体使用了 20 步,得分则降至 0.25(25%);若智能体使用了 100 步,得分仅为 0.01(1%)。值得注意的是,这一得分存在上限:即使智能体发现了超越人类的捷径,最多也只能获得 1.0 分。ARC Prize 明确指出这一设计的动机是 “鼓励构建能在不同游戏间泛化的 AI,而非针对单个关卡的 exploit”。

在游戏级别的聚合上,ARC-AGI-3 采用了基于关卡序号的加权平均。具体而言,若一个游戏包含 7 个关卡,则每个关卡的权重等于其序号(第一关权重为 1,第二关权重为 2,以此类推)。这一设计使得较难的后期关卡在总分中占据更大权重,较简单的前期关卡权重较低,从而更准确地反映智能体在真正具有挑战性的任务上的表现。

最终的总分则是所有游戏得分的简单平均,范围落在 0% 到 100% 之间。100% 代表智能体在所有游戏的所有关卡上都达到了人类基准或以上的效率;0% 则意味着智能体在所有游戏中未能完成任何关卡。

与前代基准的关键差异

从 ARC-AGI-2 到 ARC-AGI-3 的演进,不仅体现在评估形式的转变上,更深层地反映了 AGI 评估思想的范式转换。前代基准衡量的是 “智能体能否识别并应用正确的转换规则”,而 ARC-AGI-3 衡量的是 “智能体能否在完全没有明确规则提示的情况下,通过与环境的多轮交互自行发现并应用有效策略”。前者测试的是静态模式匹配能力,后者测试的是动态学习与适应能力。

这一差异在实际评分上的体现是:即使一个模型在 ARC-AGI-2 上获得了高分,也并不意味着它在 ARC-AGI-3 上能够表现出色。事实上,早期测试已经揭示,即使是最先进的前沿模型,在 ARC-AGI-3 上的表现与人类之间仍存在显著差距。这一差距的存在,恰恰验证了 ARC Prize 团队的设计假设 —— 当前的 AI 系统在真正需要 “主动探索与学习” 的任务上,距离人类水平的通用智能仍有相当长的路程。

工程实践与监控要点

对于希望在 ARC-AGI-3 上取得进展的团队而言,有几个关键的工程实践值得关注。首先是探索策略的设计:由于环境规则是隐藏的,智能体需要能够在早期阶段进行系统性的探索性行动,而非急于追求目标;其次是记忆机制的实现:跨越多轮交互的信息保持和利用是完成复杂关卡的前提;再次是长期规划的可行性:在稀疏反馈环境下,智能体需要能够构建并维护一个关于游戏规则的内部模型,并基于该模型制定跨步骤的行动计划。

在监控层面,团队应重点关注每场游戏中智能体的关卡完成率、相对于人类基准的效率比率、以及在连续关卡中表现的一致性。特别值得追踪的是 “学习曲线”—— 智能体在前几次尝试与后续尝试中的表现变化,反映了其从经验中提取有效策略的能力。


资料来源:ARC Prize 官方技术文档(https://docs.arcprize.org/methodology)及 ARC-AGI-3 基准介绍页面(https://arcprize.org/arc-agi/3/)。