2026 年 3 月 24 日,Arm 正式发布首款自研服务器芯片产品 ——Arm AGI CPU,这标志着 Arm 在成立超过 35 年的历史上首次从 IP 授权向自研硅产品延伸。这款芯片专门面向代理式 AI(Agentic AI)基础设施设计,旨在为千核级数据中心提供高吞吐、低功耗的计算基座。与此前业界关注 GPU 调度与移动端推理的视角不同,Arm AGI CPU 从 CPU 硬件架构层面重新定义了 AI 数据中心的计算范式。
从 IP 授权到自研硅产品:Arm 的战略转折
Arm AGI CPU 的发布是 Arm 公司历史上的里程碑式事件。长期以来,Arm 专注于 IP 授权业务,将自研的处理器架构授权给芯片厂商进行生产。然而,AI 基础设施的快速发展以及生态系统对生产级 Arm 平台的需求,推动 Arm 走向自研硅产品的道路。Arm AGI CPU 基于成熟的 Neoverse 平台架构设计,但以完整的产品形态交付给客户,客户可以直接部署或在此基础上进行定制。
这一转变反映了 AI 基础设施市场的根本性变化。随着代理式 AI 工作负载的兴起,AI 系统需要持续运行并处理海量分布式任务。传统上,人类是计算的瓶颈 —— 人机交互的速度决定了任务处理效率。但在代理式 AI 时代,软件代理能够自主协调任务、多模型交互并实时决策,消除了这一瓶颈。这对底层计算架构提出了全新要求:CPU 不再仅是通用计算单元,而是 AI 数据中心的核心编排层,负责协调数千个分布式任务、管理加速器、调度工作负载并在各系统间移动数据。
机架级计算密度:8160 至 45000 核心的部署规模
Arm AGI CPU 在硬件规格上实现了令人瞩目的机架级密度。其参考服务器配置采用 1OU(1 个开放计算单位)、双节点设计,每个刀片包含两颗芯片,总计 272 个核心。标准 36kW 风冷机架可部署 30 个刀片,总计提供 8160 个核心。Arm 还与 Supermicro 合作设计了 200kW 液冷方案,可容纳 336 颗 AGI CPU,实现超过 45000 个核心的部署规模。
这一部署密度背后的设计理念是将计算资源与内存、I/O 进行精细匹配。Arm AGI CPU 的每个核心都经过优化,能够在持续负载下保持高性能表现。传统的 x86 CPU 在核心数量增加时会出现性能衰减,因为核心间会争夺内存带宽资源。而 Arm AGI CPU 采用了业界领先的内存带宽架构,使得每个机架能够维持更多的有效执行线程。在大规模并行工作负载下,这种设计优势会被显著放大。
核心架构解析:Neoverse V3 与单线程效率
Arm AGI CPU 采用 Arm Neoverse V3 作为计算核心。Neoverse V3 是 Arm 面向数据中心推出的高性能 CPU 微架构,其单线程性能在业界处于领先地位。根据 Arm 公布的测试数据,Arm AGI CPU 在每机架性能上比最新的 x86 系统提升超过两倍。这一性能优势来源于三个层面的技术创新:
首先是内存带宽优势。Arm AGI CPU 的内存带宽设计使得每个核心都能获得充足的内存带宽,不会因为核心数量增加而出现带宽瓶颈。x86 CPU 在高并发场景下会因内存争用导致性能下降,而 Arm 架构在这一方面具有天然优势。其次是单线程效率。Neoverse V3 核心的每周期指令执行效率高于传统架构,意味着每个 Arm 线程能够完成更多工作。第三是能效比。Arm 架构的功耗效率传统上就是其核心竞争力,在 AI 基础设施场景中,这意味着更高的性能功耗比和更低的总拥有成本。
在 AI 基础设施的具体应用场景中,Arm AGI CPU 主要承担编排层工作负载。这包括加速器管理、代理式任务协调、服务与应用的大规模部署、网络与数据平面计算等。实际的神经网络推理任务仍然由 GPU 或专用加速器完成,但 CPU 作为整个系统的协调者,其性能直接影响整体系统的吞吐能力和响应延迟。
生态伙伴与商业落地
Arm AGI CPU 发布之初就获得了广泛的生态系统支持。Meta 作为领先合作伙伴,与 Arm 共同开发了这款芯片,以优化其千兆瓦级基础设施。Meta 计划将 AGI CPU 与其自研的 MTIA 加速器配合部署。其他发布合作伙伴包括 Cerebras、Cloudflare、F5、OpenAI、Positron、Rebellions、SAP 和 SK Telecom 等,涵盖 AI 基础设施提供商、云服务商、网络企业和企业软件领域。
商业系统现已接受订购,ASRockRack、Lenovo 和 Supermicro 均推出了基于 AGI CPU 的服务器产品。Arm 还发布了符合开放计算项目(OCP)DC-MHS 标准的 1OU 双节点参考服务器设计,计划将其贡献给开源社区,包括固件、架构规范、调试框架和验证工具。
在 AI 加速技术栈方面,Arm 构建了完整的软件生态。Arm NN SDK 作为开源运行时,能够桥接机器学习框架与 Arm CPU、GPU 和 NPU,提供跨硬件的优化执行路径。Arm Compute Library(ACL)提供针对 Arm 架构优化的底层内核,涵盖卷积、矩阵乘法和激活函数等核心操作。对于需要专用神经网络加速的场景,Arm 的 Ethos-N 系列 NPU 可提供 INT8 量化推理能力,与 AGI CPU 形成协同计算方案。
工程实践参数与部署考量
对于计划部署 Arm AGI CPU 的数据中心团队,以下参数值得关注:在标准风冷部署下,单机架功耗 36kW,可获得 8160 个 Neoverse V3 核心;如果采用液冷方案,单机架可扩展至 200kW 功耗,容纳超过 45000 个核心,适合追求极致密度的 AI 训练或大规模推理场景。内存配置需关注带宽匹配,Arm 建议采用高带宽内存方案以充分发挥每个核心的性能潜力。
在软件兼容性方面,Arm AGI CPU 与现有 Neoverse 软件生态保持兼容,已在 AWS Graviton、Google Axion、Microsoft Azure Cobalt 和 NVIDIA Vera 等平台上验证。主流 AI 框架和编译器已支持 Arm 架构,部署迁移成本可控。对于已有 x86 基础设施的团队,Arm 提供了参考架构和迁移指南,帮助评估从 x86 到 Arm 的 TCO 改善。
Arm AGI CPU 的发布预示着 AI 数据中心架构的演进方向 —— 从 GPU-centric 向 CPU-centric 的编排层与异构计算相结合。随着代理式 AI 工作负载的规模持续扩大,这类针对 AI 基础设施优化的 CPU 产品线将获得更广泛的采用。Arm 已承诺继续推出后续产品,目标是在性能、规模和效率方面保持领先。
资料来源:Arm Newsroom(https://newsroom.arm.com/blog/introducing-arm-agi-cpu)