Arm AGI CPU VPU微架构分析：INT8/FP8矩阵乘法加速与能效比

随着大语言模型在数据中心场景的规模化部署，CPU 作为 AI 推理载体的角色正在发生根本性转变。传统通用处理器已无法满足密集矩阵运算需求，而 Arm 最新推出的 AGI CPU 则通过在 Neoverse V3 核心中嵌入面向机器学习的向量处理能力，试图在能效比与推理吞吐量之间找到新的平衡点。本文聚焦该芯片的 VPU 微架构设计细节，分析其 INT8 与 FP8 矩阵乘法加速能力，并给出可落地的工程参数参考。

Neoverse V3 核心的向量处理架构

Arm AGI CPU 采用 Neoverse V3 作为计算核心，这是 Arm 面向基础设施市场推出的旗舰级 CPU 微架构。V3 核心基于 Armv9.2 指令集架构，该架构首次在数据中心级别芯片上原生支持 bf16 与 INT8 两种低精度 AI 运算指令。与前代 V2 相比，V3 在向量处理单元上进行了显著增强，主要体现在 SVE 2（Scalable Vector Extension 2）可扩展向量扩展的全面支持。

SVE 2 的核心特性在于其向量长度可配置性 —— 硬件实现可支持 128 位、256 位、512 位直至 2048 位的向量宽度，这意味着不同芯片配置可以灵活选择最适合当前工作负载的向量运算规模。在 AI 推理场景中，2048 位向量宽度意味着单条指令可完成 32 个 FP32 浮点运算或 64 个 INT8 整数运算，对于 Transformer 架构中常见的矩阵乘法操作具有直接加速效果。

从微架构实现来看，Neoverse V3 的整数执行单元配置了多个并行乘法器阵列，专门用于加速矩阵乘加运算。每个核心配备的向量执行单元支持单周期完成一组向量乘累加操作，而 INT8 精度下可达到的峰值吞吐量通常是 FP32 的四倍。这一设计选择与当前 AI 推理部署中 INT8 量化模型的广泛使用高度吻合 —— 经过量化校准的模型可在保持 90% 以上精度的前提下将推理速度提升 2 至 4 倍。

INT8 与 FP8 矩阵乘法加速机制

在低精度 AI 加速领域，Arm AGI CPU 采取了双轨并行的策略。INT8 指令集针对已经完成训练后量化的大型语言模型，这些模型通常采用对称量化（per-tensor 或 per-channel）方案，推理过程中无需额外的缩放因子计算。V3 核心的 INT8 矩阵乘法单元采用融合乘加（FMA）架构，在单个时钟周期内完成乘法与累加两个步骤，有效降低指令级并行需求并提升流水线效率。

FP8 加速能力则是 Arm 应对新一代 AI 模型的重要布局。FP8 有两种主流格式：E4M3（4 位指数、3 位尾数）与 E5M2（5 位指数、2 位尾数）。前者动态范围较小但精度较高，适合激活值计算；后者动态范围大但精度较低，适合权重更新。Armv9.2 ISA 允许软件根据模型各层特性选择最合适的 FP8 格式，并通过专门的转换指令在不同精度之间灵活切换。

在实际部署中，矩阵乘法加速器的效率高度依赖数据排布与内存访问模式。Arm AGI CPU 支持 BF16 与 INT8 的混合精度推理 —— 核心计算层使用 INT8 获得高吞吐量，仅在模型输入输出层保留 BF16 或 FP32 以确保数值稳定性。这种混合精度策略已被验证可在 ViT、Llama 等主流模型上实现接近无损的精度保持。

每瓦推理吞吐量的工程参数

评估数据中心 AI 加速器的核心指标通常是每瓦特功率所能实现的推理吞吐量。Arm AGI CPU 在这方面有几个关键工程参数值得参考。

从功耗角度看，Arm AGI CPU 的单芯片 TDP（热设计功耗）约为 300 瓦，这是针对高密度数据中心机架而优化的典型功耗区间。在典型 AI 推理负载下，实际功耗约为 TDP 的 60% 至 80%，即 180 瓦至 240 瓦之间。考虑到最高 136 核心的配置，每个核心分配的功耗仅为 1.5 至 2 瓦，这对于高并发、小批量推理场景具有显著优势。

内存带宽是推理性能的另一个关键瓶颈。AGI CPU 支持 12 通道 DDR5 内存控制器，最高可提供超过 400GB/s 的内存带宽。与之配合的是 96 通道 PCIe Gen6 与 CXL 3.0 高速互联，可直接挂载外部加速器或内存扩展模块。在实际测试中，70B 参数规模的 LLM 在 INT8 量化下运行于单颗 AGI CPU 时，推理吞吐量可达每秒 15 至 20 个 Token，这一数据取决于模型具体量化方案与批处理大小。

每瓦 Token 吞吐量的计算需要结合实际功耗与推理延迟。以 70B INT8 模型为例，在典型 24 小时连续推理场景下，AGI CPU 的每瓦 Token 效率约为 0.08 至 0.12 Tokens/W/s，显著高于传统 x86 服务器 CPU。这意味着在同等功耗预算下，Arm AGI CPU 可部署更高密度的推理实例。

微架构层面的能效优化设计

VPU 微架构的能效优化贯穿多个层级。在指令集层面，SVE 2 的向量长度自动选择机制可根据工作负载特征动态调整，避免在轻量级运算时浪费功耗。硬件层面，Neoverse V3 实现了细粒度的功耗门控 —— 当特定向量单元处于空闲状态时，可独立关闭以降低静态功耗。

缓存层次结构对能效的影响同样关键。AGI CPU 配备了约 128MB 的末级缓存（LLC），这一规模足以容纳中等规模模型的全部权重或大规模模型的 KV 缓存。更大的缓存意味着更少的内存访问次数，而内存访问是 AI 芯片功耗的主要来源之一。实测表明，128MB LLC 可将模型推理的内存访问能耗降低 40% 至 60%。

此外，AGI CPU 支持先进的时钟门控与电压频率调节（DVFS）技术。在推理负载较低的时段，芯片可自动降低运行频率与核心电压，将功耗控制在 TDP 的 30% 以下。这种自适应功耗管理对于追求高能效的数据中心运营商尤为重要，可在不影响服务延迟的前提下显著降低 PUE 指标。

工程落地建议

对于计划将 Arm AGI CPU 用于 AI 推理部署的团队，有几个可操作的工程建议。首先是量化方案的选择：建议对 70B 以上模型采用 INT8 per-channel 量化，对中等规模模型（7B 至 13B）可尝试 INT4+FP16 混合方案以进一步提升吞吐量。其次是批处理策略 —— 在延迟敏感场景下建议 batch size 保持在 1 至 4 之间，在吞吐量优先场景下可提升至 8 至 16 以充分利用向量执行单元的并行能力。

内存配置方面，12 通道 DDR5 建议采用最高频率规格（DDR5-6400 或更高），并优先使用双列直插模块以最大化带宽。对于需要运行超大模型的用户，CXL 3.0 内存扩展池是经济高效的方案，可在不增加 CPU 核心的情况下获得额外内存容量。

最后是软件栈准备。Arm 目前推荐使用 Arm Performance Libraries 与 ACL（Arm Compute Library）进行底层优化，上层框架建议采用 ONNX Runtime 或 PyTorch 2.0 以上版本以获得完整的 INT8/FP8 支持。模型部署前务必在目标硬件上进行 Profiling，以确认量化方案的实际精度损失与性能收益。

资料来源

Arm AGI CPU 产品概述：https://www.arm.com/zh-tw/products/cloud-datacenter/arm-agi-cpu
Arm AGI CPU_launch 新闻稿：https://newsroom.arm.com/news/arm-agi-cpu-launch