Hypura 存储层感知调度器：NVMe 与统一内存的动态资源分配策略

在大语言模型本地化部署场景中，Apple Silicon 的统一内存架构提供了独特的优势，但也带来了内存容量受限的挑战。Hypura 作为一款专为 Apple Silicon 设计的存储层感知调度器，通过智能划分计算资源突破了物理内存限制，使超出内存容量的模型能够在本地高效运行。

存储层感知调度架构解析

Hypura 的核心设计理念是将模型张量分布在三个不同的存储层级：GPU 内存层、系统 RAM 层和 NVMe 存储层。每个层级具有不同的带宽和延迟特性，调度器需要根据张量的访问频率和计算时序做出动态决策。最热的张量保留在 GPU 内存中以获得最低延迟，次热的张量驻留在 RAM 中利用统一内存架构的高速带宽，而冷数据则 spill 到 NVMe 以释放宝贵的内存空间。

这种分层策略的理论基础在于 LLM 推理的计算模式具有明显的时空局部性。在自回归生成过程中，当前 token 的计算需要访问注意力机制的 KV 缓存，这些数据在短期内会被频繁读取。同时，模型的不同层和不同专家模块在推理过程中并非同时活跃，这为跨层调度创造了机会。Hypura 通过实时监控张量的访问模式，动态调整其在三层存储中的位置，从而在有限硬件条件下实现更大的模型容量。

统一内存架构的调度优势

Apple Silicon 的统一内存架构（Unified Memory Architecture，UMA）为 Hypura 提供了独特的调度便利。在传统离散内存系统中，CPU 和 GPU 之间的数据迁移需要显式的内存拷贝操作，这不仅增加延迟还会消耗 PCIe 带宽。而在统一内存架构下，CPU 和 GPU 共享同一物理内存池，调度器可以直接访问不同层级的数据而无需进行冗余复制。

这一特性对于 NVMe offload 策略尤为重要。当模型参数超出内存容量时，Hypura 可以将不活跃的张量卸载到 NVMe，并在需要时通过统一内存直接加载到 GPU 访问地址空间，避免了传统系统中的多次拷贝开销。实际测试表明，在 M 系列芯片上，NVMe 读取延迟虽然高于 RAM，但通过统一内存路径的数据预取可以有效隐藏部分延迟，使整体推理吞吐量保持在可接受范围内。

动态调度参数与配置建议

针对不同的模型规模和硬件配置，Hypura 提供了可调节的调度参数以平衡延迟与吞吐量。首先是层间调度阈值（tier_threshold），该参数控制何时将张量从 GPU 内存下沉到 RAM 或 NVMe，建议值为 0.3 至 0.5，即当张量在最近 32 次推理中未被访问超过设定比例时触发下沉。其次是预取窗口大小（prefetch_window），用于提前将即将使用的张量从慢速存储加载到快速内存，对于 MoE 模型建议设置为 2 至 3 层，对于密集模型可适当增大。

对于统一内存配置的 Mac 设备，建议将 NVMe 视为紧急备选层而非常用缓存层。实际操作中，可以先将 GPU 内存和 RAM 视为一体化的快速存储池，仅在模型参数量超过两者之和的 1.5 倍时才启用 NVMe 分页。此外，Hypura 支持为不同模型层设置差异化策略，注意力层通常需要更激进的预取以降低首 token 延迟，而前馈网络层可以容忍更高的延迟以换取更大的压缩比。

监控指标与性能调优

有效的调度策略需要配套的监控体系来验证效果。核心监控指标包括每层存储的命中率（hit_rate）、NVMe 读取带宽占用率以及端到端推理延迟的标准差。当 NVMe 带宽占用率持续超过 60% 时，表明慢速存储已成为瓶颈，此时应考虑减少并发请求数或降低 batch size 以减少数据搬运量。

对于 MoE 模型的特殊优化，Hypura 提供了专家级调度模式（expert-level scheduling）。该模式下调度器会追踪每个专家模块的活跃状态，将当前不参与计算的专家完整卸载到 NVMe，仅在需要激活时通过统一内存路径加载。由于 MoE 模型的总参数量通常远大于活跃参数量，这种策略可以显著扩大可运行模型规模，代价是专家切换带来的额外延迟。实际调优中，建议在首 token 延迟预算允许的范围内设置专家预激活机制，提前将下一层可能调用的专家加载到 RAM 层。

通过合理配置上述参数和监控策略，Hypura 能够在 Apple Silicon 上实现超过物理内存容量的大模型推理，同时将延迟控制在可接受范围内。这种存储层感知的调度方式为本地 LLM 部署提供了新的工程化路径。

资料来源：Ben's Bites 报道 [1]