人工智能模型的规模指数级增长带来了严峻的能耗挑战。训练单个大型语言模型可能消耗数千兆瓦时的电力,这一数字已经接近甚至超过某些中小型国家的年度用电量。传统冯・诺依曼架构中计算单元与存储单元的物理分离导致了严重的数据搬移开销,成为能效瓶颈的核心根源。剑桥大学材料科学团队近期发表的阻变存储器(memristor)研究成果提供了一条可行的工程化解决路径:通过在单一器件内实现计算与存储的融合,理论上可将 AI 推理能耗降低一个数量级。
神经形态计算的基本原理与材料需求
传统计算架构遵循存储与计算分离的设计范式:处理器从内存中读取数据、完成计算后再写回内存。这一过程在深度神经网络的前向传播中尤为低效 —— 权重参数需要反复访问,激活值需要在各层之间传递。神经形态计算(neuromorphic computing)从人脑的结构中汲取灵感,将计算单元与存储单元整合在同一个物理器件中,从而消除数据搬移带来的能量消耗。
实现这一目标的关键硬件是阻变存储器。这是一种非易失性存储器件,其电阻值可以通过施加电压脉冲进行调节,且断电后仍能保持状态。单个阻变器件即可实现突触的功能 —— 根据历史输入调整连接权重,这使其成为构建神经形态硬件的理想载体。然而,传统阻变器件面临两个核心工程挑战:随机性和不稳定性。器件在切换过程中的导电状态变化具有统计随机性,导致不同循环、不同器件之间的性能一致性差,难以满足商用存储系统的可靠性要求。
剑桥方案:工程化 p-n 异质结的实现路径
剑桥大学材料科学系的研究团队由 Babak Bakhit 博士领导,开发了一种新型多层氧化物材料结构来解决上述问题。该方案的核心创新在于引入工程化的 p-n 异质结界面:采用基于 HfO₂ 的 p 型多元氧化物作为一层,辅以 n 型的 TiOₓNᵧ 作为另一层,两者在界面处形成自组装的异质结构。
这种设计的关键参数在于空间电荷层的非对称分布。由于 p 型和 n 型半导体在界面处的费米能级差异,耗尽层会向一侧延伸,形成电场梯度。当施加外部电压时,导电通道的形成和断裂被限制在特定的空间区域内,从而大幅提高了切换过程的可控性和可重复性。
该团队公布的器件性能参数为工程落地提供了具体的参考基准:切换电流低于 10 纳安(10⁻⁸ 安培),这是目前报道的最低量级之一;可实现超过 6000 个离散的 conductance 状态,状态范围从约 2.5 纳西门子到 140 纳西门子;循环间(cycle-to-cycle)和器件间(device-to-device)的均匀性达到了异常优异的水平。最关键的工程简化在于:这种器件无需传统的电形成(electroforming)过程,也无需设置电流 compliance 限流,这既降低了制造复杂度,又减少了初始化的能量开销。
与传统方案的量化对比
从系统层面看,该技术相对于主流 AI 加速器(GPU、NPU、FPGA)具有明确的能效优势。在传统架构中,每次权重访问都需要从 DRAM 或 HBM 读取数据,访问能耗通常在皮焦耳(pJ)到纳焦耳(nJ)量级。以典型的 Transformer 推理为例,单次前向传播涉及数十亿次权重访问,整体能耗中相当大的比例被数据搬移消耗。
阻变存储器阵列可以在交叉棒(crossbar)结构中实现模拟矩阵乘法,权重值直接以器件电导的形式存储在阵列中。输入电压施加在行电极上,输出电流在各列叠加后直接得到加权求和结果。这一过程在硬件层面完成了乘累加运算,避开了数字系统中的数据搬移。根据剑桥团队的测试数据,10 纳安级别的切换电流意味着单次权重更新仅需纳瓦至皮瓦量级的瞬时功率,与传统方案相比能降低一到两个数量级。
该团队在公开表述中提及的 70% 能耗降低目标,正是基于上述物理机制的系统级估算。值得注意的是,这一数字对应的是特定工作负载和架构条件下的理论上限;实际部署中还会受到制造成熟度、器件良率、配套电路效率等因素的制约。
落地需要关注的关键工程参数
将实验室成果转化为商用产品需要在以下几个维度进行工程化优化。首先是 CMOS 兼容性 —— 该材料体系采用 HfO₂ 和 TiOₓNᵧ 等与现有半导体工艺兼容的氧化物,可以通过磁控共溅射等可扩展工艺沉积,这为直接集成到成熟产线提供了前提条件。
其次是 endurance 和 retention 特性。虽然剑桥团队展示了优异的循环均匀性,但实际商用需要关注在 10¹² 次循环后的状态保持能力,以及在 85°C 以上工作温度下的数据保持时间。6000 个 conductance 状态为模拟权重提供了足够的精度空间,但状态间的串扰和漂移需要在系统级进行校准补偿。
第三是阵列级集成挑战。单器件性能只是起点,如何在百万级器件的阵列中保持一致的电气特性、如何设计周边的读出电路(sense amplifier)、如何解决 IR drop 和串扰问题,这些系统级工程问题将决定该技术能否在大规模 AI 加速器中落地。
产业影响与优化方向
该技术路线对 AI 硬件产业的影响主要体现在两个层面。在边缘推理场景中,超低功耗的阻变存储器阵列可以直接在终端设备上运行轻量级模型,无需依赖云端算力,这对物联网终端和移动设备具有直接价值。在数据中心场景中,神经形态加速器可以作为传统 GPU 的能效补充,处理特定类型的推理任务(如注意力机制中的键值查找)以降低整体 TCO。
需要指出的是,该技术目前仍处于实验室向产业过渡的阶段。大规模制造的可重复性、器件的长期可靠性、与现有软件栈的兼容性等问题还需要产业链上下游的协同攻关。对于系统架构师而言,现在正是关注该技术路线演进的合适时机 —— 跟踪器件级的良率进展、评估阵列级集成方案、探索神经形态硬件的编程模型,都是有价值的前瞻性工作。
剑桥团队的这一突破表明,基于新型材料的神经形态计算不再是纯粹的前沿探索,而是具备了进入工程化验证的条件。随着材料科学与半导体工艺的进一步融合,AI 硬件的能效曲线有望迎来显著拐点。
参考资料
- 剑桥大学企业平台:A new class of material for brain-inspired computing(https://www.enterprise.cam.ac.uk/opportunities/a-new-class-of-material-for-brain-inspired-computing/)