从哈密尔顿‑雅可比‑贝尔曼(HJB)方程出发,可以为强化学习(RL)与扩散模型的关联提供一个严格的数学桥梁。HJB 方程是最优控制的核心理论,它在连续时间下刻画了值函数的无穷小变化,并给出最优控制律的显式形式。当把这一框架迁移到离散决策与随机生成过程时,RL 的策略优化与扩散模型的采样过程在同一个最优控制的目标下得以统一。
1. HJB 方程的基本形式
在确定性连续时间系统中,状态记为 (x (t)),控制记为 (u (t)),系统 dynamics 为 (\dot {x}=f (x,u)),瞬时代价为 (c (x,u))。定义值函数 (V (x)=\min_{u (\cdot)}\int_{0}^{\infty} e^{-\rho t} c (x (t),u (t)) dt),其中 (\rho>0) 为折现因子。HJB 方程为
[ \rho V(x)=\min_{u}\left{c(x,u)+\nabla V(x)\cdot f(x,u)\right}. ]
在随机情形下,加入布朗运动 (dW_t),dynamics 变为 (dx=f (x,u) dt+g (x,u) dW_t),则 HJB 方程出现二阶导数项
[ \rho V=\min_{u}\Big{c(x,u)+\nabla V\cdot f+\frac{1}{2}\text{tr}\big(g,g^{!\top}\nabla^{2}V\big)\Big}. ]
该方程提供了最优控制的 Hamiltonian:(H (x,u,p)=c (x,u)+p^{\top} f (x,u)),最优控制即满足 (\partial H/\partial u=0)。
2. 强化学习与 HJB 的对应关系
在离散时间 RL 中,常用贝尔曼方程 (V^{\pi}(x)= \mathbb {E}_{\pi}\big [r (x,a)+\gamma V^{\pi}(x')\big]) 对值函数进行迭代。可以把这一步视为在时间步长 (\Delta t) 取极限后的离散化 HJB 方程,其中 (\gamma=e^{-\rho\Delta t})。文献 [1] 表明,扩散模型的条件生成可以视为一种随机最优控制问题。策略 (\pi (a|x)) 对应控制律 (u),而累计回报对应轨迹上的代价积分。强化学习的策略梯度方法本质上是对 Hamiltonian 部分的梯度估计,而值函数估计则对应于求解 HJB 方程的近似。
在强化学习中,值函数的迭代可看作离散时间的 HJB 方程近似 [2]。二者共享同一个核心目标:寻找使得累计折扣代价最小的控制律。因此,一旦把 RL 的目标函数写成折现累计代价,就可以直接套用 HJB 的理论来分析收敛性和最优性。
3. 扩散模型作为受控随机过程
扩散模型(例如 DDPM、DDIM)通过逐步去除噪声实现样本生成。每一步的更新可以写成
[ x_{t-1}=x_{t}-\alpha_{t}\nabla_{x}\log p_{t}(x_{t})+\beta_{t}\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I), ]
其中 (\alpha_{t},\beta_{t}) 为噪声调度参数。如果我们把 (\alpha_{t}) 视作控制输入 (u_{t}),则整个采样轨迹是一个受控随机微分方程。此时,HJB 方程的目标函数可以取为负对数似然 (\mathbb {E}\big [-\log p (x_{0})\big]) 或者更一般的奖励函数 (r (x_{t},u_{t}))。通过在每一步引入奖励信号,可以把扩散模型训练成一个最大化期望回报的 RL 代理。
具体而言,若设奖励 (r_{t}= -\log p (x_{t}|x_{t+1})),则累计奖励 (\sum_{t=0}^{T-1}\gamma^{t} r_{T-t}) 对应的最优策略正是最小化生成误差的噪声调度。于是,扩散模型的训练目标在 HJB 框架下自然转化为寻找使得累计折扣奖励最大的噪声调度 (\alpha_{t}),这与连续时间最优控制的 Hamiltonian 极小化完全对应。
4. 工程实现的关键参数
把 HJB 视角落地的工程实践需要兼顾控制理论的传统参数和扩散模型特有的超参数。下面给出一套经过实验验证的经验值,供开发者直接参考或根据具体任务微调。
| 参数 | 适用范围 | 推荐取值 | 调整建议 |
|---|---|---|---|
| 折现因子 (\gamma)(或 (\rho= -\ln\gamma/\Delta t)) | RL 与扩散的统一目标 | (\gamma\in [0.99,0.995])(对应 (\rho\approx0.005)) | 长期任务取更接近 1 的值,短期任务可降至 0.98 |
| 学习率 | 策略 / 价值网络优化 | 主网络 (3\times10^{-4}),目标网络 (1\times10^{-4}) | 对高维图像输入可适当降低至 (1\times10^{-4}) |
| 扩散步数 (T) | 前向噪声调度 | 线性调度 (T=1000),若追求推理速度可改为 (T=200) 并采用 DDIM | 采样速度与生成质量权衡,任务对细节要求高时保持 500 以上 |
| 噪声调度参数 (\beta_{t}) | 前向 / 逆向过程 | 线性 (\beta_{t}\in [10^{-4},0.02]),或余弦 (\beta_{t}=0.0001+0.5\frac {t}{T}) | 余弦调度在复杂分布上表现更稳 |
| 批次大小 | 训练数据吞吐 | 64–256 | 高分辨率图像建议 128 以上,以提升梯度估计噪声 |
| 目标网络更新频率 | 稳定价值估计 | 每 100–200 步同步一次 | 对高方差环境可缩短至 50 步 |
| 梯度裁剪阈值 | 防止策略梯度爆炸 | 1.0(策略) / 10.0(价值) | 依据日志中梯度范数可适当放大至 2.0 |
| 探索噪声 | 增强策略多样性 | 高斯噪声 (\sigma=0.1),或基于熵的噪声调度 | 在连续控制任务中常配合 Ornstein‑Uhlenbeck 过程 |
| 奖励缩放因子 | 统一不同任务的奖励尺度 | (\lambda=1/\text {std}(r)) 或经验缩放到 ([-1,1]) | 若训练不稳定,可使用 PopArt 归一化 |
在实际实现时,通常采用 “演员‑评论家” 框架(PPO、SAC)作为基线,然后在策略网络中加入扩散模块。扩散模块的损失可以采用原始的重建损失,也可以加入 RL 回报项形成混合目标,例如
[ \mathcal{L}{\text{diff}} = \mathcal{L}{\text{recon}} + \lambda_{\text{RL}},\mathbb{E}{t}\big[\gamma^{t} r{t}\big]. ]
其中 (\lambda_{\text {RL}}) 建议在 0.01–0.1 之间,以保持生成质量不被迫害。
5. 实践要点与常见陷阱
- 时间尺度对齐:在离散 RL 步骤与扩散逆向步骤之间建立对应关系,例如将一次 RL 小步对应 5–10 步扩散去噪,以避免价值估计偏差。
- 奖励函数设计:若仅使用原始的负对数似然作为奖励,可能导致采样路径的稀疏回报不足以驱动长期策略改进,此时可加入辅助奖励(如分类一致性、感知损失)提升学习效率。
- 目标网络的双重更新:因为扩散模型的参数与 RL 的价值网络均会随时间变化,推荐使用双延迟更新(TD3)中的策略平滑技术,降低策略网络对噪声的敏感度。
- 方差控制:在策略梯度估计中使用广义优势估计(GAE)并配合较大的 GAE 参数 (\lambda\approx0.95),可以在长 horizon 任务中显著降低梯度方差。
6. 小结
HJB 方程提供了一套统一的语言,使得强化学习的策略优化与扩散模型的噪声调度在最优控制的框架下相互映射。通过把扩散过程视为受控随机微分方程,可以直接使用 RL 中的价值函数与策略梯度方法对噪声调度进行学习;反之,扩散模型的强大表达力也为 RL 策略提供了更为丰富的先验分布。工程实现时,关注折现因子、学习率、扩散步数以及奖励缩放等关键超参数的配合,并采用演员‑评论家框架结合混合损失的方式,可在实际任务中兼顾生成质量与决策性能。将 HJB 视角作为理论粘合剂,不仅帮助我们理解两者的深层联系,也为后续的多模态大模型、闭环控制系统等更复杂场景提供了可靠的设计路线。