Stabilized neural Hamilton--Jacobi--Bellman solvers: Error analysis and applications in model-based reinforcement learning

📄 arXiv: 2605.07116v1 📥 PDF

作者: Minseok Kim, Yeongjong Kim, Namkyeong Cho, Yeoneung Kim

分类: cs.LG, cs.AI, math.NA, math.OC

发布日期: 2026-05-08


💡 一句话要点

提出稳定化的神经Hamilton-Jacobi-Bellman求解器,用于模型强化学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Hamilton-Jacobi-Bellman方程 强化学习 模型学习 神经网络求解器 有限差分 物理信息神经网络 最优控制

📋 核心要点

  1. 现有基于网格或连续PDE的PINN方法在连续时间模型强化学习中存在局限性。
  2. 提出了一种混合方法,结合神经网络值函数表示和有限差分HJB策略评估,并建立了误差理论。
  3. 实验表明,该方法在多个benchmark上表现优异,验证了残差、策略不匹配和模型误差趋势的预测。

📝 摘要(中文)

本文提出了一种物理信息神经求解器,用于连续时间模型强化学习,其中最优反馈综合由Hamilton-Jacobi-Bellman (HJB)方程控制。该方法结合了神经网络值函数表示、有限差分HJB策略评估算子以及随机连续配置的残差最小化。本文为这种混合方法建立了误差理论,将有限差分解释为作用于神经网络的移位算子,证明了具有学习动态的一个策略评估步骤的总体L^2稳定性估计。该界限分离了残差误差、初始和外部边界不匹配、策略不匹配以及模型识别误差,并给出了学习动态的显式梯度放大因子,同时潜在的线性评估稳定性不受隐藏的逆粘性爆炸的影响。进一步给出了有限样本配置证书和通过贪婪策略改进的有条件多步传播结果。在高达64维的紧凑控制LQR、Allen-Cahn控制、钟摆、Hopper和3D四旋翼基准测试中,与代表性的基于模型和无模型的RL基线进行了比较,证明了预测的残差、策略不匹配和学习模型误差趋势。

🔬 方法详解

问题定义:论文旨在解决连续时间模型强化学习中,使用Hamilton-Jacobi-Bellman (HJB)方程进行最优反馈综合的问题。现有方法,例如传统的网格方法和完全基于神经网络的物理信息神经网络(PINN),在实际应用中存在局限性,前者计算复杂度高,后者训练不稳定。

核心思路:论文的核心在于结合了有限差分法的稳定性和神经网络的函数逼近能力。通过将有限差分算子作用于神经网络表示的值函数,避免了传统网格方法对值函数进行离散化表示。同时,利用随机连续配置最小化残差,避免了完全依赖PDE的PINN方法的训练困难。

技术框架:该方法主要包括以下几个步骤:1. 使用神经网络表示值函数。2. 使用有限差分方法构造HJB策略评估算子,并通过神经网络查询进行计算。3. 使用随机连续配置点计算HJB方程的残差。4. 通过最小化残差来训练神经网络,更新值函数。5. 基于值函数进行策略改进。

关键创新:该方法最重要的创新在于将有限差分法的稳定性和神经网络的泛化能力相结合,提出了一种新的混合求解器。 这种混合方法在避免了传统网格方法的高计算复杂度的同时,也克服了完全依赖PDE的PINN方法的训练不稳定问题。此外,本文还提供了该方法的误差分析,为该方法的可信度和可靠性提供了理论保障。

关键设计:论文的关键设计包括:1. 使用有限差分算子逼近HJB方程中的偏导数。2. 使用随机连续配置点进行残差计算。3. 设计合适的损失函数,用于最小化残差并保证稳定性。4. 针对学习的动态模型,分析了梯度放大因子,并确保评估的稳定性。

📊 实验亮点

论文在包括LQR、Allen-Cahn控制、钟摆、Hopper和3D四旋翼等多个benchmark上进行了实验,与代表性的基于模型和无模型的强化学习基线进行了比较。实验结果验证了所提出的求解器在性能和稳定性方面的优势,并证实了预测的残差、策略不匹配和学习模型误差趋势。

🎯 应用场景

该研究成果可应用于机器人控制、自动化、金融工程等领域。通过学习动态模型并求解HJB方程,可以实现连续时间最优控制,提高系统的性能和鲁棒性。例如,可以用于设计高性能的机器人控制器,或在金融市场中进行最优投资决策。

📄 摘要(原文)

Physics-informed neural solvers offer a promising route to model-based reinforcement learning in continuous time, where optimal feedback synthesis is governed by Hamilton--Jacobi--Bellman (HJB) equations. Practical implementations often occupy a regime that is neither a classical grid method nor a continuous-PDE PINN: the value function is represented by a neural network, finite-difference HJB policy-evaluation operators are evaluated by network queries at shifted points, and residuals are minimized by random continuous collocation. This regime preserves the stabilized finite-difference policy-evaluation structure while avoiding grid-based value unknowns. We develop an error theory for this hybrid regime. Interpreting finite differences as shift operators acting on neural networks, we prove a population $L^2$ stability estimate for one policy-evaluation step with learned dynamics. The bound separates residual error, initial and exterior-collar mismatch, policy mismatch, and model-identification error, with an explicit gradient amplification factor for learned dynamics, while the underlying linear evaluation stability remains free of hidden inverse-viscosity blow-up. We further give a finite-sample collocation certificate and a conditional multi-step propagation result through greedy policy improvement. Experiments on compact-control LQR upto 64 dimensions, Allen--Cahn control, pendulum, Hopper, and 3D quadrotor benchmarks compare against representative model-based and model-free RL baselines, demonstrating the predicted residual, policy-mismatch, and learned-model error trends.