Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning

📄 arXiv: 2601.05868v1 📥 PDF

作者: Kaichen Shen, Peng Chen

分类: math.OC, cs.LG

发布日期: 2026-01-09


💡 一句话要点

提出基于策略梯度强化学习的无限维序贯贝叶斯最优实验设计方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 贝叶斯最优实验设计 强化学习 策略梯度 降维 神经算子

📋 核心要点

  1. 传统SBOED方法在无限维参数空间中计算成本高昂,需要重复求解正向和伴随偏微分方程。
  2. 论文将SBOED建模为马尔可夫决策过程,利用策略梯度强化学习学习设计策略,实现高效在线设计。
  3. 实验表明,该方法在污染物源追踪问题中,速度提升显著,并能发现具有物理意义的传感器放置策略。

📝 摘要(中文)

针对偏微分方程控制的反问题,特别是无限维随机场参数下的序贯贝叶斯最优实验设计(SBOED)计算挑战,本文将其建模为有限视界马尔可夫决策过程,并通过策略梯度强化学习(PGRL)学习一种可分摊的设计策略。该策略能够根据实验历史在线选择设计,无需重复求解SBOED优化问题。为了使策略训练和奖励评估具有可扩展性,本文结合了双重降维(参数的主动子空间投影和状态的主成分分析)以及调整后的导数信息潜在注意力神经算子(LANO)代理模型,该模型能够预测参数到解的映射及其雅可比矩阵。使用基于拉普拉斯的D-最优性奖励,同时指出其他期望信息增益效用(如KL散度)也可用于同一框架。此外,引入了一种基于特征值的评估策略,该策略使用先验样本作为最大后验(MAP)点的代理,避免了重复的MAP求解,同时保持了准确的信息增益估计。在污染物源追踪的序贯多传感器放置数值实验中,与高保真有限元方法相比,速度提高了约100倍,性能优于随机传感器放置,并发现了具有物理可解释性的“上游”追踪策略。

🔬 方法详解

问题定义:论文旨在解决无限维参数空间下,偏微分方程控制的反问题中的序贯贝叶斯最优实验设计(SBOED)问题。传统高保真方法需要嵌套的贝叶斯反演和设计循环,导致计算量巨大,难以实际应用。现有方法难以在计算效率和设计质量之间取得平衡。

核心思路:论文的核心思路是将SBOED问题转化为一个有限视界的马尔可夫决策过程(MDP),并利用强化学习训练一个策略网络,该策略网络能够根据当前实验状态(例如,已放置的传感器位置和观测数据)选择下一个最佳实验设计(例如,下一个传感器放置位置)。通过离线训练策略网络,可以在线快速进行实验设计,避免了重复求解复杂的优化问题。

技术框架:整体框架包含以下几个主要模块:1) 状态表示:使用主动子空间投影(Active Subspace Projection)对参数进行降维,使用主成分分析(PCA)对状态进行降维。2) 代理模型:使用导数信息潜在注意力神经算子(LANO)作为参数到解映射的代理模型,同时预测其雅可比矩阵。3) 奖励函数:使用基于拉普拉斯近似的D-最优性作为奖励函数,衡量实验设计的信息增益。4) 策略学习:使用策略梯度强化学习算法(PGRL)训练策略网络,优化实验设计策略。5) 评估策略:使用基于特征值的评估策略,避免重复求解最大后验(MAP)问题。

关键创新:论文的关键创新在于:1) 将SBOED问题建模为MDP,并利用强化学习进行求解,实现了在线高效的实验设计。2) 提出了双重降维策略,有效降低了无限维参数空间的计算复杂度。3) 使用导数信息潜在注意力神经算子(LANO)作为代理模型,提高了预测精度和效率。4) 提出了基于特征值的评估策略,避免了重复求解MAP问题,进一步提高了计算效率。

关键设计:1) 状态表示:主动子空间投影和PCA的维度选择需要根据具体问题进行调整,以平衡计算效率和信息损失。2) 代理模型:LANO的网络结构和训练数据需要仔细设计,以保证预测精度。3) 奖励函数:D-最优性奖励函数的拉普拉斯近似需要选择合适的先验分布。4) 策略学习:策略梯度算法的学习率和探索策略需要仔细调整,以保证训练稳定性和收敛速度。5) 评估策略:特征值评估策略需要选择合适的先验样本数量,以保证评估精度。

📊 实验亮点

在污染物源追踪的数值实验中,该方法与高保真有限元方法相比,计算速度提高了约100倍。同时,该方法优于随机传感器放置策略,能够发现具有物理可解释性的“上游”追踪策略,表明该方法能够有效地进行实验设计,并获得高质量的实验结果。

🎯 应用场景

该研究成果可应用于各种需要进行序贯实验设计的领域,例如环境监测(污染物源追踪)、油藏建模、医学成像、材料科学等。通过优化实验设计,可以显著降低实验成本,提高实验效率,并获得更准确的模型参数估计。该方法具有广泛的应用前景,可以推动相关领域的发展。

📄 摘要(原文)

Sequential Bayesian optimal experimental design (SBOED) for PDE-governed inverse problems is computationally challenging, especially for infinite-dimensional random field parameters. High-fidelity approaches require repeated forward and adjoint PDE solves inside nested Bayesian inversion and design loops. We formulate SBOED as a finite-horizon Markov decision process and learn an amortized design policy via policy-gradient reinforcement learning (PGRL), enabling online design selection from the experiment history without repeatedly solving an SBOED optimization problem. To make policy training and reward evaluation scalable, we combine dual dimension reduction -- active subspace projection for the parameter and principal component analysis for the state -- with an adjusted derivative-informed latent attention neural operator (LANO) surrogate that predicts both the parameter-to-solution map and its Jacobian. We use a Laplace-based D-optimality reward while noting that, in general, other expected-information-gain utilities such as KL divergence can also be used within the same framework. We further introduce an eigenvalue-based evaluation strategy that uses prior samples as proxies for maximum a posteriori (MAP) points, avoiding repeated MAP solves while retaining accurate information-gain estimates. Numerical experiments on sequential multi-sensor placement for contaminant source tracking demonstrate approximately $100\times$ speedup over high-fidelity finite element methods, improved performance over random sensor placements, and physically interpretable policies that discover an ``upstream'' tracking strategy.