Closed-Loop CO2 Storage Control With History-Based Reinforcement Learning and Latent Model-Based Adaptation

📄 arXiv: 2605.02405v1 📥 PDF

作者: Sofianos Panagiotis Fotias, Vassilis Gaganis

分类: cs.LG

发布日期: 2026-05-04


💡 一句话要点

提出基于历史信息的强化学习与潜变量模型自适应的CO2地质封存闭环控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: CO2地质封存 闭环控制 强化学习 潜变量模型 自适应控制

📋 核心要点

  1. 现有CO2地质封存闭环控制方法难以适应储层行为的不确定性,且依赖于难以获取的观测数据。
  2. 论文提出一种基于历史信息的强化学习方法,并结合潜变量模型自适应,以应对储层不确定性。
  3. 实验表明,该方法在异常工况下,优于直接模型无关的重调方法,且仅需可部署的井级信息。

📝 摘要(中文)

地质CO2封存的闭环管理需要控制策略能够适应不确定的储层行为,同时依赖于运行期间实际可用的观测数据。本文将CO2注入和盐水生产控制建模为部分可观测的序列决策问题,并研究了使用高保真储层模拟训练的可部署深度强化学习控制器。首先,比较了特权状态、井数据、历史条件、掩码课程和非对称师生模型无关策略,以量化时间井响应信息和训练时特权模拟器状态的价值。然后,评估了一个潜变量模型自适应流程,该流程在已知的注入器故障、泄漏引起的动态和奖励转移以及分隔的储层连通性下,重用标称潜变量动态并重新调整控制器。结果表明,历史条件策略仅使用可部署的井级信息即可恢复几乎所有的特权状态性能,并且在异常运行情况下,在相同的特定场景真实模拟器预算下,潜变量模型重新调整优于直接模型无关重新调整。因此,所提出的框架为闭环CO2封存控制提供了一种模拟器预算感知的替代方案,以替代重复的在线历史匹配和重新优化。

🔬 方法详解

问题定义:CO2地质封存的闭环控制问题,目标是在不确定储层行为下,优化CO2注入和盐水生产,现有方法难以适应储层动态变化,且依赖于难以获取的储层状态信息,导致控制效果不佳。

核心思路:利用强化学习训练控制器,使其能够根据历史井级观测数据进行决策,同时引入潜变量模型,用于在新的储层条件下快速自适应控制器参数,核心在于利用历史信息和潜变量模型来应对储层的不确定性。

技术框架:整体框架包含离线训练和在线自适应两个阶段。离线训练阶段,使用高保真储层模拟器生成训练数据,训练不同类型的强化学习控制器,包括基于特权状态、井数据、历史条件等策略。在线自适应阶段,利用潜变量模型对储层动态进行建模,并根据新的观测数据调整控制器参数。

关键创新:1. 提出基于历史信息的强化学习策略,仅使用可部署的井级信息,即可达到接近使用特权状态信息的性能。2. 引入潜变量模型自适应框架,能够在异常工况下,快速调整控制器参数,优于直接模型无关的重调方法。3. 提出一种模拟器预算感知的自适应方法,在有限的模拟器预算下,实现更好的控制性能。

关键设计:1. 历史条件策略:使用循环神经网络(RNN)对历史井响应数据进行编码,提取储层状态信息。2. 潜变量模型:使用变分自编码器(VAE)对储层动态进行建模,学习储层状态的低维表示。3. 奖励函数:设计奖励函数,鼓励CO2注入,同时限制盐水产量,并考虑储层压力等约束。

📊 实验亮点

实验结果表明,基于历史信息的强化学习策略,仅使用可部署的井级信息,即可恢复几乎所有的特权状态性能。在异常工况下,潜变量模型重新调整优于直接模型无关重新调整,在相同的特定场景真实模拟器预算下,性能提升显著。该框架为闭环CO2封存控制提供了一种模拟器预算感知的替代方案。

🎯 应用场景

该研究成果可应用于实际的CO2地质封存工程中,提高CO2封存的安全性和效率。通过闭环控制,能够更好地管理储层压力,减少泄漏风险,并优化CO2注入量,具有重要的环境和社会效益。此外,该方法也可推广到其他地下资源开发领域,如油气开采、地热能利用等。

📄 摘要(原文)

Closed-loop management of geological CO2 storage requires control policies that adapt to uncertain reservoir behavior while relying on observations that are realistically available during operation. This work formulates CO2 injection and brine-production control as a partially observable sequential decision problem and studies deployable deep reinforcement-learning controllers trained with high-fidelity reservoir simulation. We first compare privileged-state, well-only, history-conditioned, masking-curriculum, and asymmetric teacher-student model-free policies in order to quantify the value of temporal well-response information and training-time privileged simulator states. We then evaluate a latent model-based adaptation pipeline that reuses nominal latent dynamics and retunes controllers under known injector failure, leakage-induced dynamics and reward shift, and compartmentalized reservoir connectivity. The results show that history-conditioned policies recover nearly all of the privileged-state performance while using only deployable well-level information, and that latent model-based retuning outperforms direct model-free retuning under the same scenario-specific real-simulator budget in the abnormal operating cases. The proposed framework therefore provides a simulator-budget-aware alternative to repeated online history matching and re-optimization for closed-loop CO2 storage control.