CINOC: Cardinality-Invariant Neural Operator Policies for Scalable PDE Control

📄 arXiv: 2605.25867v1 📥 PDF

作者: Pietro Zanotta, Dibakar Roy Sarkar, Honghui Zheng, Somdatta Goswami, Ján Drgoňa

分类: eess.SY

发布日期: 2026-05-25


💡 一句话要点

提出CINOC,解决PDE控制中策略对智能体数量泛化性差的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏微分方程控制 神经算子 多智能体系统 基数不变性 可微编程

📋 核心要点

  1. 现有基于学习的PDE控制策略难以泛化到不同数量的传感器、执行器或智能体配置,限制了其在多智能体系统中的应用。
  2. CINOC将PDE控制建模为算子学习问题,学习从状态场到连续控制函数的映射,并通过可微PDE求解器进行端到端训练。
  3. 实验表明,CINOC策略在小规模群体上训练后,可以零样本迁移到大规模群体,并对智能体故障具有鲁棒性。

📝 摘要(中文)

基于学习的策略控制偏微分方程(PDE)仍然受到固定维度表示的根本限制:为特定传感器、执行器或智能体配置训练的策略通常在配置更改时失败。这种限制在多智能体PDE控制中尤为严重,因为策略无法在不重新训练的情况下跨人口规模扩展。我们通过引入基数不变神经算子控制(CINOC)来解决这一挑战,将PDE控制重新定义为算子学习问题,该问题将状态场映射到连续控制函数,并通过可微PDE求解器端到端地训练它们,从而产生自然适应不同传感器和执行器配置的策略。值得注意的是,在小型群体上训练的CINOC策略表现出基数不变性,从而可以零样本迁移到更大的群体,并对部分智能体故障具有鲁棒性。这种可扩展性源于智能体共享一个通用策略并通过其物理环境进行协调,从而产生一种涌现的自归一化效应。为了解释这种现象,我们提供了一个基于平均场理论的定理,证明了从有限智能体系统计算出的策略梯度收敛到连续控制极限的策略梯度。在经验上,我们在线性、非线性、混沌和湍流PDE的跟踪、稳定和密度传输中验证了CINOC。

🔬 方法详解

问题定义:现有的基于学习的PDE控制方法,特别是多智能体PDE控制,通常依赖于固定维度的表示。这意味着针对特定数量的传感器、执行器或智能体训练的策略无法直接应用于不同数量的配置,需要重新训练。这限制了策略的泛化能力和可扩展性。

核心思路:CINOC的核心思路是将PDE控制问题重新定义为一个算子学习问题。通过学习一个从状态场到连续控制函数的映射,策略不再依赖于特定数量的智能体或传感器。这种方法利用神经算子学习状态到控制函数的映射,从而实现基数不变性。智能体共享一个通用策略,并通过物理环境进行协调,产生自归一化效应,进一步提升了策略的泛化能力。

技术框架:CINOC的整体框架包括以下几个关键模块:1) 神经算子:用于学习从状态场到控制函数的映射。2) 可微PDE求解器:用于模拟PDE的演化过程,并计算策略的梯度。3) 损失函数:用于衡量策略的性能,例如跟踪误差或稳定时间。训练过程是端到端的,通过反向传播算法优化神经算子的参数。

关键创新:CINOC最重要的创新在于其基数不变性。传统的控制策略通常需要针对特定数量的智能体进行训练,而CINOC策略可以在不同数量的智能体之间进行零样本迁移。这种基数不变性源于神经算子的连续表示和智能体通过物理环境进行的协调。此外,论文还通过平均场理论证明了有限智能体系统的策略梯度收敛到连续控制极限,为CINOC的泛化能力提供了理论支撑。

关键设计:CINOC的关键设计包括:1) 神经算子的选择:论文中使用了特定的神经算子结构,例如傅里叶神经算子(FNO),以有效地学习状态场到控制函数的映射。2) 损失函数的设计:损失函数需要能够反映控制任务的目标,例如最小化跟踪误差或稳定系统。3) 可微PDE求解器的选择:需要选择一个可微的PDE求解器,以便计算策略的梯度。4) 策略的共享机制:所有智能体共享同一个策略,并通过物理环境进行协调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CINOC策略在各种PDE控制任务中表现出色,包括线性、非线性、混沌和湍流PDE。最重要的是,CINOC策略在小规模群体上训练后,可以零样本迁移到大规模群体,并且对智能体故障具有鲁棒性。例如,在密度传输任务中,CINOC策略可以将密度分布精确地传输到目标位置,即使智能体的数量增加到原来的10倍,性能也没有明显下降。

🎯 应用场景

CINOC具有广泛的应用前景,例如在机器人集群控制、智能交通系统、环境监测与治理等领域。它可以用于控制大规模的分布式系统,提高系统的鲁棒性和可扩展性。例如,在环境监测中,可以使用CINOC控制无人机集群,实现对污染源的快速定位和治理。

📄 摘要(原文)

Controlling partial differential equations (PDEs) with learning-based policies remains fundamentally limited by fixed-dimensional representations: policies trained for a specific sensor, actuator, or agent configuration typically fail when the configuration changes. This limitation is particularly severe in multi-agent PDE control, where policies do not scale across population sizes without retraining. We address this challenge by introducing Cardinality Invariant Neural Operator Control (CINOC), reformulating PDE control as an operator learning problem that maps state fields to continuous control functions and trains them end-to-end through differentiable PDE solvers, yielding policies that naturally adapt to varying sensor and actuator configurations. Remarkably, CINOC policies trained on small swarms exhibit cardinality invariance, allowing for zero-shot transfer to significantly larger populations as well as robustness to partial agent failure. This scalability arises from agents sharing a common policy and coordinating through their physical environment, which produces an emergent self-normalization effect. To explain this phenomenon, we provide a theorem grounded in mean-field theory demonstrating that policy gradients computed from finite-agent systems converge to those of a continuous control limit. Empirically, we validate CINOC on tracking, stabilization, and density transport across linear, nonlinear, chaotic, and turbulent PDEs.