Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control
作者: Zunzhe Zhang, Runhan Huang, Yicheng Liu, Shaoting Zhu, Linzhan Mou, Hang Zhao
分类: cs.RO, cs.AI
发布日期: 2026-03-18
备注: 10 pages, 6 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出GeCO:一种时间无条件Flow Matching框架,用于自适应和鲁棒的机器人控制。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 Flow Matching 扩散模型 模仿学习 自适应控制 鲁棒控制 优化 安全信号
📋 核心要点
- 传统Flow Matching方法在机器人控制中效率低下,对所有状态采用固定计算量,忽略了状态复杂性。
- GeCO将动作生成转化为优化问题,学习静态速度场,使计算资源自适应分配,简单状态快速收敛。
- GeCO提供无需训练的安全信号,通过场范数检测越界状态,并在仿真环境中验证了其有效性。
📝 摘要(中文)
扩散模型和Flow Matching已成为机器人模仿学习的基石,但它们存在结构性低效问题,即推理通常受限于固定的积分调度,而忽略了状态的复杂性。这种模式迫使策略在简单运动和复杂任务上花费相同的计算预算。我们引入了Generative Control as Optimization (GeCO),这是一个时间无条件的框架,它将动作合成从轨迹积分转换为迭代优化。GeCO学习动作序列空间中的一个静态速度场,其中专家行为形成稳定的吸引子。因此,测试时推理变成一个自适应过程,根据收敛情况分配计算资源——对于简单状态提前退出,而对于困难状态则进行更长时间的细化。此外,这种静态几何结构产生了一个内在的、无需训练的安全信号,因为优化动作处的场范数可以作为一个鲁棒的越界检测器,对于分布内状态保持较低,而对于异常状态则显著增加。我们在标准模拟基准上验证了GeCO,并展示了其无缝扩展到pi0系列视觉-语言-动作(VLA)模型的能力。作为标准Flow Matching头的即插即用替代品,GeCO通过优化原生的安全部署机制提高了成功率和效率。
🔬 方法详解
问题定义:现有的基于Flow Matching的机器人控制方法,在推理阶段通常采用固定的积分步长,这意味着无论当前状态的复杂程度如何,都需要执行相同数量的计算步骤。这种方式对于简单的状态来说是浪费,而对于复杂的状态可能又不够充分。因此,如何根据状态的复杂性自适应地分配计算资源,提高控制效率,是一个亟待解决的问题。
核心思路:GeCO的核心思想是将动作序列的生成过程视为一个优化问题,而不是一个轨迹积分问题。通过学习一个静态的速度场,使得专家行为成为该场中的稳定吸引子。这样,在测试阶段,可以通过迭代优化来寻找最优的动作序列,并且可以根据优化过程的收敛情况来动态调整计算量。当优化过程快速收敛时,可以提前停止,从而节省计算资源;而当优化过程收敛缓慢时,则可以继续迭代,以获得更精确的控制。
技术框架:GeCO的整体框架包括以下几个主要部分:1) 离线训练阶段:利用专家数据学习一个静态的速度场。这个速度场描述了在动作序列空间中,如何从任意状态向专家行为演化。2) 在线推理阶段:给定当前状态,通过迭代优化来寻找最优的动作序列。优化过程的目标是最小化当前动作序列在该速度场中的范数。3) 安全检测模块:利用优化后的动作序列在该速度场中的范数作为安全信号,用于检测越界状态。
关键创新:GeCO最重要的创新点在于将动作生成问题转化为优化问题,并学习一个静态的速度场。这种方法使得计算资源可以自适应地分配,并且提供了一个无需训练的安全信号。与传统的Flow Matching方法相比,GeCO不再依赖于固定的积分步长,而是根据优化过程的收敛情况来动态调整计算量。此外,GeCO提供的安全信号可以用于检测越界状态,从而提高控制系统的鲁棒性。
关键设计:GeCO的关键设计包括:1) 速度场的表示:可以使用神经网络来表示速度场,网络的输入是当前状态和动作序列,输出是该状态下动作序列的变化方向。2) 优化算法:可以使用各种优化算法来寻找最优的动作序列,例如梯度下降法、Adam算法等。3) 损失函数:损失函数的目标是最小化当前动作序列在该速度场中的范数。4) 安全信号的阈值:需要设置一个阈值来判断当前状态是否越界。这个阈值可以根据经验或者通过实验来确定。
🖼️ 关键图片
📊 实验亮点
GeCO在标准模拟基准上进行了验证,结果表明,与传统的Flow Matching方法相比,GeCO在提高成功率和效率方面具有显著优势。此外,GeCO能够无缝扩展到pi0系列视觉-语言-动作(VLA)模型,进一步证明了其通用性和可扩展性。实验结果还表明,GeCO提供的安全信号可以有效地检测越界状态,从而提高控制系统的鲁棒性。
🎯 应用场景
GeCO具有广泛的应用前景,可用于各种机器人控制任务,例如自动驾驶、机械臂操作、无人机控制等。其自适应计算和安全检测机制,使其在资源受限和安全性要求高的场景中具有重要价值。未来,GeCO有望应用于更复杂的机器人系统,并与其他控制技术相结合,实现更智能、更可靠的机器人控制。
📄 摘要(原文)
Diffusion models and flow matching have become a cornerstone of robotic imitation learning, yet they suffer from a structural inefficiency where inference is often bound to a fixed integration schedule that is agnostic to state complexity. This paradigm forces the policy to expend the same computational budget on trivial motions as it does on complex tasks. We introduce Generative Control as Optimization (GeCO), a time-unconditional framework that transforms action synthesis from trajectory integration into iterative optimization. GeCO learns a stationary velocity field in the action-sequence space where expert behaviors form stable attractors. Consequently, test-time inference becomes an adaptive process that allocates computation based on convergence--exiting early for simple states while refining longer for difficult ones. Furthermore, this stationary geometry yields an intrinsic, training-free safety signal, as the field norm at the optimized action serves as a robust out-of-distribution (OOD) detector, remaining low for in-distribution states while significantly increasing for anomalies. We validate GeCO on standard simulation benchmarks and demonstrate seamless scaling to pi0-series Vision-Language-Action (VLA) models. As a plug-and-play replacement for standard flow-matching heads, GeCO improves success rates and efficiency with an optimization-native mechanism for safe deployment. Video and code can be found at https://hrh6666.github.io/GeCO/