From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

📄 arXiv: 2604.21391v1 📥 PDF

作者: Yiming Zhong, Yaoyu He, Zemin Yang, Pengfei Tian, Yifan Huang, Qingqiu Huang, Xinge Zhu, Yuexin Ma

分类: cs.RO, cs.AI

发布日期: 2026-04-23


💡 一句话要点

ResVLA:通过残差桥接锚定生成式VLA策略,提升具身智能控制

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉语言动作 生成式策略 残差学习 扩散模型

📋 核心要点

  1. 现有生成式VLA策略忽略了认知和行动在时空尺度上的差异,导致表征效率低下和条件对齐弱。
  2. ResVLA将控制解耦为低频意图锚点和高频残差,通过残差扩散桥专注于局部动力学细化。
  3. 实验表明ResVLA在仿真和真实机器人环境中均表现出色,具有更快的收敛速度和更强的鲁棒性。

📝 摘要(中文)

具身智能中,如何弥合高层语义理解与底层物理控制之间的鸿沟是一个长期存在的挑战,这源于认知和行动在时空尺度上的根本不匹配。现有的生成式VLA策略通常采用“从噪声生成”的范式,忽略了这种差异,导致表征效率低下和优化期间的条件对齐较弱。本文提出了ResVLA,一种将范式转变为“从意图细化”的架构。ResVLA认识到机器人运动自然分解为全局意图和局部动力学,利用频谱分析将控制解耦为确定性的低频锚点和随机的高频残差。通过将生成过程锚定在预测的意图上,模型专注于通过残差扩散桥来细化局部动力学。大量的仿真实验表明,ResVLA实现了有竞争力的性能,对语言和机器人形态扰动具有很强的鲁棒性,并且比标准生成式基线收敛更快。它还在真实世界的机器人实验中表现出强大的性能。

🔬 方法详解

问题定义:现有生成式视觉语言动作(VLA)策略在具身智能任务中,难以有效连接高层语义理解和底层物理控制,主要痛点在于其“从噪声生成”的范式忽略了认知和行动在时空尺度上的不匹配,导致表征学习效率低,优化过程中的条件对齐效果差。

核心思路:ResVLA的核心思路是将机器人运动分解为全局意图和局部动力学,并利用频谱分析将控制信号解耦为确定性的低频锚点(代表全局意图)和随机的高频残差(代表局部动力学)。通过预测全局意图并将其作为生成过程的锚点,模型可以更专注于通过残差扩散桥来细化局部动力学,从而提高表征效率和条件对齐效果。

技术框架:ResVLA的整体架构包含以下几个主要模块:1) 视觉语言编码器:用于提取场景的视觉和语言特征。2) 意图预测器:基于编码后的特征预测全局意图(低频锚点)。3) 残差扩散桥:以预测的意图为条件,生成高频残差,用于细化局部动力学。4) 动作解码器:将意图和残差组合成最终的机器人动作。整个流程是从视觉和语言输入开始,经过编码、意图预测、残差生成和动作解码,最终输出控制机器人的动作。

关键创新:ResVLA最重要的技术创新点在于其“从意图细化”的范式,与传统的“从噪声生成”范式不同,ResVLA将生成过程锚定在预测的全局意图上,并通过残差扩散桥来细化局部动力学。这种方法更符合机器人运动的自然分解方式,能够更有效地利用视觉语言信息,提高表征效率和条件对齐效果。

关键设计:ResVLA的关键设计包括:1) 使用频谱分析将控制信号解耦为低频锚点和高频残差。2) 使用残差扩散桥来生成高频残差,该扩散桥以预测的全局意图为条件。3) 损失函数的设计,可能包括意图预测的损失、残差生成的损失以及动作执行的损失。具体的网络结构细节(例如编码器、解码器的具体结构)和参数设置(例如扩散模型的参数)在论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ResVLA在仿真实验中表现出优于标准生成式基线的性能,尤其是在语言和机器人形态扰动下,展现出更强的鲁棒性。此外,ResVLA的收敛速度也明显快于基线模型。真实机器人实验也验证了ResVLA的有效性,表明其具有实际应用潜力。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

ResVLA具有广泛的应用前景,可应用于各种需要高精度和鲁棒性的具身智能任务,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过提高机器人对复杂环境的理解和适应能力,ResVLA可以帮助机器人更好地完成各种任务,提高工作效率和安全性,并最终实现更智能、更自主的机器人系统。

📄 摘要(原文)

Bridging high-level semantic understanding with low-level physical control remains a persistent challenge in embodied intelligence, stemming from the fundamental spatiotemporal scale mismatch between cognition and action. Existing generative VLA policies typically adopt a "Generation-from-Noise" paradigm, which disregards this disparity, leading to representation inefficiency and weak condition alignment during optimization. In this work, we propose ResVLA, an architecture that shifts the paradigm to "Refinement-from-Intent." Recognizing that robotic motion naturally decomposes into global intent and local dynamics, ResVLA utilizes spectral analysis to decouple control into a deterministic low-frequency anchor and a stochastic high-frequency residual. By anchoring the generative process on the predicted intent, our model focuses strictly on refining local dynamics via a residual diffusion bridge. Extensive simulation experiments show that ResVLA achieves competitive performance, strong robustness to language and robot embodiment perturbations, and faster convergence than standard generative baselines. It also demonstrates strong performance in real-world robot experiments.