Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models
作者: Yanyan Zhang, Chaoda Song, Vikash Singh, Xinpeng Li, Kai Ye, Zhe Hu, Zhongzhu Pu, Yu Yin, Vipin Chaudhary
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出免训练的Pace-and-Path Correction方法,解决VLA模型在动态场景下的适应性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 动态环境 免训练 推理时优化 机器人控制
📋 核心要点
- 现有VLA模型在动态环境下泛化能力差,主要原因是缺乏对时间动态的建模,导致对非平稳场景适应性不足。
- 论文提出Pace-and-Path Correction方法,通过速度和路径两个通道,在推理阶段校正VLA模型的动作输出,无需重新训练。
- 实验表明,该方法在动态环境中显著提升VLA模型的成功率,优于现有免训练方法和动态自适应方法。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在经典控制范式之外展现了卓越的灵活性和泛化能力。然而,大多数流行的VLA模型在单帧观测范式下训练,这使得它们在结构上对时间动态具有盲视性。因此,即使在动态数据集上进行训练或微调,这些模型在非平稳场景中也会严重退化。现有方法要么需要昂贵的重新训练,要么存在延迟瓶颈和动作块之间较差的时间一致性。我们提出Pace-and-Path Correction,这是一种免训练的、闭式推理期算子,可以包装任何分块动作VLA。从单个二次代价出发,联合最小化产生一个统一的解,该解正交分解为两个不同的通道。速度通道压缩沿计划方向的执行,而路径通道应用正交空间偏移,共同吸收块窗口内的感知动态。我们在一个全面的诊断基准MoveBench上评估了我们的方法,该基准旨在将运动隔离为唯一受控变量。经验结果表明,我们的框架始终优于最先进的免训练包装器和动态自适应方法,并且在纯动态和静态-动态混合环境中,相对于基础VLA模型,成功率分别提高了高达28.8%和25.9%。
🔬 方法详解
问题定义:VLA模型在单帧观测下训练,忽略了时间动态信息,导致在动态环境中性能显著下降。现有解决方法要么需要大量重新训练,成本高昂;要么引入额外计算,造成延迟和时间不一致性。因此,如何在不重新训练的前提下,提升VLA模型在动态环境下的适应性是一个关键问题。
核心思路:论文的核心思路是在推理阶段对VLA模型的动作输出进行校正,通过两个正交的通道——速度(Pace)和路径(Path),来补偿模型对动态环境的感知不足。速度通道调整动作的执行速度,路径通道调整动作的执行轨迹,从而使模型适应动态变化的环境。这种方法无需重新训练,且计算效率高。
技术框架:该方法是一个推理时算子,可以包装任何分块动作的VLA模型。整体流程如下:1. VLA模型输出分块动作序列;2. Pace-and-Path Correction算子接收动作序列和环境观测;3. 通过优化一个二次代价函数,计算速度和路径的校正量;4. 将校正后的动作序列输入到执行器中。
关键创新:该方法最重要的创新点在于提出了一个免训练的、闭式解的校正算子,能够同时优化动作的速度和路径。通过将校正问题分解为两个正交的通道,实现了高效且有效的动态适应。与现有方法相比,该方法无需重新训练,避免了高昂的计算成本,同时具有更好的实时性和时间一致性。
关键设计:该方法的核心是一个二次代价函数,用于衡量校正后的动作序列与环境观测之间的差异。该代价函数包含两部分:一部分衡量校正后的动作序列与原始动作序列之间的差异,另一部分衡量校正后的动作序列与环境观测之间的匹配程度。通过最小化该代价函数,可以得到速度和路径的校正量。具体而言,速度通道通过缩放动作执行时间来调整速度,路径通道通过添加正交的空间偏移来调整路径。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Pace-and-Path Correction方法在MoveBench基准测试中显著提升了VLA模型的性能。在纯动态环境中,成功率提升高达28.8%;在静态-动态混合环境中,成功率提升高达25.9%。该方法优于现有的免训练包装器和动态自适应方法,证明了其在动态环境下的有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于机器人控制、自动驾驶、游戏AI等领域。在这些领域中,环境通常是动态变化的,VLA模型需要具备良好的适应性才能实现可靠的控制。该方法可以帮助VLA模型更好地适应动态环境,提高控制性能和鲁棒性,降低开发和部署成本。未来,该方法可以进一步扩展到更复杂的动态场景和更高级的VLA模型中。
📄 摘要(原文)
Vision-Language-Action (VLA) models achieve remarkable flexibility and generalization beyond classical control paradigms. However, most prevailing VLAs are trained under a single-frame observation paradigm, which leaves them structurally blind to temporal dynamics. Consequently, these models degrade severely in non-stationary scenarios, even when trained or finetuned on dynamic datasets. Existing approaches either require expensive retraining or suffer from latency bottlenecks and poor temporal consistency across action chunks. We propose Pace-and-Path Correction, a training-free, closed-form inference-time operator that wraps any chunked-action VLA. From a single quadratic cost, joint minimization yields a unified solution that decomposes orthogonally into two distinct channels. The pace channel compresses execution along the planned direction, while the path channel applies an orthogonal spatial offset, jointly absorbing the perceived dynamics within the chunk window. We evaluate our approach on a comprehensive diagnostic benchmark MoveBench designed to isolate motion as the sole controlled variable. Empirical results demonstrate that our framework consistently outperforms state-of-the-art training-free wrappers and dynamic-adaptive methods and improves success rates by up to 28.8% and 25.9% in absolute terms over foundational VLA models in dynamic-only and static-dynamic mixed environments, respectively.