Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward

📄 arXiv: 2603.16218v1 📥 PDF

作者: Johannes Hechtl, Philipp Schmitt, Georg von Wichert, Wolfram Burgard

分类: cs.RO

发布日期: 2026-03-17


💡 一句话要点

通过时序离散与连续的速度前馈,增强视觉-语言-动作模型中的动态跟踪能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 速度前馈 行为克隆 有限差分 B样条 动态跟踪 顺应性控制

📋 核心要点

  1. 现有VLA模型在刚性机器人上的应用受限于顺应性和响应性的权衡,传统方法依赖高刚度控制,牺牲了安全接触。
  2. 论文提出两种模型无关的方法,将速度前馈项融入VLA策略,分别基于时序离散有限差分和连续三次B样条。
  3. 实验表明,有限差分法提高了任务执行速度,而B样条方法保持了高成功率,并为更高阶导数控制奠定了基础。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作方面展现出巨大潜力,但由于顺应性和响应性之间的固有权衡,将其部署在刚性工业机器人上仍然具有挑战性。标准的行为克隆(BC)方法以低频率预测离散姿势,忽略了低层顺应性控制器通常使用的速度和加速度前馈项。这需要依赖高刚度来实现精确跟踪,从而牺牲了安全的接触动力学。本文论证了将速度前馈项集成到VLA策略中的重要性,以解决这种权衡。我们提出了两种从VLA中提取速度目标的方法:一种是时序离散有限差分近似,作为现有模型的高效桥梁;另一种是连续三次B样条动作空间,可以原生生成$C^2$连续轨迹,用于高频控制。至关重要的是,这两种方法都是严格的模型无关的,并且与任何标准动作分块架构兼容,只需要修改遥操作、数据处理和低层控制器。我们对$π_{0.5}$模型进行了微调,并在一个要求苛刻的、接触丰富的方块入孔任务中评估了我们的两种方法。结果表明,通过有限差分法结合速度前馈项可以显著提高任务执行速度,而连续B样条方法保持了较高的总体成功率,并为更平滑的高阶导数提供了基础,且不影响顺应性。

🔬 方法详解

问题定义:现有基于视觉-语言-动作(VLA)模型的机器人操作方法,特别是行为克隆(BC),在刚性工业机器人上部署时面临挑战。这些方法通常以低频率预测离散的姿势,忽略了速度和加速度等信息,导致需要高刚度控制以实现精确跟踪,从而牺牲了机器人与环境交互时的安全性,尤其是在接触丰富的任务中。

核心思路:论文的核心思路是通过在VLA策略中引入速度前馈项,从而在顺应性和响应性之间取得更好的平衡。通过预测速度信息,低层控制器可以更好地跟踪目标轨迹,减少对高刚度的依赖,从而提高机器人在接触任务中的安全性。

技术框架:整体框架包括三个主要部分:1) 现有的VLA模型(例如,$π_{0.5}$模型),用于生成动作序列;2) 速度提取模块,基于两种方法:时序离散有限差分近似和连续三次B样条;3) 低层控制器,利用提取的速度信息进行轨迹跟踪。整个流程是,VLA模型根据视觉和语言输入生成动作序列,速度提取模块从动作序列中提取速度信息,然后低层控制器根据速度信息控制机器人运动。

关键创新:论文的关键创新在于提出了两种模型无关的速度提取方法,可以方便地集成到现有的VLA模型中,而无需对VLA模型本身进行重大修改。这两种方法分别利用了时序离散和连续的表示,为不同的应用场景提供了灵活性。与现有方法相比,该方法显式地考虑了速度信息,从而提高了控制性能和安全性。

关键设计:1) 时序离散有限差分近似:通过计算相邻姿势之间的差分来近似速度。2) 连续三次B样条:使用三次B样条来表示动作空间,从而可以直接获得连续的速度和加速度信息。3) 损失函数:在微调VLA模型时,可以使用标准的行为克隆损失函数,也可以添加额外的速度损失项,以鼓励模型生成更平滑的轨迹。4) 低层控制器:可以使用PID控制器或其他先进的控制算法,根据提取的速度信息进行轨迹跟踪。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在方块入孔任务中,通过有限差分法引入速度前馈项后,任务执行速度显著提高。连续B样条方法在保持较高成功率的同时,为更高阶导数的控制奠定了基础,且不影响顺应性。这些结果表明,该方法能够有效提高VLA模型在接触丰富任务中的性能。

🎯 应用场景

该研究成果可应用于各种需要精确控制和安全交互的机器人操作任务,例如装配、打磨、抛光等。特别是在人机协作场景中,该方法可以提高机器人的顺应性,降低碰撞风险,从而提高工作效率和安全性。未来,该方法还可以扩展到更复杂的任务和环境,例如在非结构化环境中进行操作。

📄 摘要(原文)

While vision-language-action (VLA) models have shown great promise for robot manipulation, their deployment on rigid industrial robots remains challenging due to the inherent trade-off between compliance and responsiveness. Standard Behavior Cloning (BC) approaches predict discrete poses at low frequencies, omitting the velocity and acceleration feedforward terms typically used by low-level compliant controllers. This requires to rely on high stiffness for accurate tracking, thereby sacrificing safe contact dynamics. In this paper, we demonstrate the importance of integrating velocity feedforward terms into VLA policies to resolve this trade-off. We propose two methods for extracting velocity targets from VLAs: a time-discrete finite-difference approximation that serves as a highly effective bridge for existing models, and a continuous Cubic B-Spline action space that natively yields $C^2$ continuous trajectories for high-frequency control. Crucially, both approaches are strictly model-agnostic and compatible with any standard action-chunking architecture, requiring modifications only to teleoperation, data processing, and the low-level controller. We fine-tune the $π_{0.5}$ model and evaluate both of our approaches on a demanding, contact-rich cube-in-hole task. Our results indicate that incorporating the velocity feedforward term via finite differences significantly improves task execution speed, while the continuous B-Spline approach maintains high overall success rates and provides a foundation for smoother higher-order derivatives without compromising compliance.