Back to the Familiar Future: Failure Recovery for VLA Policies via Pre-Imagined Milestone Selection

📄 arXiv: 2606.09258v1 📥 PDF

作者: Suyeon Shin, Juwon Kim, Hyeonbin Park, Hyunseo Kim, Hyundo Lee, Hyung-Sin Kim, Byoung-Tak Zhang

分类: cs.RO

发布日期: 2026-06-08


💡 一句话要点

提出B2FF框架以解决VLA策略的失败恢复问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 故障恢复 里程碑选择 多模态学习 机器人操作

📋 核心要点

  1. 现有的VLA策略在操作过程中容易偏离预定轨迹,导致恢复困难,尤其是在不熟悉的状态空间中。
  2. 本文提出的B2FF框架通过生成熟悉的未来状态里程碑,利用视觉条件来指导恢复过程,避免了低级动作生成器的微调。
  3. 在故障注入的实验中,B2FF显著提高了VLA的成功率,证明了预想里程碑在恢复过程中的有效性。

📝 摘要(中文)

视觉-语言-动作(VLA)策略在操作过程中可能偏离预定轨迹,即使任务在物理上是可行的。恢复这些偏差是一个挑战,因为它们将策略推入不熟悉的状态空间,直接重新规划往往会导致动作序列的不稳定。本文提出了“回到熟悉的未来”(B2FF)框架,利用未来视觉条件作为恢复接口。在执行之前,VLA生成一个基于干净初始观察的熟悉未来状态的里程碑库。在恢复时,选择器从该库中选择一个恢复里程碑,并将其强制作为固定的视觉目标。这使得VLA能够稳健地将偏离轨迹的观察映射回熟悉的未来。实验结果表明,在故障注入的LIBERO环境中,B2FF将基线VLA的平均成功率从56.3%提高到74.0%。

🔬 方法详解

问题定义:本文旨在解决视觉-语言-动作(VLA)策略在操作过程中偏离预定轨迹后的恢复问题。现有方法在面对不熟悉的状态空间时,往往难以有效恢复,导致动作序列的不稳定。

核心思路:B2FF框架的核心思想是通过生成熟悉的未来状态里程碑,利用这些里程碑作为恢复接口,从而引导VLA在偏离轨迹后重新回到熟悉的状态。这样的设计旨在减少直接重新规划带来的不稳定性。

技术框架:B2FF框架主要分为两个阶段:首先,在执行之前,VLA生成一个里程碑库,包含基于初始观察的熟悉未来状态;其次,在恢复阶段,使用恢复性选择器从里程碑库中选择一个合适的里程碑,并将其作为固定的视觉目标。

关键创新:B2FF的主要创新在于引入了预想里程碑的概念,作为恢复过程中的指导目标。这一方法与现有的直接重新规划策略本质上不同,后者往往在不熟悉的状态空间中表现不佳。

关键设计:在设计中,选择器的恢复性意识是一个关键参数,确保选择的里程碑能够有效引导VLA回到熟悉的状态。此外,里程碑的生成过程依赖于初始观察的清晰度,以确保生成的状态具有可操作性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在故障注入的LIBERO环境中,B2FF框架将基线VLA的平均成功率从56.3%提升至74.0%,显示出预想里程碑在恢复过程中的有效性。这一提升表明,B2FF能够在不需要微调低级动作生成器的情况下,显著改善VLA策略的表现。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动驾驶、智能家居等场景,尤其是在需要复杂交互和环境适应的任务中。通过提高VLA策略的恢复能力,能够显著提升系统的鲁棒性和用户体验,未来可能在多模态交互和自主学习等领域产生深远影响。

📄 摘要(原文)

Vision-language-action (VLA) policies can deviate from nominal trajectories during manipulation, even when tasks remain physically feasible. Recovering from these deviations is challenging, as they push the policy into unfamiliar state spaces where direct re-planning frequently destabilizes action sequences. We propose Back to the Familiar Future (B2FF), a recovery framework for foresight-driven VLAs that leverages future visual conditioning as a recovery interface. Before execution, the VLA generates a milestone bank of familiar future states conditioned on the clean initial observation. At recovery time, a recoverability-aware selector selects a recovery milestone from this bank and enforces it as a fixed visual goal. This enables the VLA to robustly map off-trajectory observations back to a familiar future. On failure-injected LIBERO, under controlled recovery timing aligned with the injected failure, B2FF increases the average success rate of a baseline VLA from 56.3% to 74.0%, demonstrating that pre-imagined milestones can guide recovery without fine-tuning the low-level action generator.