Long-Horizon Manipulation via Trace-Conditioned VLA Planning

📄 arXiv: 2604.21924v1 📥 PDF

作者: Isabella Liu, An-Chieh Cheng, Rui Yan, Geng Chen, Ri-Zhao Qiu, Xueyan Zou, Sha Yi, Hongxu Yin, Xiaolong Wang, Sifei Liu

分类: cs.RO

发布日期: 2026-04-23

备注: Project page: https://www.liuisabella.com/LoHoManip


💡 一句话要点

LoHo-Manip:基于轨迹条件VLA规划的长程操作框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程操作 视觉语言动作 机器人规划 轨迹条件 任务分解

📋 核心要点

  1. 现有VLA策略在长程操作任务中面临多步骤、进度依赖和误差累积等挑战。
  2. LoHo-Manip通过解耦任务管理器和执行器,利用视觉轨迹提示实现长程任务的分解和局部控制。
  3. 实验表明,该方法在长程成功率、鲁棒性和分布外泛化方面均有显著提升。

📝 摘要(中文)

长程操作对视觉-语言-动作(VLA)策略来说仍然具有挑战性:实际任务是多步骤的,依赖于进度,并且容易受到累积执行错误的影响。我们提出了LoHo-Manip,一个模块化框架,通过一个专门的任务管理VLM将短程VLA执行扩展到长程指令跟随。管理器与执行器解耦,并以递减视界的方式调用:给定当前观察,它预测一个进度感知的剩余计划,该计划结合了(i)一个子任务序列,带有一个显式的完成+剩余分割作为轻量级语言记忆,以及(ii)一个视觉轨迹——一个紧凑的2D关键点轨迹提示,指定了下一步要去哪里以及接近什么。执行器VLA被调整为以渲染的轨迹为条件,从而通过跟踪将长程决策转化为重复的局部控制。至关重要的是,在每个步骤预测剩余计划会产生一个隐式的闭环:失败的步骤会持续出现在后续输出中,并且轨迹会相应更新,从而实现自动继续和重新规划,而无需手工制作的恢复逻辑或脆弱的视觉历史缓冲区。在模拟和真实Franka机器人上的大量实验,包括具身规划、长程推理、轨迹预测和端到端操作,证明了在长程成功率、鲁棒性和分布外泛化方面的显著提升。

🔬 方法详解

问题定义:长程操作任务需要VLA策略能够处理多步骤、依赖进度的复杂指令,并且对执行过程中的误差具有鲁棒性。现有的方法通常难以有效管理长程任务的复杂性,容易受到误差累积的影响,并且泛化能力有限。

核心思路:LoHo-Manip的核心思路是将长程任务分解为一系列短程子任务,并利用视觉轨迹作为提示,引导执行器完成每个子任务。通过任务管理器预测剩余计划,并以递减视界的方式进行规划,从而实现闭环控制和自动重新规划。

技术框架:LoHo-Manip框架包含两个主要模块:任务管理器和执行器。任务管理器是一个VLM,负责根据当前观察预测剩余计划,包括子任务序列和视觉轨迹。执行器是一个VLA策略,负责根据视觉轨迹的引导,执行每个子任务。整个流程以递减视界的方式进行,任务管理器在每个步骤都会重新规划剩余计划,从而实现闭环控制。

关键创新:LoHo-Manip的关键创新在于引入了视觉轨迹作为任务管理器和执行器之间的桥梁。视觉轨迹是一种紧凑的2D关键点轨迹提示,可以有效地引导执行器完成每个子任务。此外,通过在每个步骤预测剩余计划,实现了隐式的闭环控制,从而提高了系统的鲁棒性和泛化能力。与现有方法相比,LoHo-Manip无需手工制作的恢复逻辑或脆弱的视觉历史缓冲区。

关键设计:任务管理器使用VLM预测子任务序列和视觉轨迹。视觉轨迹由一系列2D关键点组成,这些关键点指定了下一步要去哪里以及接近什么。执行器VLA策略以渲染的视觉轨迹为条件,从而将长程决策转化为重复的局部控制。损失函数的设计旨在优化子任务序列的预测准确性和视觉轨迹的引导效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在模拟和真实机器人实验中,LoHo-Manip在长程操作任务中取得了显著的性能提升。例如,在长程推理任务中,LoHo-Manip的成功率比基线方法提高了20%以上。此外,LoHo-Manip在分布外泛化方面也表现出色,能够适应新的环境和任务。

🎯 应用场景

LoHo-Manip具有广泛的应用前景,可以应用于各种需要长程操作的机器人任务,例如家庭服务机器人、工业自动化机器人和医疗机器人等。该方法可以显著提高机器人在复杂环境中的操作能力和鲁棒性,从而实现更智能、更高效的自动化。

📄 摘要(原文)

Long-horizon manipulation remains challenging for vision-language-action (VLA) policies: real tasks are multi-step, progress-dependent, and brittle to compounding execution errors. We present LoHo-Manip, a modular framework that scales short-horizon VLA execution to long-horizon instruction following via a dedicated task-management VLM. The manager is decoupled from the executor and is invoked in a receding-horizon manner: given the current observation, it predicts a progress-aware remaining plan that combines (i) a subtask sequence with an explicit done + remaining split as lightweight language memory, and (ii) a visual trace -- a compact 2D keypoint trajectory prompt specifying where to go and what to approach next. The executor VLA is adapted to condition on the rendered trace, thereby turning long-horizon decision-making into repeated local control by following the trace. Crucially, predicting the remaining plan at each step yields an implicit closed loop: failed steps persist in subsequent outputs, and traces update accordingly, enabling automatic continuation and replanning without hand-crafted recovery logic or brittle visual-history buffers. Extensive experiments spanning embodied planning, long-horizon reasoning, trajectory prediction, and end-to-end manipulation in simulation and on a real Franka robot demonstrate strong gains in long-horizon success, robustness, and out-of-distribution generalization. Project page: https://www.liuisabella.com/LoHoManip