LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

📄 arXiv: 2602.21531v1 📥 PDF

作者: Yue Yang, Shuo Cheng, Yu Fang, Homanga Bharadhwaj, Mingyu Ding, Gedas Bertasius, Daniel Szafir

分类: cs.RO, cs.AI, cs.CV, cs.LG, eess.SY

发布日期: 2026-02-25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LiLo-VLA:通过链接对象中心策略实现组合式长时程操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时程操作 机器人操作 视觉语言动作 模块化设计 对象中心策略

📋 核心要点

  1. 现有VLA模型在长时程操作任务中,面临组合复杂性和环境敏感性带来的级联失败问题。
  2. LiLo-VLA通过解耦运输和交互,并采用对象中心VLA,实现了对长时程任务的零样本泛化。
  3. 在模拟和真实世界实验中,LiLo-VLA显著优于现有方法,验证了其在长时程操作任务中的有效性。

📝 摘要(中文)

通用机器人必须掌握长时程操作,即在非结构化环境中涉及多次运动结构变化(例如,连接或分离物体)的任务。视觉-语言-动作(VLA)模型虽然有潜力掌握各种原子技能,但它们难以应对组合复杂性,并且容易因环境敏感性而导致级联失败。为了解决这些挑战,我们提出了LiLo-VLA(链接局部VLA),一个模块化框架,能够在未经过相关训练的情况下,零样本泛化到新的长时程任务。我们的方法将运输与交互分离:一个到达模块处理全局运动,而一个交互模块采用以对象为中心的VLA来处理孤立的目标对象,确保对不相关的视觉特征的鲁棒性和对空间配置的不变性。至关重要的是,这种模块化通过动态重新规划和技能重用,促进了强大的故障恢复,有效地减轻了端到端方法中常见的级联错误。我们引入了一个包含21个任务的模拟基准,由两个具有挑战性的套件组成:LIBERO-Long++和Ultra-Long。在这些模拟中,LiLo-VLA实现了69%的平均成功率,超过了Pi0.5的41%和OpenVLA-OFT的67%。此外,在8个长时程任务的真实世界评估中,平均成功率为85%。

🔬 方法详解

问题定义:论文旨在解决通用机器人在非结构化环境中执行长时程操作任务时,现有视觉-语言-动作(VLA)模型存在的组合复杂性和环境敏感性问题。现有方法通常采用端到端的方式,容易受到环境干扰,导致级联错误,难以泛化到新的任务。

核心思路:论文的核心思路是将长时程操作任务分解为运输(Reaching)和交互(Interaction)两个模块,分别处理。运输模块负责全局运动规划,交互模块则专注于处理孤立的目标对象,采用对象中心的VLA策略。这种解耦的设计降低了任务的复杂性,提高了模型的鲁棒性和泛化能力。

技术框架:LiLo-VLA框架包含两个主要模块:Reaching Module和Interaction Module。Reaching Module负责将机器人移动到目标对象附近。Interaction Module使用对象中心的VLA模型,根据视觉和语言输入,执行与目标对象的交互操作。框架还包含一个动态重新规划机制,用于在发生错误时进行恢复。整体流程是:首先使用Reaching Module接近目标,然后使用Interaction Module执行交互,如果失败则重新规划。

关键创新:最重要的技术创新点是模块化的设计和对象中心的VLA策略。模块化设计将复杂的长时程任务分解为更简单的子任务,降低了模型的学习难度。对象中心的VLA策略使得模型能够专注于目标对象,减少了环境干扰,提高了鲁棒性。与现有端到端方法相比,LiLo-VLA具有更好的泛化能力和错误恢复能力。

关键设计:Reaching Module可以使用现有的运动规划算法。Interaction Module的关键在于对象中心的VLA模型,该模型需要能够根据视觉输入识别目标对象,并根据语言指令执行相应的操作。具体的网络结构和损失函数取决于所使用的VLA模型。动态重新规划机制需要一个错误检测模块,以及一个能够生成新的规划的算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LiLo-VLA在包含21个任务的模拟基准LIBERO-Long++和Ultra-Long上取得了显著的成果,平均成功率达到69%,超过了Pi0.5 (41%) 和 OpenVLA-OFT (67%)。在8个真实世界长时程任务的评估中,LiLo-VLA的平均成功率达到了85%,验证了其在实际应用中的有效性。

🎯 应用场景

该研究成果可应用于各种需要机器人执行复杂操作的场景,例如智能家居、自动化工厂、医疗辅助等。通过LiLo-VLA,机器人可以更好地理解人类指令,完成诸如组装家具、整理物品、辅助手术等任务,提高生产效率和服务质量,具有广阔的应用前景。

📄 摘要(原文)

General-purpose robots must master long-horizon manipulation, defined as tasks involving multiple kinematic structure changes (e.g., attaching or detaching objects) in unstructured environments. While Vision-Language-Action (VLA) models offer the potential to master diverse atomic skills, they struggle with the combinatorial complexity of sequencing them and are prone to cascading failures due to environmental sensitivity. To address these challenges, we propose LiLo-VLA (Linked Local VLA), a modular framework capable of zero-shot generalization to novel long-horizon tasks without ever being trained on them. Our approach decouples transport from interaction: a Reaching Module handles global motion, while an Interaction Module employs an object-centric VLA to process isolated objects of interest, ensuring robustness against irrelevant visual features and invariance to spatial configurations. Crucially, this modularity facilitates robust failure recovery through dynamic replanning and skill reuse, effectively mitigating the cascading errors common in end-to-end approaches. We introduce a 21-task simulation benchmark consisting of two challenging suites: LIBERO-Long++ and Ultra-Long. In these simulations, LiLo-VLA achieves a 69% average success rate, outperforming Pi0.5 by 41% and OpenVLA-OFT by 67%. Furthermore, real-world evaluations across 8 long-horizon tasks demonstrate an average success rate of 85%. Project page: https://yy-gx.github.io/LiLo-VLA/.