Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

作者: Zixing Lei, Changxing Liu, Yichen Xiong, Minhao Xiong, Yuanzhuo Ding, Zhipeng Zhang, Weixin Li, Siheng Chen

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-05-13

💡 一句话要点

提出VLAs-as-Tools以解决长时间任务中的机器人执行问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长时间任务 视觉-语言-行动 工具对齐 机器人执行 多模态学习 事件触发重规划 智能代理

📋 核心要点

现有的视觉-语言-行动模型在长时间任务中面临闭环规划和多样化操作的挑战，限制了其有效性。
本文提出VLAs-as-Tools策略，通过高层VLM和专用VLA工具的协作，优化长时间任务的执行效率。
实验结果显示，该方法在LIBERO-Long和RoboTwin上显著提高了成功率和调用保真度，验证了其有效性。

📝 摘要（中文）

视觉-语言-行动（VLA）模型在机器人行动执行中表现出色，但在长时间任务中受限于闭环规划和多样化物理操作的双重负担。为此，本文提出了VLAs-as-Tools策略，将这一负担分散到高层视觉语言模型（VLM）代理和一系列专用VLA工具上。VLM负责场景分析、全局规划和恢复，而每个VLA工具执行一个有限的子任务。通过引入VLA工具家庭接口，紧密结合代理规划与工具执行，支持高效的事件触发重规划。实验表明，VLAs-as-Tools在LIBERO-Long和RoboTwin上分别提高了成功率4.8和23.1个百分点，并提升了15.0个百分点的调用保真度。

🔬 方法详解

问题定义：本文旨在解决现有视觉-语言-行动模型在长时间任务中因闭环规划和多样化物理操作导致的执行效率低下的问题。现有方法在处理复杂任务时，往往无法有效协调全局规划与局部执行。

核心思路：论文提出VLAs-as-Tools策略，通过将任务分解为高层次的视觉语言模型（VLM）和一系列专用的VLA工具，来优化长时间任务的执行。VLM负责全局规划和场景分析，而VLA工具则专注于执行具体的子任务。

技术框架：整体架构包括高层VLM代理和多个VLA工具。VLM进行场景分析、全局规划和恢复，而每个VLA工具执行特定的子任务。通过VLA工具家庭接口实现工具选择和执行进度反馈，支持高效的事件触发重规划。

关键创新：最重要的创新在于引入了VLA工具家庭接口，使得代理规划与工具执行紧密结合，避免了持续的代理轮询，从而提高了执行效率。

关键设计：在工具的训练过程中，采用了工具对齐后训练（TAPT）方法，构建了与指令执行对齐的训练单元，并使用工具家庭残差适配器实现工具的高效专业化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VLAs-as-Tools在LIBERO-Long上成功率提高了4.8个百分点，在RoboTwin上提高了23.1个百分点，同时调用保真度提升了15.0个百分点，显示出该方法在长时间任务中的显著优势。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动化制造、家庭助理等场景，能够显著提升机器人在复杂环境中的自主执行能力。未来，该方法有望推动更高效的多模态交互和智能决策系统的发展。

📄 摘要（原文）

Vision-language-action (VLA) models are effective robot action executors, but they remain limited on long-horizon tasks due to the dual burden of extended closed-loop planning and diverse physical operations. We therefore propose VLAs-as-Tools, a strategy that distributes this burden across a high-level vision language model (VLM) agent for temporal reasoning and a family of specialized VLA tools for diverse local physical operations. The VLM handles scene analysis, global planning, and recovery, while each VLA tool executes a bounded subtask. To tightly couple agent planning with VLA tool execution in long-horizon tasks, we introduce a VLA tool-family interface that exposes explicit tool selection and in-execution progress feedback, enabling efficient event-triggered agent replanning without continuous agent polling. To obtain diverse specialized VLA tools that faithfully follow agent invocations, we further propose Tool-Aligned Post-Training (TAPT), which constructs invocation-aligned training units for instruction following and adopts tool-family residual adapters for efficient tool specialization. Experiments show that VLAs-as-Tools improves the success rate of $π_{0.5}$ by 4.8 points on LIBERO-Long and 23.1 points on RoboTwin, and further enhances invocation fidelity by 15.0 points as measured by Non-biased Rate. Code will be released.

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理