Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

📄 arXiv: 2605.13632v1 📥 PDF

作者: Yiran Ling, Qing Lian, Jinghang Li, Qing Jiang, Tianming Zhang, Xiaoke Jiang, Chuanxiu Liu, Jie Liu, Lei Zhang

分类: cs.RO, cs.CV

发布日期: 2026-05-13

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出GTA-VLA框架,通过交互式视觉引导增强具身智能体的推理能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 交互式推理 空间引导 思维链 机器人控制 领域外泛化

📋 核心要点

  1. 现有VLA模型在泛化性和纠错能力上存在不足,难以应对领域外视觉变化和空间歧义。
  2. GTA-VLA框架允许用户通过空间先验引导机器人策略,融合外部指导与内部任务规划。
  3. 实验表明,GTA-VLA在领域内和领域外均表现出色,尤其在视觉交互引导下能有效提升任务成功率。

📝 摘要(中文)

本文提出了一种交互式的视觉-语言-动作(VLA)框架,名为GTA-VLA(引导、思考、行动),它允许用户通过显式的视觉线索来引导机器人策略,从而实现空间可控的具身推理。现有的VLA模型学习一种直接的“感知到行动”的映射,从多模态观察到机器人动作。虽然在训练分布内有效,但这种紧密耦合的策略在领域外(OOD)的转移下是脆弱的,并且在发生故障时难以纠正。虽然最近的具身思维链(CoT)方法暴露了中间推理过程,但它们仍然缺乏整合人类空间指导的机制,限制了它们解决视觉歧义或从错误中恢复的能力。为了解决这个差距,我们的框架允许用户选择性地使用空间先验来引导策略,例如可供性点、框和轨迹,后续的推理过程可以直接以此为条件。基于这些输入,该模型生成一个统一的空间-视觉思维链,将外部指导与内部任务规划相结合,使人类的视觉意图与自主决策对齐。为了实际部署,我们进一步将推理模块与轻量级的反应式动作头耦合,以实现高效的动作执行。大量的实验证明了我们方法的有效性。在领域内的SimplerEnv WidowX基准测试中,我们的框架达到了最先进的81.2%的成功率。在OOD视觉转移和空间歧义下,单个视觉交互显著提高了任务成功率,超过了现有方法,突出了交互式推理在具身控制中故障恢复的价值。

🔬 方法详解

问题定义:现有VLA模型通常采用“感知到行动”的直接映射方式,这种方式在训练数据分布内表现良好,但在面对领域外视觉变化或空间歧义时,泛化能力较差,且缺乏有效的纠错机制。当出现错误时,难以通过外部干预进行修正。

核心思路:GTA-VLA的核心思路是引入交互式的空间引导,允许用户通过提供空间先验(如可供性点、框、轨迹)来影响机器人的决策过程。这种方式将人类的视觉意图融入到机器人的自主决策中,从而提高模型的鲁棒性和纠错能力。

技术框架:GTA-VLA框架包含三个主要模块:引导(Guide)、思考(Think)和行动(Act)。引导模块接收用户的空间先验输入;思考模块基于用户的引导信息和环境观察,生成空间-视觉思维链,进行任务规划和推理;行动模块则根据思考模块的输出,执行具体的机器人动作。该框架将推理模块与轻量级的反应式动作头耦合,以实现高效的动作执行。

关键创新:GTA-VLA最重要的技术创新在于引入了交互式的空间引导机制,将人类的视觉意图融入到机器人的决策过程中。与传统的端到端VLA模型相比,GTA-VLA能够利用外部知识来解决视觉歧义,并从错误中恢复。此外,空间-视觉思维链的生成也使得模型的推理过程更加透明和可解释。

关键设计:GTA-VLA的关键设计包括:1) 用户提供的空间先验信息的编码方式,如何有效地将这些信息融入到视觉-语言表示中;2) 空间-视觉思维链的生成方式,如何将外部引导与内部任务规划相结合;3) 轻量级反应式动作头的选择和训练,如何在保证动作执行效率的同时,提高模型的泛化能力。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GTA-VLA在SimplerEnv WidowX基准测试中取得了81.2%的成功率,达到了最先进水平。在领域外视觉转移和空间歧义下,通过单次视觉交互,GTA-VLA的任务成功率显著优于现有方法,验证了交互式推理在具身控制中故障恢复的有效性。具体提升幅度未知,但论文强调了单次交互带来的显著改善。

🎯 应用场景

GTA-VLA框架具有广泛的应用前景,例如在家庭服务机器人、工业自动化、医疗辅助等领域。通过允许用户进行空间引导,可以显著提高机器人在复杂环境中的任务完成能力和安全性。该研究为开发更智能、更可靠的具身智能体提供了新的思路,有望推动人机协作的进一步发展。

📄 摘要(原文)

In this paper, we propose GTA-VLA(Guide, Think, Act), an interactive Vision-Language-Action (VLA) framework that enables spatially steerable embodied reasoning by allowing users to guide robot policies with explicit visual cues. Existing VLA models learn a direct "Sense-to-Act" mapping from multimodal observations to robot actions. While effective within the training distribution, such tightly coupled policies are brittle under out-of-domain (OOD) shifts and difficult to correct when failures occur. Although recent embodied Chain-of-Thought (CoT) approaches expose intermediate reasoning, they still lack a mechanism for incorporating human spatial guidance, limiting their ability to resolve visual ambiguities or recover from mistakes. To address this gap, our framework allows users to optionally guide the policy with spatial priors, such as affordance points, boxes, and traces, which the subsequent reasoning process can directly condition on. Based on these inputs, the model generates a unified spatial-visual Chain-of-Thought that integrates external guidance with internal task planning, aligning human visual intent with autonomous decision-making. For practical deployment, we further couple the reasoning module with a lightweight reactive action head for efficient action execution. Extensive experiments demonstrate the effectiveness of our approach. On the in-domain SimplerEnv WidowX benchmark, our framework achieves a state-of-the-art 81.2% success rate. Under OOD visual shifts and spatial ambiguities, a single visual interaction substantially improves task success over existing methods, highlighting the value of interactive reasoning for failure recovery in embodied control. Details of the project can be found here: https://signalispupupu.github.io/GTA-VLA_ProjPage/