Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

📄 arXiv: 2605.00438v1 📥 PDF

作者: Jinkun Liu, Haohan Chi, Lingfeng Zhang, Yifan Xie, YuAn Wang, Long Chen, Hangjun Ye, Xiaoshuai Hao, Wenbo Ding

分类: cs.AI, cs.RO

发布日期: 2026-05-01


💡 一句话要点

提出交错视觉-语言推理(IVLR)框架,用于长时程机器人操作任务。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 长时程规划 视觉-语言推理 多模态学习 Transformer 伪监督学习

📋 核心要点

  1. 现有视觉-语言-动作策略在长时程机器人操作中,难以兼顾逻辑连贯性和几何约束。
  2. IVLR框架通过交错的文本子目标和视觉关键帧,显式地表示任务过程中的语义和几何信息。
  3. 实验表明,IVLR在长时程操作任务中显著优于现有方法,尤其是在长序列和视觉分布偏移的情况下。

📝 摘要(中文)

本文提出了一种名为交错视觉-语言推理(IVLR)的策略框架,用于解决长时程机器人操作任务中逻辑连贯性和几何约束问题。IVLR的核心是“trace”,一种显式的中间表示,它在整个任务过程中交替使用文本子目标和视觉关键帧。在测试时,一个多模态Transformer从初始观察和指令中自生成全局语义-几何trace,缓存它,并基于trace、原始指令和当前观察来调节闭环动作解码器。为了训练模型,作者通过时间分割演示并使用视觉-语言模型为每个阶段添加字幕来构建伪监督。在模拟基准测试中,IVLR在LIBERO上达到了95.5%的平均成功率,包括LIBERO-Long上的92.4%,以及SimplerEnv-WidowX上的59.4%。消融实验表明,文本和视觉模态都是必要的。

🔬 方法详解

问题定义:长时程机器人操作任务需要同时具备逻辑连贯性和几何约束的规划。现有的视觉-语言-动作策略通常将规划隐藏在潜在状态中,或者只暴露单一模态的信息,例如文本链式思考仅编码因果关系,而视觉预测则缺乏语义约束。这些方法难以处理复杂、长时程的任务。

核心思路:本文的核心思路是利用交错的视觉和语言信息,显式地构建一个包含语义和几何信息的中间表示(trace)。通过文本子目标来保证逻辑连贯性,通过视觉关键帧来提供几何约束,从而实现更有效的长时程规划。

技术框架:IVLR框架包含以下几个主要模块:1) 多模态Transformer:用于从初始观察和指令中自生成交错的视觉-语言trace。2) Trace缓存:用于存储生成的trace,以便在后续的动作解码中使用。3) 闭环动作解码器:基于trace、原始指令和当前观察来生成动作序列,实现闭环控制。

关键创新:IVLR的关键创新在于提出了交错的视觉-语言trace,作为一种显式的中间表示,它能够同时编码语义和几何信息。与传统的隐式规划方法相比,IVLR的trace更易于理解和调试,并且能够更好地应对长时程任务中的挑战。与单一模态的表示相比,交错的视觉-语言trace能够更好地利用两种模态的互补信息。

关键设计:为了训练IVLR模型,作者采用了伪监督的方法,通过时间分割演示并使用视觉-语言模型为每个阶段添加字幕来生成训练数据。在训练过程中,使用了交叉熵损失函数来优化trace的生成,并使用了行为克隆损失函数来优化动作解码器。具体Transformer和动作解码器的网络结构细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IVLR在LIBERO数据集上取得了显著的性能提升,平均成功率达到95.5%,在更具挑战性的LIBERO-Long数据集上达到92.4%,在SimplerEnv-WidowX数据集上达到59.4%。消融实验表明,文本和视觉模态都是必要的,单独使用文本或视觉trace的性能均低于交错的视觉-语言trace。相比于没有trace的方法,LIBERO-Long的成功率从37.7%提升到92.4%。

🎯 应用场景

该研究成果可应用于各种需要长时程规划和操作的机器人任务,例如家庭服务机器人、工业自动化机器人、医疗机器人等。通过显式地表示任务过程中的语义和几何信息,IVLR能够提高机器人的操作效率和鲁棒性,使其能够更好地适应复杂和动态的环境。

📄 摘要(原文)

Long-horizon robotic manipulation requires plans that are both logically coherent and geometrically grounded. Existing Vision-Language-Action policies usually hide planning in latent states or expose only one modality: text-only chain-of-thought encodes causal order but misses spatial constraints, while visual prediction provides geometric cues but often remains local and semantically underconstrained. We introduce Interleaved Vision--Language Reasoning (IVLR), a policy framework built around \trace{}, an explicit intermediate representation that alternates textual subgoals with visual keyframes over the full task horizon. At test time, a single native multimodal transformer self-generates this global semantic-geometric trace from the initial observation and instruction, caches it, and conditions a closed-loop action decoder on the trace, original instruction, and current observation. Because standard robot datasets lack such traces, we construct pseudo-supervision by temporally segmenting demonstrations and captioning each stage with a vision-language model. Across simulated benchmarks for long-horizon manipulation and visual distribution shift, \method{} reaches 95.5\% average success on LIBERO, including 92.4\% on LIBERO-Long, and 59.4\% overall success on SimplerEnv-WidowX. Ablations show that both modalities are necessary: without traces, LIBERO-Long success drops to 37.7\%; text-only and vision-only traces reach 62.0\% and 68.4\%, while the full interleaved trace reaches 92.4\%. Stress tests with execution perturbations and masked trace content show moderate degradation, suggesting that the trace can tolerate local corruption and moderate execution drift, but remains limited under stale or incorrect global plans.