VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

📄 arXiv: 2605.30011v1 📥 PDF

作者: Mingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

分类: cs.CV, cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出VisualThink-VLA,通过视觉中间推理实现高效低延迟的视觉-语言-动作策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 中间推理 视觉证据 低延迟 机器人控制

📋 核心要点

  1. 现有VLA策略依赖文本链式思考,但文本信息易受干扰,自回归解码增加延迟,不适用于实时闭环控制。
  2. VisualThink-VLA通过视觉中间推理引导动作预测,利用紧凑的视觉证据接口,避免解码开销,提升空间精度。
  3. VisualThink-VLA采用选择性路由机制学习视觉证据tokens,在多个基准测试和真实机器人评估中实现了显著的性能提升和延迟降低。

📝 摘要(中文)

本文提出VisualThink-VLA,一个用于精确、低延迟视觉-语言-动作(VLA)策略的视觉中间推理框架。其核心思想是通过有效的视觉思考来引导动作预测,利用紧凑的视觉证据接口来保持空间精度,同时避免解码开销。此外,VisualThink-VLA采用定制的选择性路由机制来学习视觉证据tokens,从而实现低延迟推理,同时保持高容量的专业化。论文还引入了VisualEvidence-Kit,这是一个以VisualEvidence-Agent为中心的监督和审计资源,构建了一个包含754.7k VLA指令的VisualEvidence-Set,用于路由监督和反事实忠实性测试。在多个基准测试和真实机器人评估中,VisualThink-VLA在大多数基准测试上实现了最高的成功率,同时将推理增强基线的数秒延迟降低到亚秒级别。例如,在BridgeData V2上,它将步进延迟从ECoT的8.377秒降低到0.367秒,实现了22.8倍的加速。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)策略通常采用文本链式思考(Chain-of-Thought, CoT)进行中间推理。然而,在具身控制任务中,文本信息容易受到无关或弱相关信息的干扰,影响动作预测的准确性。此外,自回归文本解码过程会引入显著的延迟,使得这些方法难以应用于需要实时响应的闭环控制场景。因此,如何设计一种既能有效进行中间推理,又能保证低延迟的VLA策略是一个关键问题。

核心思路:VisualThink-VLA的核心思路是利用视觉信息进行中间推理,避免使用文本信息。具体来说,它通过学习一个紧凑的视觉证据接口来引导动作预测。这个视觉证据接口保留了空间精度,同时避免了文本解码带来的延迟。通过这种方式,VisualThink-VLA能够更准确、更快速地进行动作预测。

技术框架:VisualThink-VLA的整体框架包含以下几个主要模块:1) 视觉编码器:用于将输入的视觉信息编码成视觉特征。2) 视觉证据生成器:用于生成紧凑的视觉证据tokens,这些tokens包含了用于动作预测的关键信息。3) 选择性路由模块:用于学习视觉证据tokens,选择与当前任务相关的tokens,从而提高效率。4) 动作预测器:基于视觉证据tokens进行动作预测。整个流程是:视觉编码器提取视觉特征,视觉证据生成器生成视觉证据,选择性路由模块选择相关证据,最后动作预测器基于选择的证据进行动作预测。

关键创新:VisualThink-VLA最重要的技术创新点在于使用视觉信息作为中间推理的媒介,而不是传统的文本信息。这种方法避免了文本解码的延迟,同时保留了空间精度,使得VLA策略能够更准确、更快速地进行动作预测。此外,选择性路由机制也是一个重要的创新点,它能够学习视觉证据tokens,选择与当前任务相关的tokens,从而提高效率。

关键设计:VisualThink-VLA的关键设计包括:1) 视觉证据接口的设计:如何选择合适的视觉特征作为视觉证据,以及如何将这些特征编码成紧凑的tokens。2) 选择性路由机制的设计:如何设计路由机制,使得它能够有效地选择与当前任务相关的视觉证据tokens。3) VisualEvidence-Kit的设计:如何构建一个包含大量VLA指令的VisualEvidence-Set,用于路由监督和反事实忠实性测试。具体的参数设置、损失函数、网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisualThink-VLA在多个基准测试中取得了显著的性能提升。例如,在BridgeData V2上,它将步进延迟从ECoT的8.377秒降低到0.367秒,实现了22.8倍的加速。同时,在大多数基准测试上,VisualThink-VLA实现了最高的成功率,证明了其在VLA任务中的有效性。这些实验结果表明,VisualThink-VLA是一种高效、准确的VLA策略。

🎯 应用场景

VisualThink-VLA在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以应用于需要实时响应的具身智能任务,例如机器人操作、自动驾驶车辆的决策控制等。该研究的实际价值在于提高了VLA策略的效率和准确性,使得机器人能够更好地理解环境并做出相应的动作。未来,该技术有望推动具身智能的发展,使得机器人能够更好地服务于人类。

📄 摘要(原文)

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.