LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models

📄 arXiv: 2605.09948v1 📥 PDF

作者: Boyang Shen, Kaixiang Yang, Hao Wang, Qiuyu Yu, Qiang Xie, Qiang Li, Zhiwei Wang

分类: cs.AI, cs.CV, cs.RO

发布日期: 2026-05-11


💡 一句话要点

提出LoopVLA架构,通过循环细化与充分性估计提升视觉-语言-动作模型的推理效率与控制精度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 循环神经网络 推理加速 自监督学习 机器人操作

📋 核心要点

  1. 现有VLA模型盲目依赖深层特征,忽略了机器人闭环控制中低层几何线索的重要性,且缺乏对特征是否足以支撑动作决策的量化评估。
  2. 提出LoopVLA架构,通过共享Transformer块进行循环特征细化,并引入充分性估计模块,动态决定是否需要进一步计算以平衡精度与效率。
  3. 实验证明LoopVLA显著提升了推理效率,参数量降低45%,吞吐量提升1.7倍,在多项机器人操作基准测试中表现出优异的成功率。

📝 摘要(中文)

当前的视觉-语言-动作(VLA)模型通常将视觉-语言骨干网络的深层特征视为动作预测的最优解。然而,机器人操作涉及大量频繁的闭环空间调整,过度的抽象不仅浪费计算资源,还会削弱对精确控制至关重要的低层几何线索。现有的提前退出策略多依赖预定义层或启发式规则,缺乏对表征是否“充分”的直接判断。本文提出了LoopVLA,一种循环VLA架构,通过联合学习表征细化、动作预测和充分性估计来解决该问题。LoopVLA利用共享Transformer块迭代细化多模态Token,并在每一步输出候选动作及充分性评分。通过参数共享,该方法解耦了细化过程与绝对层索引。此外,作者引入了自监督分布对齐目标,将中间置信度与动作质量关联,从而将充分性学习与策略优化相结合。在LIBERO、LIBERO-Plus和VLA-Arena上的实验表明,LoopVLA在保持或超越基线性能的同时,参数量减少了45%,推理吞吐量提升至1.7倍。

🔬 方法详解

问题定义:现有VLA模型在处理机器人操作任务时,往往强制执行固定深度的特征提取,导致计算冗余,且深层抽象可能丢失对精细动作控制至关重要的空间几何信息,缺乏对“何时停止计算”的自适应判断。

核心思路:引入循环细化机制,将特征提取过程视为一个动态的迭代过程。通过在每一步迭代中同时预测动作和评估当前表征的“充分性”,实现计算资源的按需分配,避免不必要的深度计算。

技术框架:LoopVLA采用参数共享的Transformer模块进行多模态Token的迭代更新。在每一轮迭代中,模型输出当前的动作预测值以及一个充分性评分(Sufficiency Score),该评分决定了是否需要进入下一轮细化。

关键创新:核心创新在于将充分性估计与策略学习解耦,通过自监督分布对齐目标(Self-supervised Distribution Alignment),使模型能够根据动作质量的提升程度自动学习何时停止细化,而非依赖启发式规则。

关键设计:引入自监督损失函数,强制中间层的置信度与最终动作质量的相对提升保持一致,从而将充分性学习与策略优化信号紧密耦合,确保模型在推理时能根据任务难度动态调整计算深度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LoopVLA在LIBERO、LIBERO-Plus及VLA-Arena基准测试中表现卓越。相比于传统VLA模型,其参数量减少了45%,推理吞吐量最高提升至1.7倍。在保持任务成功率不下降甚至优于强基线模型的前提下,显著降低了计算开销,证明了其在效率与性能平衡上的优越性。

🎯 应用场景

该研究主要应用于具身智能与机器人操作领域,特别适用于需要高频闭环反馈的复杂操作任务(如物体抓取、装配、精细移动)。其高效的推理机制使其在计算资源受限的嵌入式机器人平台上具有极高的实用价值,为实现实时、鲁棒的机器人控制提供了新的技术路径。

📄 摘要(原文)

Current Vision-Language-Action (VLA) models typically treat the deepest representation of a vision-language backbone as universally optimal for action prediction. However, robotic manipulation is composed of many frequent closed-loop spatial adjustments, for which excessive abstraction may waste computation and weaken low-level geometric cues essential for precise control. Existing early-exit strategies attempt to reduce computation by stopping at predefined layers or applying heuristic rules such as action consistency, but they do not directly answer when a representation is actually sufficient for action. In this paper, we present LoopVLA, a recurrent VLA architecture that jointly learns representation refinement, action prediction, and sufficiency estimation. LoopVLA iteratively applies a shared Transformer block to refine multimodal tokens, and at each iteration produces both a candidate action and a sufficiency score that estimates whether further refinement is necessary. By sharing parameters across iterations, LoopVLA decouples refinement from absolute layer indices and grounds sufficiency estimation in the evolving representation itself. Since sufficiency has no direct supervision, we introduce a self-supervised distribution alignment objective, where intermediate confidence scores are trained to match the relative action quality across refinement steps, thereby linking sufficiency learning to policy optimization signals. Experiments on LIBERO, LIBERO-Plus, and VLA-Arena show that LoopVLA pushes the efficiency-performance frontier of VLA policies, reducing parameters by 45% and improving inference throughput by up to 1.7 times while matching or outperforming strong baselines in task success.