Dynamic Execution Commitment of Vision-Language-Action Models

作者: Feng Chen, Xianghui Wang, Yuxuan Chen, Boying Li, Yefei He, Zeyu Zhang, Yicheng Wu

分类: cs.CV

发布日期: 2026-05-12

备注: Code will be released in the next version

💡 一句话要点

提出A3自适应动作接受机制，解决VLA模型动态执行承诺问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 动态执行承诺 自适应控制 动作规划 机器人控制

📋 核心要点

VLA模型依赖固定执行范围，忽略了预测可靠性的状态依赖性，导致动态环境适应性差。
A3将动态执行承诺转化为自推测前缀验证问题，通过一致性验证选择最佳执行动作序列。
实验表明，A3无需手动调整执行范围，即可在执行鲁棒性和推理吞吐量之间取得更好平衡。

📝 摘要（中文）

视觉-语言-动作(VLA)模型通常采用动作分块策略，即在单次前向传播中预测并提交一段连续的低级动作序列，以降低大规模骨干网络的推理成本并减少单步延迟。然而，将这些多步预测应用于实际执行需要在成功率和推理效率之间进行权衡，而这通常由针对每个任务手动调整的固定执行范围决定。这种启发式方法忽略了预测可靠性的状态依赖性，导致在动态或分布外环境中性能不稳定。本文提出了A3，一种自适应动作接受机制，将动态执行承诺重新定义为自推测前缀验证问题。A3首先通过分组采样计算轨迹动作的一致性得分，然后选择一个代表性的草案并优先进行下游验证。具体来说，它强制执行：（1）一致性排序的条件不变性，通过判断低一致性动作在以高一致性动作为条件重新解码时是否保持一致来验证它们；（2）前缀闭合的序列一致性，通过仅接受从头开始的最长连续验证动作序列来保证物理执行的完整性。因此，执行范围成为满足内部模型逻辑和顺序执行约束的最长可验证前缀。在各种VLA模型和基准测试上的实验表明，A3消除了手动调整范围的需要，同时实现了执行鲁棒性和推理吞吐量之间的卓越平衡。

🔬 方法详解

问题定义：VLA模型通常采用固定长度的动作序列执行，这种方法忽略了环境的动态变化和模型预测的不确定性。在环境变化剧烈或模型预测置信度较低时，固定长度的执行策略容易出错，导致性能下降。现有方法缺乏根据当前状态自适应调整执行长度的能力。

核心思路：A3的核心思想是将动作执行的承诺过程视为一个自推测的前缀验证问题。模型首先生成一个较长的动作序列草案，然后通过验证机制确定一个最长的、可靠的动作前缀进行执行。这种方法允许模型根据当前状态和预测的置信度动态调整执行的动作数量。

技术框架：A3主要包含以下几个阶段：1) 动作序列生成：利用VLA模型生成一个初始的动作序列。2) 一致性评分：通过分组采样计算每个动作的一致性得分，评估其可靠性。3) 草案选择：选择一个代表性的动作序列作为验证的起点。4) 条件不变性验证：验证低一致性动作在以高一致性动作为条件重新解码时是否保持一致。5) 序列一致性验证：确保执行的动作序列是连续且物理上可行的。6) 执行：执行通过验证的最长动作前缀。

关键创新：A3的关键创新在于其自适应的动作接受机制，它不再依赖于预先设定的固定执行范围，而是根据模型预测的一致性和环境的约束动态地选择执行的动作序列。这种方法能够更好地适应动态环境，提高执行的鲁棒性。与现有方法相比，A3无需手动调整执行范围，降低了人工干预的成本。

关键设计：A3的关键设计包括：1) 一致性评分函数：用于评估每个动作的可靠性。2) 条件不变性验证方法：通过重新解码验证低一致性动作的可靠性。3) 序列一致性验证方法：确保执行的动作序列在物理上是可行的。具体实现细节（如损失函数、网络结构等）依赖于所使用的VLA模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，A3在多个VLA模型和基准测试中均取得了显著的性能提升。A3无需手动调整执行范围，即可实现比固定范围方法更高的成功率和更好的推理吞吐量。具体性能数据（如成功率提升百分比、吞吐量提升百分比）在论文中进行了详细展示。

🎯 应用场景

A3自适应动作接受机制可广泛应用于机器人控制、自动驾驶、游戏AI等领域。它能够提高VLA模型在复杂动态环境中的适应性和鲁棒性，降低人工干预成本，提升自动化水平。未来，该技术有望应用于更广泛的智能体控制任务，实现更智能、更可靠的自主决策。

📄 摘要（原文）

Vision-Language-Action (VLA) models predominantly adopt action chunking, i.e., predicting and committing to a short horizon of consecutive low-level actions in a single forward pass, to amortize the inference cost of large-scale backbones and reduce per-step latency. However, committing these multi-step predictions to real-world execution requires balancing success rate against inference efficiency, a decision typically governed by fixed execution horizons tuned per task. Such heuristics ignore the state-dependent nature of predictive reliability, leading to brittle performance in dynamic or out-of-distribution settings. In this paper, we introduce A3, an Adaptive Action Acceptance mechanism that reframes dynamic execution commitment as a self-speculative prefix verification problem. A3 first computes a trajectory-wise consensus score of actions via group sampling, then selects a representative draft and prioritizes downstream verification. Specifically, it enforces: (1) consensus-ordered conditional invariance, which validates low-consensus actions by judging whether they remain consistent when re-decoded conditioned on high-consensus actions; and (2) prefix-closed sequential consistency, which guarantees physical rollout integrity by accepting only the longest continuous sequence of verified actions starting from the beginning. Consequently, the execution horizon emerges as the longest verifiable prefix satisfying both internal model logic and sequential execution constraints. Experiments across diverse VLA models and benchmarks demonstrate that A3 eliminates the need for manual horizon tuning while achieving a superior trade-off between execution robustness and inference throughput.

Dynamic Execution Commitment of Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理