Mixture of Horizons in Action Chunking
作者: Dong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-11-24
备注: 15 pages, 14 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出混合视野动作分块(MoH)策略,提升机器人操作中VLA模型的性能和泛化性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人操作 视觉-语言-动作模型 动作分块 混合视野 Transformer 长期规划 动态推理
📋 核心要点
- VLA模型在机器人操作中面临动作块长度选择的难题,长视野牺牲精度,短视野缺乏全局性。
- MoH策略将动作块分解为不同视野的片段,并行处理并融合,兼顾长期预测和短期精度。
- 实验表明,MoH在模拟和真实世界任务中均有显著提升,并在LIBERO上达到新的SOTA。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作中表现出卓越的能力,但其性能对训练期间使用的动作块长度(称为“视野”)非常敏感。我们的经验研究表明,存在一个固有的权衡:较长的视野提供更强的全局预测能力,但会降低细粒度的准确性,而较短的视野可以提高局部控制的精度,但在长期任务中表现不佳,这意味着选择固定的单一视野是次优的。为了缓解这种权衡,我们提出了一种混合视野(MoH)策略。MoH将动作块重新排列成具有不同视野的多个片段,使用共享的动作Transformer并行处理它们,并使用轻量级的线性门融合输出。它具有三个吸引人的优点:1) MoH在单个模型中共同利用长期预测和短期精度,从而提高性能和对复杂任务的泛化能力。2) MoH是即插即用的全注意力动作模块,具有最小的训练或推理开销。3) MoH支持具有自适应视野的动态推理,通过跨视野共识选择稳定的动作,实现比基线高2.5倍的吞吐量,同时保持卓越的性能。在基于流的策略π_0、π_{0.5}和单步回归策略π_{reg}上的大量实验表明,MoH在模拟和真实世界任务中都产生了持续且显着的收益。值得注意的是,在混合任务设置下,使用MoH的π_{0.5}在仅30k次训练迭代后,在LIBERO上达到了99%的平均成功率,创造了新的state-of-the-art。
🔬 方法详解
问题定义:VLA模型在机器人操作任务中,动作块长度(horizon)的选择是一个关键问题。如果选择较长的动作块,模型可以获得更好的全局视野,从而更好地规划长期动作,但会牺牲动作的精细程度和准确性。反之,如果选择较短的动作块,模型可以更精确地控制局部动作,但难以完成需要长期规划的任务。现有的方法通常采用固定的动作块长度,无法同时兼顾全局视野和局部精度,导致性能受限。
核心思路:MoH的核心思路是将一个动作块分解成多个具有不同horizon的片段,然后并行地处理这些片段,最后将它们的输出融合起来。这样,模型既可以利用长horizon片段提供的全局视野,又可以利用短horizon片段提供的局部精度。这种混合的方式可以有效地缓解长短horizon之间的trade-off,从而提高模型的整体性能。
技术框架:MoH的整体架构包括以下几个主要模块:1) 动作块分割模块:将输入的动作块分割成多个具有不同horizon的片段。2) 共享动作Transformer:使用一个共享的Transformer网络并行地处理这些片段。3) 线性门融合模块:使用一个轻量级的线性门网络将Transformer的输出融合起来,得到最终的动作预测。整个流程是端到端可训练的。
关键创新:MoH最重要的技术创新在于提出了混合视野的思想,通过并行处理不同horizon的动作片段,实现了全局视野和局部精度的有效结合。与现有方法相比,MoH不需要手动选择一个固定的动作块长度,而是可以自适应地学习不同horizon的权重,从而更好地适应不同的任务需求。此外,MoH还支持动态推理,可以根据当前的状态选择最合适的horizon,进一步提高模型的性能。
关键设计:MoH的关键设计包括:1) 动作块分割策略:论文中采用了均匀分割的策略,即将动作块分割成长度相等的片段。2) 线性门融合网络:使用一个简单的线性层和一个sigmoid激活函数来实现融合权重的计算。3) 损失函数:采用标准的回归损失函数来训练模型。在实验中,作者还探索了不同的horizon组合和融合策略,并选择了效果最好的配置。
📊 实验亮点
实验结果表明,MoH在多个机器人操作任务中均取得了显著的性能提升。在LIBERO数据集上,使用MoH的π_{0.5}策略在仅30k次训练迭代后,达到了99%的平均成功率,创造了新的state-of-the-art。此外,MoH还支持动态推理,可以实现比基线高2.5倍的吞吐量,同时保持卓越的性能。这些结果充分证明了MoH策略的有效性和优越性。
🎯 应用场景
MoH策略可广泛应用于机器人操作领域,尤其适用于需要长期规划和精细控制的复杂任务,例如:家庭服务机器人、工业自动化机器人、医疗手术机器人等。该方法能够提升机器人在复杂环境中的适应性和操作精度,具有重要的实际应用价值和商业前景。未来,MoH还可以扩展到其他序列决策任务中,例如:自动驾驶、游戏AI等。
📄 摘要(原文)
Vision-language-action (VLA) models have shown remarkable capabilities in robotic manipulation, but their performance is sensitive to the $\textbf{action chunk length}$ used during training, termed $\textbf{horizon}$. Our empirical study reveals an inherent trade-off: longer horizons provide stronger global foresight but degrade fine-grained accuracy, while shorter ones sharpen local control yet struggle on long-term tasks, implying fixed choice of single horizons being suboptimal. To mitigate the trade-off, we propose a $\textbf{mixture of horizons (MoH)}$ strategy. MoH rearranges the action chunk into several segments with different horizons, processes them in parallel with a shared action transformer, and fuses outputs with a light linear gate. It has three appealing benefits. 1) MoH exploits long-term foresight and short-term precision jointly within a single model, improving both performance and generalizability to complex tasks. 2) MoH is plug-and-play for full-attention action modules with minimal training or inference overhead. 3) MoH enables dynamic inference with adaptive horizons, which selects stable actions through cross-horizon consensus, achieving 2.5$\times$ higher throughput than baselines while preserving superior performance. Extensive experiments over flow-based policies $π_0$, $π_{0.5}$, and one-step regression policy $π_{\text{reg}}$ demonstrate that MoH yields consistent and significant gains on both simulations and real-world tasks. Notably, under mixed-task setting, $π_{0.5}$ with MoH reaches a new state-of-the-art with 99$\%$ average success rate on LIBERO after only $30k$ training iterations. Project page: https://github.com/Timsty1/MixtureOfHorizons