Adaptive Action Chunking via Multi-Chunk Q Value Estimation

📄 arXiv: 2605.10044v1 📥 PDF

作者: Yongjae Shin, Jongseong Chae, Seongmin Kim, Jongeui Park, Youngchul Sung

分类: cs.LG, cs.AI

发布日期: 2026-05-11


💡 一句话要点

提出自适应动作分块(ACH)算法,通过多块Q值估计实现动态动作序列长度调整。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 动作分块 Transformer架构 离线转在线学习 自适应控制 动作序列预测

📋 核心要点

  1. 现有动作分块方法受限于固定长度,无法适应不同状态下对动作序列长度的动态需求,限制了策略的灵活性与性能上限。
  2. 提出ACH算法,利用Transformer架构在单次前向传播中并行估计多种候选分块长度的Q值,实现基于状态的自适应决策。
  3. 在34项复杂任务中,ACH展现出优于固定长度基线的学习效率与泛化能力,验证了动态分块机制在强化学习中的有效性。

📝 摘要(中文)

动作分块(Action Chunking)已成为模仿学习中的关键技术,使策略能够预测连贯的动作序列而非单一动作。近期,该方法被引入强化学习(RL),在提升行为一致性和减少价值函数估计中的自举误差方面表现出色。然而,现有方法依赖固定的分块长度,导致在不同状态和任务下无法达到最优性能,形成瓶颈。本文提出了自适应动作分块(ACH),这是一种新型的离线转在线强化学习算法,能够在训练和推理过程中动态调节分块长度。为了针对动态变化的状态寻找最优分块长度,我们利用基于Transformer的架构,在单次前向传播中同时估计所有候选分块长度的动作价值。该机制使智能体能够根据当前状态自适应地选择最有效的动作分块长度。在34项挑战性任务上的评估表明,ACH持续优于固定长度基线,在复杂环境中展现出卓越的泛化能力和学习效率。

🔬 方法详解

问题定义:现有动作分块方法在强化学习中通常采用预设的固定长度,但在复杂任务中,不同状态下最优的动作序列长度是动态变化的,固定长度会导致策略在长时程任务中表现僵化,或在精细操作中产生累积误差。

核心思路:引入自适应机制,将分块长度视为策略的一部分。通过评估多种候选分块长度的动作价值,让智能体在每个时间步根据当前状态选择最优的动作序列长度,从而实现行为的灵活性与一致性平衡。

技术框架:采用基于Transformer的架构作为核心模型。输入当前状态序列,模型并行输出针对不同候选分块长度的Q值估计。智能体根据这些Q值选择最优长度,并执行对应的动作序列。

关键创新:核心创新在于“多块Q值估计”(Multi-Chunk Q Value Estimation),通过单次前向传播计算所有候选长度的价值,避免了多次推理带来的计算开销,实现了高效的动态决策。

关键设计:模型通过Transformer处理状态历史,输出层被设计为多头结构,分别对应不同的分块长度。训练过程中结合离线预训练与在线微调,通过最大化期望Q值来优化分块长度的选择策略,确保在不同任务阶段均能收敛至最优长度配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在涵盖34项挑战性任务的基准测试中,ACH算法表现出显著的性能优势。实验结果显示,相比于传统的固定长度动作分块方法,ACH在学习效率和最终策略性能上均有显著提升,特别是在需要精细操作与长程规划结合的复杂环境中,展现了极强的泛化能力与鲁棒性。

🎯 应用场景

该技术适用于机器人操作、自动驾驶及复杂控制任务。在这些场景中,智能体需根据环境复杂度动态调整动作粒度(如在简单路径中执行长序列动作,在复杂避障中执行短序列动作),从而显著提升复杂环境下的任务成功率与执行效率。

📄 摘要(原文)

Action chunking emerged as a pivotal technique in imitation learning, enabling policies to predict cohesive action sequences rather than single actions. Recently, this approach has expanded to reinforcement learning (RL), enhancing behavioral consistency and reducing bootstrapping errors in value function estimation. However, existing methods rely on a fixed chunk length, creating a performance bottleneck as the optimal length varies across states and tasks. In this paper, we propose Adaptive Action CHunking (ACH), a novel offline-to-online RL algorithm that dynamically modulates chunk length during both training and inference. To find the optimal chunk length for a dynamically varying current state, we simultaneously estimate action-values for all candidate chunk lengths in a single forward pass, using a Transformer-based architecture. Our mechanism allows the agent to select the most effective chunk length adaptively based on the current state. Evaluated on 34 challenging tasks, ACH consistently outperforms fixed-length baselines, demonstrating superior generalization and learning efficiency in complex environments.