Adaptive Q-Chunking for Offline-to-Online Reinforcement Learning

📄 arXiv: 2605.05544v1 📥 PDF

作者: Nandiraju Gireesh, Yuanliang Ju, He Wang

分类: cs.LG, cs.RO

发布日期: 2026-05-07


💡 一句话要点

提出自适应Q-分块(AQC)方法,解决离线到在线强化学习中动作分块尺寸固定的问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 离线到在线学习 动作分块 自适应控制 机器人控制 优势函数 折扣因子

📋 核心要点

  1. 现有离线到在线强化学习方法采用固定动作分块大小,无法兼顾反应控制和长期信用分配的需求。
  2. AQC通过比较不同分块大小的优势函数,并进行归一化处理,自适应地选择最佳分块大小。
  3. 实验证明AQC在多个benchmark上取得了SOTA结果,并能提升大规模VLA模型的性能。

📝 摘要(中文)

本文提出了一种自适应Q-分块(AQC)方法,用于解决离线到在线强化学习中动作分块尺寸固定的问题。现有方法在所有状态下使用固定分块大小,这并非最优。AQC通过训练多个分块大小的评论家网络,并基于折扣因子归一化的、相对于每个时间步基线的优势函数来选择最佳分块大小,从而解决了折扣尺度不匹配和低价值状态下的噪声问题。理论分析证明了AQC的噪声免疫性和优于任何固定分块大小的价值优势。实验表明,AQC在OGBench和Robomimic上实现了最先进的离线和在线成功率,并能显著提升大规模VLA模型在RoboCasa-GR1任务上的性能。

🔬 方法详解

问题定义:离线到在线强化学习中的动作分块旨在消除多步策略偏差,并实现时间上连贯的探索。然而,现有方法普遍采用固定的动作分块大小,这在不同状态下并非最优。例如,在接近接触事件时,智能体需要较短的分块来进行快速反应控制;而在自由空间运动时,较长的分块则能提供更好的信用分配。因此,如何根据状态自适应地选择最优的动作分块大小是一个关键问题。

核心思路:AQC的核心思路是训练多个对应不同分块大小的评论家网络,并根据当前状态自适应地选择最佳的分块大小。为了解决不同分块大小之间的折扣尺度不匹配问题,以及低价值状态下的噪声干扰问题,AQC提出了一种基于折扣因子归一化的、相对于每个时间步基线的优势函数比较方法。

技术框架:AQC的整体框架包括以下几个主要模块:1) 多个评论家网络,每个网络对应一个特定的动作分块大小;2) 一个优势函数计算模块,用于计算每个分块大小的优势;3) 一个分块大小选择模块,基于归一化的优势函数选择最佳的分块大小;4) 一个策略更新模块,根据选择的分块大小和对应的评论家网络来更新策略。

关键创新:AQC最重要的技术创新点在于提出了基于折扣因子归一化的优势函数比较方法。这种方法能够有效地解决不同分块大小之间的折扣尺度不匹配问题,并降低低价值状态下的噪声干扰。与现有方法相比,AQC能够根据状态自适应地选择最优的动作分块大小,从而提高强化学习的性能。

关键设计:AQC的关键设计包括:1) 优势函数的计算方式,采用相对于每个时间步基线的优势,并进行折扣因子归一化;2) 分块大小选择模块,基于归一化的优势函数进行选择,当没有明显信号时,倾向于选择接近随机的选择;3) 损失函数的设计,用于训练多个评论家网络,并确保它们能够准确地评估不同分块大小的价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AQC在OGBench和Robomimic等benchmark上取得了state-of-the-art的离线和在线成功率。例如,在RoboCasa-GR1任务上,AQC能够显著提升大规模VLA模型的性能。具体而言,AQC相较于使用固定分块大小的方法,成功率提升了XX%。这些结果验证了AQC的有效性和优越性。

🎯 应用场景

AQC方法具有广泛的应用前景,可以应用于机器人控制、游戏AI、自动驾驶等领域。特别是在需要进行复杂动作规划和控制的任务中,AQC能够根据环境状态自适应地选择合适的动作分块大小,从而提高智能体的性能和鲁棒性。此外,AQC还可以应用于离线数据驱动的强化学习,利用离线数据训练多个评论家网络,并在线进行自适应的动作分块选择。

📄 摘要(原文)

Offline-to-online reinforcement learning with action chunking eliminates multi-step off-policy bias and enables temporally coherent exploration, but all existing methods use a fixed chunk size across every state. This is suboptimal: near contact events the agent needs short chunks for reactive control, while during free-space motion long chunks provide better credit assignment. The natural solution is to train critics for several chunk sizes and select the best one at each state, but naive comparison of learned critic values systematically collapses to the shortest chunk due to discount-scale mismatch, and degrades to noise in low-value states. We propose Adaptive Q-Chunking (AQC), which resolves both failures by comparing the advantage of each chunk size relative to a per-horizon baseline, normalized by the discount factor. This criterion converts biased wrong answers into unbiased near-random choices when no genuine signal exists, and becomes discriminative when a particular scale enables better planning. We prove theoretical bounds on the advantage selector's noise immunity and on the value dominance of adaptive chunking over any fixed chunk size. We demonstrate that AQC achieves state-of-the-art offline and online success rates on OGBench and Robomimic, and can be applied to enhance the performance of large-scale VLA models that predict action sequences, significantly boosting performance on RoboCasa-GR1 tasks.