Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting
作者: Wanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu
分类: cs.RO
发布日期: 2026-03-17
💡 一句话要点
提出PTR方法,通过后验-转移重加权实现异构机器人离线策略学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线策略学习 机器人学习 后训练 重加权 异构数据
📋 核心要点
- 现有离线机器人策略学习方法在异构数据集上表现不佳,因为它们平等对待所有样本,忽略了数据质量差异。
- PTR通过后验-转移重加权,根据样本的动作后结果的可归因性,自适应地调整每个样本的权重,实现保守的离线策略学习。
- PTR无需策略似然,兼容扩散模型和流匹配等动作头,并在异构机器人数据集上取得了显著的性能提升。
📝 摘要(中文)
离线后训练通过对记录的动作进行监督回归,将预训练的机器人策略适配到目标数据集。然而,机器人数据集通常是异构的,混合了不同的机器人形态、相机设置以及质量各异的演示数据,导致许多轨迹反映的是恢复行为、不一致的操作员技能或信息量不足的监督信号。均匀的后训练给予所有样本相同的权重,因此可能会对冲突或低归因数据进行平均。我们提出了后验-转移重加权(PTR),一种免奖励且保守的后训练方法,用于决定每个训练样本对监督更新的影响程度。对于每个样本,PTR将观察到的动作后结果编码为潜在目标,将其插入到不匹配的目标候选池中,并使用单独的转移评分器来估计目标索引上的softmax识别后验概率。后验概率与均匀分布的比率定义了PTR分数,该分数被转换为裁剪和混合的权重,并通过自归一化加权回归应用于原始动作目标。这种构造不需要易于处理的策略似然,并且与扩散和流匹配动作头兼容。PTR不是均匀地信任所有记录的监督信号,而是根据当前表示下每个样本的动作后结果的可归因性重新分配权重,从而改进了对异构机器人数据的保守离线适配。
🔬 方法详解
问题定义:现有的离线机器人策略学习方法,特别是后训练方法,在处理异构机器人数据集时面临挑战。这些数据集通常包含不同机器人、相机设置以及质量参差不齐的演示数据,导致训练数据中存在大量噪声和低质量样本。均匀地对待所有样本会降低策略学习的效率和效果,甚至导致策略性能下降。因此,如何有效地利用异构数据,避免被低质量样本干扰,是需要解决的关键问题。
核心思路:PTR的核心思想是根据每个样本的动作后结果的可归因性,动态地调整其在训练过程中的权重。具体来说,PTR通过评估观察到的动作后状态与预期状态的匹配程度,来判断该样本的质量。如果动作后状态与预期状态高度一致,则认为该样本具有较高的可归因性,应该赋予更高的权重;反之,如果动作后状态与预期状态不一致,则认为该样本可能包含噪声或错误,应该降低其权重。
技术框架:PTR的整体框架包括以下几个主要模块:1) 状态编码器:将观察到的动作后状态编码为潜在目标表示。2) 目标候选池:包含一系列不匹配的目标表示,用于评估目标表示的独特性。3) 转移评分器:用于计算目标表示与候选池中其他表示的相似度,并估计目标索引上的softmax识别后验概率。4) 权重计算模块:根据后验概率与均匀分布的比率,计算PTR分数,并将其转换为裁剪和混合的权重。5) 加权回归模块:使用计算得到的权重,对原始动作目标进行自归一化加权回归。
关键创新:PTR最重要的创新在于其免奖励的重加权机制。与传统的基于奖励的重加权方法不同,PTR不需要显式的奖励函数,而是通过评估动作后状态的可归因性来隐式地衡量样本的质量。这种方法避免了设计奖励函数的困难,并且更加鲁棒,能够适应各种复杂的机器人任务。此外,PTR还兼容扩散模型和流匹配等先进的动作头,使其能够应用于各种不同的机器人控制场景。
关键设计:PTR的关键设计包括:1) 使用状态编码器将动作后状态编码为潜在目标表示,以便进行相似度比较。2) 构建目标候选池,用于评估目标表示的独特性。3) 使用softmax识别后验概率来衡量目标表示的可归因性。4) 将PTR分数转换为裁剪和混合的权重,以避免过度信任高质量样本,并防止低质量样本对训练产生过大的负面影响。5) 使用自归一化加权回归来更新策略参数,以保证训练过程的稳定性。
🖼️ 关键图片
📊 实验亮点
论文在多个机器人控制任务上进行了实验,包括操作和导航任务。实验结果表明,PTR方法在异构数据集上显著优于现有的离线策略学习方法,例如Behavior Cloning (BC) 和 Conservative Q-Learning (CQL)。具体来说,PTR在某些任务上能够将性能提升高达50%以上,证明了其在处理异构数据方面的有效性。
🎯 应用场景
PTR方法具有广泛的应用前景,可以应用于各种需要离线策略学习的机器人任务中,例如:机器人操作、自动驾驶、医疗机器人等。尤其是在数据质量参差不齐的场景下,PTR能够有效地提高策略学习的效率和鲁棒性,降低对高质量数据的依赖,从而加速机器人的部署和应用。
📄 摘要(原文)
Offline post-training adapts a pretrained robot policy to a target dataset by supervised regression on recorded actions. In practice, robot datasets are heterogeneous: they mix embodiments, camera setups, and demonstrations of varying quality, so many trajectories reflect recovery behavior, inconsistent operator skill, or weakly informative supervision. Uniform post-training gives equal credit to all samples and can therefore average over conflicting or low-attribution data. We propose Posterior-Transition Reweighting (PTR), a reward-free and conservative post-training method that decides how much each training sample should influence the supervised update. For each sample, PTR encodes the observed post-action consequence as a latent target, inserts it into a candidate pool of mismatched targets, and uses a separate transition scorer to estimate a softmax identification posterior over target indices. The posterior-to-uniform ratio defines the PTR score, which is converted into a clipped-and-mixed weight and applied to the original action objective through self-normalized weighted regression. This construction requires no tractable policy likelihood and is compatible with both diffusion and flow-matching action heads. Rather than uniformly trusting all recorded supervision, PTR reallocates credit according to how attributable each sample's post-action consequence is under the current representation, improving conservative offline adaptation to heterogeneous robot data.