Adversarial Dual On-Policy Distillation from Expressive Flow-based Teacher

📄 arXiv: 2605.27095v1 📥 PDF

作者: Zhenglin Wan, Jingxuan Wu, Xingrui Yu, Chubin Zhang, Mingcong Lei, Bo An, Ivor W. Tsang, Yang You

分类: cs.LG

发布日期: 2026-05-26


💡 一句话要点

提出FA-OPD对抗双重在线策略蒸馏方法,提升模仿学习在具身控制中的鲁棒性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 具身控制 在线策略蒸馏 Flow Matching 对抗学习

📋 核心要点

  1. 现有模仿学习方法仅在专家状态上训练,缺乏在线修正信号,限制了策略的泛化能力。
  2. FA-OPD利用Flow Matching教师策略提供奖励和动作两种信号,引导学生策略在线探索和稳定学习。
  3. 实验表明,FA-OPD在多个机器人控制任务中超越基线,并在噪声环境下表现出更强的鲁棒性。

📝 摘要(中文)

本文提出了一种对抗双重在线策略蒸馏方法(FA-OPD),用于解决具身控制中的模仿学习问题。该方法利用从演示数据中学习的基于Flow Matching(FM)的教师策略,并与轻量级的MLP学生策略进行协同训练。教师策略为学生策略的rollout提供两种互补的信号:奖励通道学习状态-动作对的专家相似性目标,并通过长程策略优化驱动在线探索;动作通道在学生访问的状态下提供密集的局部目标,稳定利用。FA-OPD将两者结合,使奖励蒸馏能够泛化到点状演示之外,而动作蒸馏则使探索保持在接近专家行为的范围内。在六个机器人导航、操作和运动基准测试中,FA-OPD优于强大的基线,并在噪声或有限演示下表现出更强的鲁棒性。

🔬 方法详解

问题定义:在具身控制中,模仿学习旨在从专家演示数据中学习策略。然而,现有的行为克隆方法通常是离线监督学习,仅在专家状态上进行训练,无法获得策略实际访问状态的修正信号。这导致策略在面对未见过的状态时泛化能力较差,尤其是在演示数据有限或存在噪声的情况下。

核心思路:FA-OPD的核心思路是利用在线策略蒸馏(OPD)的框架,但克服了传统OPD需要一个强大的固定教师策略的限制。FA-OPD通过对抗训练的方式,同时学习一个基于Flow Matching的教师策略和一个轻量级的学生策略。教师策略提供奖励和动作两种信号,引导学生策略进行在线探索和稳定学习。

技术框架:FA-OPD的整体框架包含两个主要模块:Flow Matching教师策略和MLP学生策略。首先,使用专家演示数据训练Flow Matching教师策略,使其能够生成专家行为的分布。然后,学生策略与教师策略进行协同训练。在每个训练迭代中,学生策略在环境中进行rollout,教师策略根据学生访问的状态和动作,提供奖励和动作目标。学生策略通过最大化奖励和最小化与动作目标的差异来更新策略参数。

关键创新:FA-OPD的关键创新在于提出了对抗双重在线策略蒸馏的方法。与传统的OPD方法相比,FA-OPD不需要一个预先训练好的固定教师策略,而是通过对抗训练的方式,同时学习教师策略和学生策略。此外,FA-OPD利用Flow Matching教师策略提供奖励和动作两种信号,从而更有效地引导学生策略进行探索和学习。

关键设计:FA-OPD的关键设计包括:1) 使用Flow Matching作为教师策略,能够更好地建模多模态的专家行为;2) 设计了奖励通道和动作通道,分别提供长程的探索信号和短程的稳定信号;3) 使用对抗训练的方式,使得教师策略能够根据学生策略的rollout动态调整,从而更好地引导学生策略的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FA-OPD在六个机器人导航、操作和运动基准测试中,显著优于包括行为克隆、GAIL等在内的多个基线方法。在噪声或有限演示数据下,FA-OPD表现出更强的鲁棒性,证明了其在实际应用中的潜力。例如,在某些任务上,FA-OPD的性能提升超过了20%。

🎯 应用场景

FA-OPD方法可应用于各种具身控制任务,例如机器人导航、操作和运动控制。该方法尤其适用于演示数据有限或存在噪声的场景,可以提高模仿学习的鲁棒性和泛化能力。未来,该方法可以扩展到更复杂的任务和环境,例如人机协作和自动驾驶。

📄 摘要(原文)

Learning from demonstrations in embodied control is often cast as behavioral cloning, and recent diffusion or flow-matching policies improve this paradigm by modeling multi-modal expert actions. Yet these methods remain offline supervised learners: the policy is trained only on expert states and receives no corrective signal on the states it actually visits. On-policy distillation (OPD) offers a natural remedy, but standard OPD assumes a strong fixed teacher, which is unavailable in demonstration-only control. We propose \textbf{FA-OPD}, an \emph{adversarial dual on-policy distillation} method in which a Flow Matching (FM) teacher is learned from demonstrations and co-trained with a lightweight MLP student. The teacher provides two complementary signals on student rollouts. The reward channel learns an expert-likeness objective over state-action pairs and drives online exploration through long-horizon policy optimization. The action channel supplies dense local targets at student-visited states, stabilizing exploitation. FA-OPD couples them so that reward distillation enables generalization beyond point-wise demonstrations, while action distillation keeps exploration anchored near expert-like behavior. Across six robot navigation, manipulation, and locomotion benchmarks, FA-OPD beats strong baselines and shows much stronger robustness under noisy or limited demonstrations.