Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

📄 arXiv: 2509.18631v3 📥 PDF

作者: Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

分类: cs.RO, cs.AI

发布日期: 2025-09-23 (更新: 2026-01-16)

备注: Accepted to NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于最优传输的Sim-to-Real策略协同训练框架,提升机器人操作泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 Sim-to-Real 领域自适应 最优传输 协同训练 行为克隆 泛化能力

📋 核心要点

  1. 真实世界机器人操作演示数据获取成本高昂,而模拟数据存在与真实环境的领域差异。
  2. 提出基于最优传输的Sim-to-Real协同训练框架,对齐观测和动作的联合分布,学习领域不变特征。
  3. 实验表明,该方法能有效利用模拟数据,显著提升真实世界操作成功率,并具备泛化能力。

📝 摘要(中文)

本文提出了一种统一的Sim-and-Real协同训练框架,用于学习可泛化的机器人操作策略。该框架主要利用模拟数据,仅需少量真实世界演示。核心思想是学习一个领域不变且任务相关的特征空间。关键在于,对齐跨领域的观测和对应动作的联合分布,比仅对齐观测的边缘分布提供更丰富的信号。通过在协同训练框架中嵌入受最优传输(OT)启发的损失函数来实现这一点,并将其扩展到非平衡OT框架,以处理大量模拟数据和有限真实世界示例之间的不平衡。在具有挑战性的操作任务上验证了该方法,表明其可以利用丰富的模拟数据,在真实世界成功率方面实现高达30%的提升,甚至可以泛化到仅在模拟中看到的场景。

🔬 方法详解

问题定义:现有机器人操作策略学习方法依赖大量真实世界数据,获取成本高。利用模拟数据进行训练面临Sim-to-Real的领域差异问题,直接迁移效果不佳。现有领域自适应方法通常只关注观测的边缘分布对齐,忽略了动作信息,导致学习到的特征空间任务相关性不足。

核心思路:本文的核心思路是对齐模拟和真实环境中的观测和动作的联合分布,从而学习一个领域不变且任务相关的特征空间。通过对齐联合分布,模型可以更好地捕捉到任务的关键信息,从而提高策略在真实环境中的泛化能力。

技术框架:该框架是一个Sim-and-Real协同训练流程,包含以下几个主要模块:1) 特征提取器:用于将观测数据映射到特征空间。2) 策略网络:基于提取的特征生成动作。3) 最优传输损失:用于对齐模拟和真实环境的联合分布。4) 非平衡最优传输:用于处理模拟和真实数据量的不平衡。训练过程中,模型同时利用模拟和真实数据进行训练,通过最小化最优传输损失来对齐特征空间,从而提高策略的泛化能力。

关键创新:最重要的技术创新点是使用最优传输(OT)损失来对齐观测和动作的联合分布。与传统的只对齐观测边缘分布的方法相比,该方法能够更好地捕捉到任务的关键信息,从而提高策略的泛化能力。此外,使用非平衡最优传输(Unbalanced OT)来处理模拟和真实数据量的不平衡,进一步提高了模型的性能。

关键设计:最优传输损失的具体形式是基于Wasserstein距离的,用于衡量两个分布之间的距离。非平衡最优传输通过引入源和目标的边缘约束松弛变量,允许源和目标分布的总质量不相等,从而更好地处理数据不平衡问题。网络结构方面,特征提取器和策略网络可以使用各种常见的神经网络结构,例如卷积神经网络(CNN)或循环神经网络(RNN)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个具有挑战性的机器人操作任务上取得了显著的性能提升。与基线方法相比,该方法在真实世界成功率方面实现了高达30%的提升。更重要的是,该方法能够泛化到仅在模拟中看到的场景,表明其具有很强的泛化能力。项目网页提供了更多实验细节和可视化结果。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,例如工业自动化、家庭服务机器人、医疗机器人等。通过利用廉价的模拟数据和少量真实数据,可以快速训练出高性能的机器人操作策略,降低开发成本,加速机器人技术的落地应用。此外,该方法还可以推广到其他Sim-to-Real迁移学习问题中。

📄 摘要(原文)

Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only requires a few real-world demonstrations. Central to our approach is learning a domain-invariant, task-relevant feature space. Our key insight is that aligning the joint distributions of observations and their corresponding actions across domains provides a richer signal than aligning observations (marginals) alone. We achieve this by embedding an Optimal Transport (OT)-inspired loss within the co-training framework, and extend this to an Unbalanced OT framework to handle the imbalance between abundant simulation data and limited real-world examples. We validate our method on challenging manipulation tasks, showing it can leverage abundant simulation data to achieve up to a 30% improvement in the real-world success rate and even generalize to scenarios seen only in simulation. Project webpage: https://ot-sim2real.github.io/.