MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation

📄 arXiv: 2602.08594v1 📥 PDF

作者: Zhenguo Sun, Bo-Sheng Huang, Yibo Peng, Xukun Li, Jingyu Ma, Yu Sun, Zhe Li, Haojun Jiang, Biao Gao, Zhenshan Bing, Xinlong Wang, Alois Knoll

分类: cs.RO

发布日期: 2026-02-09


💡 一句话要点

MOSAIC:通过快速残差自适应弥合通用人形机器人运动跟踪和遥操作的Sim-to-Real差距

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 运动跟踪 遥操作 强化学习 Sim-to-Real 残差学习 快速自适应

📋 核心要点

  1. 现有通用人形机器人运动跟踪器在真实硬件上进行遥操作时,易受界面和动力学误差影响,鲁棒性不足。
  2. MOSAIC通过强化学习训练通用运动跟踪器,并引入快速残差自适应,利用少量特定界面数据进行策略提炼,弥合Sim-to-Real差距。
  3. 实验结果表明,MOSAIC在离线运动回放和在线长时程遥操作中表现出良好的鲁棒性,优于传统微调方法。

📝 摘要(中文)

通用人形机器人运动跟踪器通过扩展数据和训练,在仿真环境中取得了显著成果,但在持续遥操作过程中,由于界面和动力学引起的误差,在硬件上仍然表现脆弱。本文提出了MOSAIC,一个开源、全栈的人形机器人运动跟踪和全身遥操作系统,可跨多个界面工作。MOSAIC首先通过强化学习,在多源运动库上学习面向遥操作的通用运动跟踪器,该运动库具有自适应重采样和奖励机制,强调世界坐标系下的运动一致性,这对于移动遥操作至关重要。为了在不牺牲通用性的前提下弥合sim-to-real界面差距,MOSAIC执行快速残差自适应:使用最少的界面特定数据训练界面特定策略,然后通过附加残差模块将其提炼到通用跟踪器中,优于朴素的微调或持续学习。通过系统的消融实验、分布外基准测试和真实机器人实验验证了MOSAIC,展示了在实际延迟和噪声下,离线运动回放和在线长时程遥操作的鲁棒性。

🔬 方法详解

问题定义:现有通用人形机器人运动跟踪器在仿真环境中表现良好,但部署到真实机器人上进行遥操作时,由于界面差异(例如,操作手柄类型、传感器噪声)和动力学差异(例如,机器人本体的物理特性),性能会显著下降。现有的微调或持续学习方法难以在保持通用性的同时,快速适应新的界面。

核心思路:MOSAIC的核心思路是利用强化学习训练一个通用的运动跟踪器,使其具备良好的泛化能力。然后,通过快速残差自适应,使用少量特定于新界面的数据,训练一个残差策略,该策略用于修正通用跟踪器的输出,从而快速适应新界面,同时保持通用性。

技术框架:MOSAIC系统包含以下几个主要模块:1) 多源运动库:包含各种人形机器人的运动数据,用于训练通用运动跟踪器。2) 基于强化学习的通用运动跟踪器:使用多源运动库进行训练,目标是跟踪操作者的运动,并在世界坐标系下保持运动一致性。3) 快速残差自适应模块:使用少量特定于新界面的数据,训练一个残差策略,该策略用于修正通用跟踪器的输出。4) 真实机器人控制接口:将跟踪器的输出转换为机器人的控制指令,实现遥操作。

关键创新:MOSAIC的关键创新在于快速残差自适应。与传统的微调或持续学习方法不同,MOSAIC使用一个附加的残差模块来适应新界面,而不是直接修改通用跟踪器的参数。这种方法可以更快地适应新界面,同时保持通用跟踪器的泛化能力。此外,MOSAIC还强调世界坐标系下的运动一致性,这对于移动遥操作至关重要。

关键设计:在强化学习训练通用运动跟踪器时,使用了自适应重采样和奖励机制,以提高训练效率和鲁棒性。自适应重采样根据数据的难度和重要性进行采样,而奖励机制则鼓励跟踪器在世界坐标系下保持运动一致性。残差策略的网络结构是一个小型神经网络,输入是通用跟踪器的输出和当前界面的状态,输出是残差修正量。损失函数包括跟踪误差和正则化项,以防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MOSAIC在真实机器人上实现了鲁棒的离线运动回放和在线长时程遥操作。与传统的微调方法相比,MOSAIC在适应新界面时速度更快,性能更好。在分布外基准测试中,MOSAIC也表现出良好的泛化能力。例如,在具有实际延迟和噪声的环境下,MOSAIC能够稳定地控制机器人完成复杂的运动任务。

🎯 应用场景

MOSAIC系统可应用于各种人形机器人的遥操作场景,例如:危险环境下的救援、远程医疗、太空探索等。通过快速适应不同的操作界面,可以降低操作难度,提高操作效率,并扩展人形机器人的应用范围。该研究对于推动人形机器人在实际场景中的应用具有重要意义。

📄 摘要(原文)

Generalist humanoid motion trackers have recently achieved strong simulation metrics by scaling data and training, yet often remain brittle on hardware during sustained teleoperation due to interface- and dynamics-induced errors. We present MOSAIC, an open-source, full-stack system for humanoid motion tracking and whole-body teleoperation across multiple interfaces. MOSAIC first learns a teleoperation-oriented general motion tracker via RL on a multi-source motion bank with adaptive resampling and rewards that emphasize world-frame motion consistency, which is critical for mobile teleoperation. To bridge the sim-to-real interface gap without sacrificing generality, MOSAIC then performs rapid residual adaptation: an interface-specific policy is trained using minimal interface-specific data, and then distilled into the general tracker through an additive residual module, outperforming naive fine-tuning or continual learning. We validate MOSAIC with systematic ablations, out-of-distribution benchmarking, and real-robot experiments demonstrating robust offline motion replay and online long-horizon teleoperation under realistic latency and noise.