MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation

作者: Zhenguo Sun, Bo-Sheng Huang, Yibo Peng, Xukun Li, Jingyu Ma, Yu Sun, Zhe Li, Haojun Jiang, Biao Gao, Zhenshan Bing, Xinlong Wang, Alois Knoll

分类: cs.RO

发布日期: 2026-02-09

💡 一句话要点

MOSAIC：通过快速残差自适应弥合通用人形机器人运动跟踪和遥操作的Sim-to-Real差距

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱八：物理动画 (Physics-based Animation)

关键词: 人形机器人 运动跟踪 遥操作 强化学习 Sim-to-Real 残差学习 快速自适应

📋 核心要点

现有通用人形机器人运动跟踪器在真实硬件上进行遥操作时，易受界面和动力学误差影响，鲁棒性不足。
MOSAIC通过强化学习训练通用运动跟踪器，并引入快速残差自适应，利用少量特定界面数据进行策略提炼，弥合Sim-to-Real差距。
实验结果表明，MOSAIC在离线运动回放和在线长时程遥操作中表现出良好的鲁棒性，优于传统微调方法。

📝 摘要（中文）

通用人形机器人运动跟踪器通过扩展数据和训练，在仿真环境中取得了显著成果，但在持续遥操作过程中，由于界面和动力学引起的误差，在硬件上仍然表现脆弱。本文提出了MOSAIC，一个开源、全栈的人形机器人运动跟踪和全身遥操作系统，可跨多个界面工作。MOSAIC首先通过强化学习，在多源运动库上学习面向遥操作的通用运动跟踪器，该运动库具有自适应重采样和奖励机制，强调世界坐标系下的运动一致性，这对于移动遥操作至关重要。为了在不牺牲通用性的前提下弥合sim-to-real界面差距，MOSAIC执行快速残差自适应：使用最少的界面特定数据训练界面特定策略，然后通过附加残差模块将其提炼到通用跟踪器中，优于朴素的微调或持续学习。通过系统的消融实验、分布外基准测试和真实机器人实验验证了MOSAIC，展示了在实际延迟和噪声下，离线运动回放和在线长时程遥操作的鲁棒性。

🔬 方法详解

问题定义：现有通用人形机器人运动跟踪器在仿真环境中表现良好，但部署到真实机器人上进行遥操作时，由于界面差异（例如，操作手柄类型、传感器噪声）和动力学差异（例如，机器人本体的物理特性），性能会显著下降。现有的微调或持续学习方法难以在保持通用性的同时，快速适应新的界面。

核心思路：MOSAIC的核心思路是利用强化学习训练一个通用的运动跟踪器，使其具备良好的泛化能力。然后，通过快速残差自适应，使用少量特定于新界面的数据，训练一个残差策略，该策略用于修正通用跟踪器的输出，从而快速适应新界面，同时保持通用性。

技术框架：MOSAIC系统包含以下几个主要模块：1) 多源运动库：包含各种人形机器人的运动数据，用于训练通用运动跟踪器。2) 基于强化学习的通用运动跟踪器：使用多源运动库进行训练，目标是跟踪操作者的运动，并在世界坐标系下保持运动一致性。3) 快速残差自适应模块：使用少量特定于新界面的数据，训练一个残差策略，该策略用于修正通用跟踪器的输出。4) 真实机器人控制接口：将跟踪器的输出转换为机器人的控制指令，实现遥操作。

关键创新：MOSAIC的关键创新在于快速残差自适应。与传统的微调或持续学习方法不同，MOSAIC使用一个附加的残差模块来适应新界面，而不是直接修改通用跟踪器的参数。这种方法可以更快地适应新界面，同时保持通用跟踪器的泛化能力。此外，MOSAIC还强调世界坐标系下的运动一致性，这对于移动遥操作至关重要。

关键设计：在强化学习训练通用运动跟踪器时，使用了自适应重采样和奖励机制，以提高训练效率和鲁棒性。自适应重采样根据数据的难度和重要性进行采样，而奖励机制则鼓励跟踪器在世界坐标系下保持运动一致性。残差策略的网络结构是一个小型神经网络，输入是通用跟踪器的输出和当前界面的状态，输出是残差修正量。损失函数包括跟踪误差和正则化项，以防止过拟合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MOSAIC在真实机器人上实现了鲁棒的离线运动回放和在线长时程遥操作。与传统的微调方法相比，MOSAIC在适应新界面时速度更快，性能更好。在分布外基准测试中，MOSAIC也表现出良好的泛化能力。例如，在具有实际延迟和噪声的环境下，MOSAIC能够稳定地控制机器人完成复杂的运动任务。

🎯 应用场景

MOSAIC系统可应用于各种人形机器人的遥操作场景，例如：危险环境下的救援、远程医疗、太空探索等。通过快速适应不同的操作界面，可以降低操作难度，提高操作效率，并扩展人形机器人的应用范围。该研究对于推动人形机器人在实际场景中的应用具有重要意义。

📄 摘要（原文）

Generalist humanoid motion trackers have recently achieved strong simulation metrics by scaling data and training, yet often remain brittle on hardware during sustained teleoperation due to interface- and dynamics-induced errors. We present MOSAIC, an open-source, full-stack system for humanoid motion tracking and whole-body teleoperation across multiple interfaces. MOSAIC first learns a teleoperation-oriented general motion tracker via RL on a multi-source motion bank with adaptive resampling and rewards that emphasize world-frame motion consistency, which is critical for mobile teleoperation. To bridge the sim-to-real interface gap without sacrificing generality, MOSAIC then performs rapid residual adaptation: an interface-specific policy is trained using minimal interface-specific data, and then distilled into the general tracker through an additive residual module, outperforming naive fine-tuning or continual learning. We validate MOSAIC with systematic ablations, out-of-distribution benchmarking, and real-robot experiments demonstrating robust offline motion replay and online long-horizon teleoperation under realistic latency and noise.

MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理