Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment Manipulation on GR1 and G1

作者: Junsung Park, Hogun Kee, Songhwai Oh

分类: cs.RO, cs.LG

发布日期: 2025-12-01

备注: 8 pages, 10 figures

💡 一句话要点

提出模态增强微调框架，提升基座机器人策略在不同人形机器人上的操作能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模态增强 微调 人形机器人 多模态学习

📋 核心要点

现有方法难以将基座机器人策略有效迁移到不同形态的机器人上，面临泛化性挑战。
论文提出模态增强微调框架，通过引入接触信号、深度信息等模态，提升策略对环境的感知能力。
实验表明，该方法在GR1和G1机器人上均显著提升了操作成功率，验证了模态增强的有效性。

📝 摘要（中文）

本文提出了一种模态增强微调框架，旨在将基座机器人策略适配到不同的人形机器人上。我们在两种不同的环境中验证了该方法：（i）GR1机器人，利用公共数据集，并引入了后处理模态，包括二元接触信号和ZoeDepth生成的度量深度；（ii）Unitree G1机器人，为此我们贡献了一个新的多模态数据集，其中包含cuRobo运动规划、逆运动学和真实接触力测量。实验表明，模态增强能够持续提高不同机器人上的策略性能。具体而言，对于GR1，集成接触状态线索和RGB-D融合将在线成功率从51%提高到63%。此外，在G1的“拾取苹果到碗”任务中，我们的接触增强模型实现了94%的成功率，显著优于标准微调的48%和零样本迁移的0%基线。这些结果表明，轻量级后处理有效地增强了GR1的策略，而高质量的多模态数据对于可靠地迁移到Unitree G1至关重要。因此，这项工作建立了一个统一的、以数据为中心的途径，通过有针对性的模态设计和多模态微调来扩展基座机器人策略。

🔬 方法详解

问题定义：论文旨在解决基座机器人策略在不同人形机器人上的泛化问题。现有方法在面对不同机器人形态、传感器配置和任务需求时，往往难以取得理想的效果，需要大量的特定机器人数据进行重新训练。这限制了基座机器人策略的实际应用范围和效率。

核心思路：论文的核心思路是通过模态增强来提升策略对环境的感知能力，从而提高其泛化性。具体而言，通过引入额外的模态信息（如接触信号、深度信息），使策略能够更好地理解环境状态，并做出更合理的决策。这种方法避免了完全依赖特定机器人数据进行训练，降低了迁移成本。

技术框架：整体框架包含以下几个主要阶段：1) 数据收集：针对目标机器人，收集包含RGB图像、深度图像、接触力等多种模态的数据。对于GR1，采用公共数据集并进行后处理，生成接触信号和深度信息。对于G1，构建包含cuRobo运动规划、逆运动学和真实接触力测量的新数据集。2) 模态增强：将收集到的多模态数据与原始数据进行融合，增强策略的输入信息。3) 微调：利用增强后的数据对基座机器人策略进行微调，使其适应目标机器人的特性。

关键创新：论文的关键创新在于提出了一个通用的模态增强微调框架，可以灵活地应用于不同的机器人和任务。通过有针对性地设计和选择模态，可以有效地提升策略的泛化能力。此外，论文还贡献了一个高质量的G1机器人多模态数据集，为相关研究提供了数据支持。

关键设计：对于GR1，论文采用轻量级的后处理方法生成接触信号和深度信息，降低了数据获取成本。对于G1，论文构建了包含cuRobo运动规划、逆运动学和真实接触力测量的高质量数据集，为策略训练提供了更丰富的信息。在微调过程中，论文采用了标准的监督学习方法，并根据具体任务调整了学习率等超参数。

🖼️ 关键图片

📊 实验亮点

在GR1机器人上，通过集成接触状态线索和RGB-D融合，在线成功率从51%提高到63%。在G1机器人的“拾取苹果到碗”任务中，接触增强模型实现了94%的成功率，显著优于标准微调的48%和零样本迁移的0%。这些结果充分证明了模态增强微调框架的有效性。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域，例如工业自动化、家庭服务、医疗康复等。通过模态增强微调，可以快速将基座机器人策略部署到不同的机器人平台上，降低开发成本，提高机器人应用的灵活性和智能化水平。未来，该方法有望进一步扩展到更复杂的机器人系统和任务中。

📄 摘要（原文）

This paper presents a modality-augmented fine-tuning framework designed to adapt foundation robot policies to diverse humanoid embodiments. We validate our approach across two distinct settings: (i) the GR1 embodiment, utilizing public datasets where we introduce post-processed modalities, including binary contact signals and ZoeDepth-generated metric depth; and (ii) the Unitree G1 embodiment, for which we contribute a novel multi-modal dataset incorporating cuRobo motion planning, inverse kinematics, and ground-truth contact-force measurements. Our experiments demonstrate that modality augmentation consistently enhances policy performance across different embodiments. Specifically, for the GR1, integrating contact-state cues and RGB-D fusion improves online success rates from 51% to 63%. Furthermore, in the G1 "Pick Apple to Bowl" task, our contact-augmented model achieves a success rate of 94%, significantly outperforming the 48% achieved by standard fine-tuning and the 0% baseline of zero-shot transfer. These results highlight that lightweight post-processing effectively strengthens policies for GR1, while high-quality multi-modal data is crucial for reliable transfer to the Unitree G1. Consequently, this work establishes a unified, data-centric pathway for extending foundation robot policies through targeted modality design and multi-modal fine-tuning.

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment Manipulation on GR1 and G1

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理