Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment Manipulation on GR1 and G1

📄 arXiv: 2512.01358v1 📥 PDF

作者: Junsung Park, Hogun Kee, Songhwai Oh

分类: cs.RO, cs.LG

发布日期: 2025-12-01

备注: 8 pages, 10 figures


💡 一句话要点

提出模态增强微调框架,提升基座机器人策略在不同人形机器人上的操作能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模态增强 微调 人形机器人 多模态学习

📋 核心要点

  1. 现有方法难以将基座机器人策略有效迁移到不同形态的机器人上,面临泛化性挑战。
  2. 论文提出模态增强微调框架,通过引入接触信号、深度信息等模态,提升策略对环境的感知能力。
  3. 实验表明,该方法在GR1和G1机器人上均显著提升了操作成功率,验证了模态增强的有效性。

📝 摘要(中文)

本文提出了一种模态增强微调框架,旨在将基座机器人策略适配到不同的人形机器人上。我们在两种不同的环境中验证了该方法:(i)GR1机器人,利用公共数据集,并引入了后处理模态,包括二元接触信号和ZoeDepth生成的度量深度;(ii)Unitree G1机器人,为此我们贡献了一个新的多模态数据集,其中包含cuRobo运动规划、逆运动学和真实接触力测量。实验表明,模态增强能够持续提高不同机器人上的策略性能。具体而言,对于GR1,集成接触状态线索和RGB-D融合将在线成功率从51%提高到63%。此外,在G1的“拾取苹果到碗”任务中,我们的接触增强模型实现了94%的成功率,显著优于标准微调的48%和零样本迁移的0%基线。这些结果表明,轻量级后处理有效地增强了GR1的策略,而高质量的多模态数据对于可靠地迁移到Unitree G1至关重要。因此,这项工作建立了一个统一的、以数据为中心的途径,通过有针对性的模态设计和多模态微调来扩展基座机器人策略。

🔬 方法详解

问题定义:论文旨在解决基座机器人策略在不同人形机器人上的泛化问题。现有方法在面对不同机器人形态、传感器配置和任务需求时,往往难以取得理想的效果,需要大量的特定机器人数据进行重新训练。这限制了基座机器人策略的实际应用范围和效率。

核心思路:论文的核心思路是通过模态增强来提升策略对环境的感知能力,从而提高其泛化性。具体而言,通过引入额外的模态信息(如接触信号、深度信息),使策略能够更好地理解环境状态,并做出更合理的决策。这种方法避免了完全依赖特定机器人数据进行训练,降低了迁移成本。

技术框架:整体框架包含以下几个主要阶段:1) 数据收集:针对目标机器人,收集包含RGB图像、深度图像、接触力等多种模态的数据。对于GR1,采用公共数据集并进行后处理,生成接触信号和深度信息。对于G1,构建包含cuRobo运动规划、逆运动学和真实接触力测量的新数据集。2) 模态增强:将收集到的多模态数据与原始数据进行融合,增强策略的输入信息。3) 微调:利用增强后的数据对基座机器人策略进行微调,使其适应目标机器人的特性。

关键创新:论文的关键创新在于提出了一个通用的模态增强微调框架,可以灵活地应用于不同的机器人和任务。通过有针对性地设计和选择模态,可以有效地提升策略的泛化能力。此外,论文还贡献了一个高质量的G1机器人多模态数据集,为相关研究提供了数据支持。

关键设计:对于GR1,论文采用轻量级的后处理方法生成接触信号和深度信息,降低了数据获取成本。对于G1,论文构建了包含cuRobo运动规划、逆运动学和真实接触力测量的高质量数据集,为策略训练提供了更丰富的信息。在微调过程中,论文采用了标准的监督学习方法,并根据具体任务调整了学习率等超参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在GR1机器人上,通过集成接触状态线索和RGB-D融合,在线成功率从51%提高到63%。在G1机器人的“拾取苹果到碗”任务中,接触增强模型实现了94%的成功率,显著优于标准微调的48%和零样本迁移的0%。这些结果充分证明了模态增强微调框架的有效性。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,例如工业自动化、家庭服务、医疗康复等。通过模态增强微调,可以快速将基座机器人策略部署到不同的机器人平台上,降低开发成本,提高机器人应用的灵活性和智能化水平。未来,该方法有望进一步扩展到更复杂的机器人系统和任务中。

📄 摘要(原文)

This paper presents a modality-augmented fine-tuning framework designed to adapt foundation robot policies to diverse humanoid embodiments. We validate our approach across two distinct settings: (i) the GR1 embodiment, utilizing public datasets where we introduce post-processed modalities, including binary contact signals and ZoeDepth-generated metric depth; and (ii) the Unitree G1 embodiment, for which we contribute a novel multi-modal dataset incorporating cuRobo motion planning, inverse kinematics, and ground-truth contact-force measurements. Our experiments demonstrate that modality augmentation consistently enhances policy performance across different embodiments. Specifically, for the GR1, integrating contact-state cues and RGB-D fusion improves online success rates from 51% to 63%. Furthermore, in the G1 "Pick Apple to Bowl" task, our contact-augmented model achieves a success rate of 94%, significantly outperforming the 48% achieved by standard fine-tuning and the 0% baseline of zero-shot transfer. These results highlight that lightweight post-processing effectively strengthens policies for GR1, while high-quality multi-modal data is crucial for reliable transfer to the Unitree G1. Consequently, this work establishes a unified, data-centric pathway for extending foundation robot policies through targeted modality design and multi-modal fine-tuning.