FetchBot: Learning Generalizable Object Fetching in Cluttered Scenes via Zero-Shot Sim2Real

📄 arXiv: 2502.17894v2 📥 PDF

作者: Weiheng Liu, Yuxuan Wan, Jilong Wang, Yuxuan Kuang, Wenbo Cui, Xuesong Shi, Haoran Li, Dongbin Zhao, Zhizheng Zhang, He Wang

分类: cs.RO, cs.CV

发布日期: 2025-02-25 (更新: 2025-08-24)

备注: 9th Annual Conference on Robot Learning (CoRL 2025, Oral)


💡 一句话要点

FetchBot:通过零样本Sim2Real学习在杂乱场景中进行可泛化的物体抓取

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物体抓取 具身智能 Sim2Real 深度学习 机器人 动作规划 遮挡处理

📋 核心要点

  1. 现有方法难以在杂乱场景中实现可泛化的物体抓取,主要挑战在于物体遮挡和真实世界数据获取成本高昂。
  2. FetchBot通过大规模合成数据训练深度条件动作生成模型,并结合RGB图像的深度预测和局部占用预测进行sim-to-real迁移。
  3. 实验表明,FetchBot在真实杂乱环境中实现了89.95%的物体抓取成功率,显著优于现有方法,并对透明、反射等物体具有鲁棒性。

📝 摘要(中文)

在具身智能中,杂乱场景下的可泛化物体抓取仍然是一个基础且对应用至关重要的挑战。紧密堆叠的物体导致不可避免的遮挡,使得安全动作生成变得尤为困难。在这种部分可观察性下,有效的策略不仅必须在不同的物体和布局中泛化,还必须推理遮挡以避免碰撞。然而,为此任务收集大规模真实世界数据仍然非常昂贵,导致这个问题在很大程度上未解决。本文介绍了FetchBot,一个针对此挑战的sim-to-real框架。我们首先整理了一个大规模合成数据集,包含100万个不同的场景和50万个具有代表性的演示。基于此数据集,FetchBot采用了一种深度条件方法进行动作生成,该方法利用结构线索来实现鲁棒的、感知障碍物的动作规划。然而,深度在模拟中是完美的,但在真实世界环境中是有噪声的。为了解决这种sim-to-real差距,FetchBot使用基础模型从RGB输入预测深度,并将局部占用预测作为预训练任务集成,从而为sim-to-real迁移提供可泛化的潜在表示。在模拟和真实世界环境中的大量实验表明了强大的零样本sim-to-real迁移、有效的杂乱处理以及对新场景的适应性。在杂乱环境中,它实现了89.95%的平均真实世界成功率,显著优于先前的方法。此外,FetchBot在具有挑战性的案例中表现出出色的鲁棒性,例如抓取透明、反射和不规则物体,突出了其应用价值。

🔬 方法详解

问题定义:论文旨在解决在杂乱场景中机器人抓取特定物体的问题。现有方法在处理物体遮挡、泛化到不同物体和场景以及从模拟环境迁移到真实环境时面临挑战。真实世界数据收集成本高昂,限制了模型的训练和泛化能力。

核心思路:论文的核心思路是利用大规模合成数据进行训练,并通过深度信息和局部占用预测来弥合模拟环境和真实环境之间的差距。通过在模拟环境中学习鲁棒的动作规划策略,并将其迁移到真实世界,从而实现零样本的sim-to-real迁移。

技术框架:FetchBot框架包含以下主要模块:1) 大规模合成数据集生成,包含多样化的场景和物体布局;2) 深度条件动作生成模型,利用深度信息进行障碍物感知的动作规划;3) 基于RGB图像的深度预测模块,使用预训练的基础模型预测深度信息;4) 局部占用预测模块,作为预训练任务,学习可泛化的潜在表示。整体流程为:在合成数据上训练模型,然后通过深度预测和局部占用预测将模型迁移到真实世界。

关键创新:论文的关键创新在于:1) 提出了一种深度条件动作生成方法,能够有效处理物体遮挡;2) 利用预训练的基础模型进行深度预测,并结合局部占用预测,实现了零样本的sim-to-real迁移;3) 构建了一个大规模的合成数据集,为模型的训练提供了充足的数据。

关键设计:深度条件动作生成模型使用深度图像作为输入,通过卷积神经网络提取特征,然后使用循环神经网络生成动作序列。局部占用预测模块使用卷积神经网络预测每个像素的占用概率。损失函数包括动作预测损失和局部占用预测损失。具体参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FetchBot在真实杂乱环境中实现了89.95%的物体抓取成功率,显著优于现有方法。在模拟环境中,FetchBot的成功率也达到了较高水平(具体数值未知)。此外,FetchBot在处理透明、反射和不规则物体时表现出出色的鲁棒性,表明其具有很强的泛化能力。

🎯 应用场景

该研究成果可应用于仓储物流、家庭服务、工业自动化等领域。例如,机器人可以在杂乱的仓库环境中抓取特定商品,或者在家庭环境中帮助人们整理物品。该技术能够提高机器人的自主性和适应性,降低人工干预的需求,具有重要的实际应用价值和商业前景。

📄 摘要(原文)

Generalizable object fetching in cluttered scenes remains a fundamental and application-critical challenge in embodied AI. Closely packed objects cause inevitable occlusions, making safe action generation particularly difficult. Under such partial observability, effective policies must not only generalize across diverse objects and layouts but also reason about occlusion to avoid collisions. However, collecting large-scale real-world data for this task remains prohibitively expensive, leaving this problem largely unsolved. In this paper, we introduce FetchBot, a sim-to-real framework for this challenge. We first curate a large-scale synthetic dataset featuring 1M diverse scenes and 500k representative demonstrations. Based on this dataset, FetchBot employs a depth-conditioned method for action generation, which leverages structural cues to enable robust obstacle-aware action planning. However, depth is perfect in simulation but noisy in real-world environments. To address this sim-to-real gap, FetchBot predicts depth from RGB inputs using a foundation model and integrates local occupancy prediction as a pre-training task, providing a generalizable latent representation for sim-to-real transfer. Extensive experiments in simulation and real-world environments demonstrate the strong zero-shot sim-to-real transfer, effective clutter handling, and adaptability to novel scenarios. In cluttered environments, it achieves an average real-world success rate of 89.95%, significantly outperforming prior methods. Moreover, FetchBot demonstrates excellent robustness in challenging cases, such as fetching transparent, reflective, and irregular objects, highlighting its practical value.