Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning with Dense Labeling

📄 arXiv: 2412.16576v2 📥 PDF

作者: Daichi Yashima, Ryosuke Korekata, Komei Sugiura

分类: cs.RO, cs.CL, cs.CV

发布日期: 2024-12-21 (更新: 2024-12-24)

备注: Accepted for IEEE RA-L 2025


💡 一句话要点

提出RelaX-Former,用于开放词汇移动操作中的目标物与容器图像检索。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇 移动操作 图像检索 对比学习 家政服务机器人

📋 核心要点

  1. 现有方法难以从大量相似图像中准确检索目标物体和容器,这是开放词汇移动操作的关键挑战。
  2. RelaX-Former通过对比学习,利用正样本、未标记正样本和负样本,学习更鲁棒和多样的图像表示。
  3. 实验表明,RelaX-Former在图像检索指标上优于基线模型,并在真实机器人实验中取得了75%的成功率。

📝 摘要(中文)

本文针对日益增长的家政服务机器人(DSR)需求,提出了一种基于开放词汇指令的DSR,该机器人能够将日常物品运送到指定的家具上。该方法的核心在于从预先收集的室内环境图像中检索目标物体和容器的图像。例如,给定指令“请将挂在金属毛巾架上的右侧红色毛巾放入左侧的白色洗衣机中”,DSR应根据检索到的图像将红色毛巾运送到洗衣机。这是一个挑战,因为需要从数千张收集的图像中检索正确的图像,其中可能包含许多相似的毛巾和电器图像。为了解决这个问题,我们提出了RelaX-Former,它从正样本、未标记的正样本和负样本中学习多样且鲁棒的表示。我们在包含真实室内图像和人工标注指令的数据集上评估了RelaX-Former,实验结果表明,RelaX-Former在标准图像检索指标上优于现有的基线模型。此外,我们使用DSR进行了物理实验,以评估我们的方法在零样本迁移设置中的性能。实验涉及DSR根据开放词汇指令将物体运送到特定容器,总体成功率为75%。

🔬 方法详解

问题定义:论文旨在解决开放词汇移动操作任务中,机器人如何根据自然语言指令准确地从大量室内环境图像中检索目标物体和容器图像的问题。现有方法的痛点在于,室内环境图像复杂,存在大量相似物体,导致检索精度不高,难以满足实际应用需求。

核心思路:论文的核心思路是利用对比学习,通过区分正样本、未标记正样本和负样本,学习更鲁棒和多样的图像表示。这种方法能够有效地应对室内环境中物体相似性高、光照变化大等挑战,提高图像检索的准确率。

技术框架:整体框架包含图像编码器、文本编码器和对比学习模块。首先,使用图像编码器和文本编码器分别提取图像和文本的特征表示。然后,通过对比学习模块,将正样本对(目标物体和对应文本描述)的特征表示拉近,将负样本对的特征表示推远。未标记的正样本则用于进一步增强模型的鲁棒性。

关键创新:论文的关键创新在于提出了Double Relaxed Contrastive Learning。传统的对比学习只关注正负样本对,而忽略了未标记的正样本。RelaX-Former通过引入未标记的正样本,并采用双重松弛策略,使得模型能够学习到更加鲁棒和多样的图像表示,从而提高检索精度。

关键设计:在对比学习模块中,使用了InfoNCE损失函数,并对正负样本的权重进行了调整,以平衡不同样本对对模型训练的影响。此外,图像编码器和文本编码器采用了Transformer结构,以更好地捕捉图像和文本中的上下文信息。具体参数设置在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RelaX-Former在图像检索任务中优于现有基线模型,在真实机器人实验中取得了75%的成功率。这些结果验证了RelaX-Former在开放词汇移动操作任务中的有效性,并表明该方法具有良好的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于家政服务机器人、智能仓储机器人、医疗辅助机器人等领域。通过结合自然语言理解和视觉感知,机器人能够更好地理解人类指令,完成复杂的任务,提高工作效率和服务质量。未来,该技术有望进一步推广到更广泛的机器人应用场景中。

📄 摘要(原文)

Growing labor shortages are increasing the demand for domestic service robots (DSRs) to assist in various settings. In this study, we develop a DSR that transports everyday objects to specified pieces of furniture based on open-vocabulary instructions. Our approach focuses on retrieving images of target objects and receptacles from pre-collected images of indoor environments. For example, given an instruction "Please get the right red towel hanging on the metal towel rack and put it in the white washing machine on the left," the DSR is expected to carry the red towel to the washing machine based on the retrieved images. This is challenging because the correct images should be retrieved from thousands of collected images, which may include many images of similar towels and appliances. To address this, we propose RelaX-Former, which learns diverse and robust representations from among positive, unlabeled positive, and negative samples. We evaluated RelaX-Former on a dataset containing real-world indoor images and human annotated instructions including complex referring expressions. The experimental results demonstrate that RelaX-Former outperformed existing baseline models across standard image retrieval metrics. Moreover, we performed physical experiments using a DSR to evaluate the performance of our approach in a zero-shot transfer setting. The experiments involved the DSR to carry objects to specific receptacles based on open-vocabulary instructions, achieving an overall success rate of 75%.