ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

📄 arXiv: 2407.18550v1 📥 PDF

作者: Taewoong Kim, Cheolhong Min, Byeonghwi Kim, Jinyeon Kim, Wonje Jeung, Jonghyun Choi

分类: cs.RO, cs.AI

发布日期: 2024-07-26

备注: ECCV 2024 (Project page: https://twoongg.github.io/projects/realfred)


💡 一句话要点

提出ReALFRED,一个基于真实场景的具身智能指令跟随基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 指令跟随 真实场景 机器人学习 环境基准

📋 核心要点

  1. 现有虚拟环境在具身智能任务中存在对象交互性差、视觉效果与真实环境差异大、环境规模小等问题。
  2. ReALFRED基准通过采用真实世界的场景、物体和房间布局,缩小了虚拟环境与真实环境之间的差距。
  3. 实验表明,在ALFRED基准上表现良好的方法在ReALFRED上性能显著下降,鼓励开发更适应真实环境的方法。

📝 摘要(中文)

模拟虚拟环境已被广泛用于训练执行日常家务任务的机器人智能体。这些环境在很大程度上促进了研究进展,但通常存在对象交互性有限、视觉外观与真实环境不同或环境尺寸相对较小的问题。这阻碍了在虚拟场景中学习到的模型能够直接部署到真实环境中。为了弥合这些学习环境与部署环境(即真实环境)之间的差距,我们提出了ReALFRED基准,该基准采用真实世界的场景、对象和房间布局,通过理解自由形式的语言指令并在大型多房间3D捕获场景中与对象交互来学习完成家务任务的智能体。具体来说,我们扩展了ALFRED基准,更新了更大的环境空间,并缩小了视觉领域差距。通过ReALFRED,我们分析了之前为ALFRED基准设计的各种方法,并观察到它们在所有指标上都持续产生较低的性能,这鼓励社区在更真实的环境中开发方法。我们的代码和数据已公开。

🔬 方法详解

问题定义:论文旨在解决现有具身智能任务学习环境与真实环境存在较大差距的问题。现有方法在虚拟环境中训练的模型难以直接部署到真实环境中,主要痛点在于虚拟环境的真实感不足,包括物体交互的真实性、视觉效果的逼真度以及环境规模的限制。

核心思路:论文的核心思路是构建一个更贴近真实世界的具身智能任务学习环境。通过采用真实世界的场景、物体和房间布局,尽可能地缩小虚拟环境与真实环境之间的差距,从而提高模型在真实环境中的泛化能力。

技术框架:ReALFRED基准建立在ALFRED基准之上,主要扩展了环境的真实性。具体来说,使用了3D扫描的真实房间布局,并集成了真实世界的物体模型。整体流程与ALFRED类似,智能体接收自然语言指令,然后在环境中执行动作,与物体交互,最终完成任务。

关键创新:ReALFRED的关键创新在于其环境的真实性。与ALFRED等虚拟环境相比,ReALFRED使用了真实世界的场景、物体和房间布局,从而显著缩小了视觉领域差距,使得训练出的模型更易于迁移到真实世界。

关键设计:ReALFRED的关键设计在于其环境数据的采集和处理。使用了3D扫描技术获取真实房间的几何信息,并集成了高质量的3D物体模型。此外,为了保证环境的可用性,还进行了一系列的数据清洗和标注工作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,在ALFRED基准上表现良好的方法在ReALFRED基准上的性能显著下降。例如,在ALFRED上取得领先的基线模型在ReALFRED上的成功率降低了X%(具体数值未知),这表明现有方法在真实环境中的泛化能力不足,需要开发更适应真实环境的具身智能算法。

🎯 应用场景

ReALFRED基准的潜在应用领域包括家庭服务机器人、智能家居、虚拟现实和增强现实等。通过在该基准上训练的智能体,可以更好地理解人类指令,并在真实环境中执行各种任务,例如清洁、整理、烹饪等,从而提高人们的生活质量。此外,该基准还可以促进具身智能领域的研究进展,推动相关技术的发展。

📄 摘要(原文)

Simulated virtual environments have been widely used to learn robotic agents that perform daily household tasks. These environments encourage research progress by far, but often provide limited object interactability, visual appearance different from real-world environments, or relatively smaller environment sizes. This prevents the learned models in the virtual scenes from being readily deployable. To bridge the gap between these learning environments and deploying (i.e., real) environments, we propose the ReALFRED benchmark that employs real-world scenes, objects, and room layouts to learn agents to complete household tasks by understanding free-form language instructions and interacting with objects in large, multi-room and 3D-captured scenes. Specifically, we extend the ALFRED benchmark with updates for larger environmental spaces with smaller visual domain gaps. With ReALFRED, we analyze previously crafted methods for the ALFRED benchmark and observe that they consistently yield lower performance in all metrics, encouraging the community to develop methods in more realistic environments. Our code and data are publicly available.