GHIL-Glue: Hierarchical Control with Filtered Subgoal Images

作者: Kyle B. Hatch, Ashwin Balakrishna, Oier Mees, Suraj Nair, Seohong Park, Blake Wulfe, Masha Itkina, Benjamin Eysenbach, Sergey Levine, Thomas Kollar, Benjamin Burchfiel

分类: cs.RO, cs.AI, cs.CV, cs.LG

发布日期: 2024-10-26

备注: Code, model checkpoints and videos can be found at https://ghil-glue.github.io

💡 一句话要点

GHIL-Glue：通过过滤子目标图像实现分层控制，提升机器人泛化能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 分层控制 模仿学习 生成模型 机器人操作 视觉伪影

📋 核心要点

现有方法难以有效连接预训练生成模型和低层控制器，导致机器人学习系统泛化能力受限。
GHIL-Glue 过滤无助于任务进展的子目标，并增强策略对不良视觉伪影的鲁棒性，从而改善接口。
实验表明，GHIL-Glue 在模拟和真实环境中均取得了显著的性能提升，尤其是在 CALVIN 基准测试中。

📝 摘要（中文）

本文提出了一种名为生成式分层模仿学习-Glue (GHIL-Glue) 的方法，旨在解决生成模型和低层控制器之间的接口瓶颈问题，从而提高机器人学习系统的泛化能力。该方法通过过滤掉无法实现任务进展的子目标，并增强目标条件策略对生成子目标中不良视觉伪影的鲁棒性，有效地将语言条件图像或视频预测模型与低层目标条件策略“粘合”在一起。在模拟和真实环境中的大量实验表明，GHIL-Glue 在利用生成子目标的多个分层模型中实现了 25% 的性能提升，并在 CALVIN 模拟基准测试中，对于使用来自单个 RGB 相机观察的策略，实现了新的最先进水平。此外，GHIL-Glue 在 3/4 的语言条件操作任务中优于其他通用机器人策略，验证了其在物理实验中零样本泛化的能力。

🔬 方法详解

问题定义：现有方法在将大规模互联网数据上预训练的图像和视频生成模型应用于机器人学习时，面临生成模型与低层控制器接口的瓶颈问题。生成模型可能预测出逼真但不符合物理规律的图像，从而误导低层策略。同时，低层策略可能对生成目标图像中的细微视觉伪影非常敏感，导致性能下降。

核心思路：GHIL-Glue 的核心思路是通过过滤机制筛选出有益的子目标，并提高低层策略对生成子目标中噪声的鲁棒性。通过这种方式，可以更有效地利用生成模型的先验知识，同时避免其潜在的负面影响。

技术框架：GHIL-Glue 采用分层控制架构，包含以下主要模块：1) 语言条件图像或视频生成模型，用于生成中间子目标；2) 子目标过滤器，用于评估子目标的有效性并过滤掉无助于任务进展的子目标；3) 目标条件策略，用于根据过滤后的子目标执行低层控制动作。整体流程是：给定语言指令，生成模型生成一系列子目标图像，子目标过滤器评估这些图像，然后目标条件策略根据筛选后的子目标执行动作。

关键创新：GHIL-Glue 的关键创新在于子目标过滤机制和对视觉伪影的鲁棒性增强。子目标过滤机制能够有效去除不符合物理规律或与任务无关的子目标，从而提高整体性能。同时，通过训练目标条件策略对生成图像中的视觉伪影具有鲁棒性，可以进一步提高系统的泛化能力。

关键设计：子目标过滤器的设计至关重要，可以使用各种指标来评估子目标的有效性，例如，预测的奖励、任务完成度等。目标条件策略可以使用模仿学习或强化学习进行训练，关键在于使其对生成图像中的噪声具有一定的容忍度。损失函数可以包括模仿损失、奖励最大化损失以及正则化项，以提高策略的鲁棒性。

🖼️ 关键图片

📊 实验亮点

GHIL-Glue 在 CALVIN 模拟基准测试中，对于使用来自单个 RGB 相机观察的策略，实现了新的最先进水平。在多个分层模型中实现了 25% 的性能提升。在真实机器人实验中，GHIL-Glue 在 3/4 的语言条件操作任务中优于其他通用机器人策略，展示了其强大的零样本泛化能力。

🎯 应用场景

GHIL-Glue 可应用于各种机器人操作任务，例如物体抓取、放置、组装等。该方法尤其适用于需要复杂规划和推理的任务，例如家庭服务机器人、工业自动化等。通过利用大规模预训练模型的知识，GHIL-Glue 可以显著提高机器人的泛化能力和适应性，使其能够更好地应对真实世界中的复杂环境。

📄 摘要（原文）

Image and video generative models that are pre-trained on Internet-scale data can greatly increase the generalization capacity of robot learning systems. These models can function as high-level planners, generating intermediate subgoals for low-level goal-conditioned policies to reach. However, the performance of these systems can be greatly bottlenecked by the interface between generative models and low-level controllers. For example, generative models may predict photorealistic yet physically infeasible frames that confuse low-level policies. Low-level policies may also be sensitive to subtle visual artifacts in generated goal images. This paper addresses these two facets of generalization, providing an interface to effectively "glue together" language-conditioned image or video prediction models with low-level goal-conditioned policies. Our method, Generative Hierarchical Imitation Learning-Glue (GHIL-Glue), filters out subgoals that do not lead to task progress and improves the robustness of goal-conditioned policies to generated subgoals with harmful visual artifacts. We find in extensive experiments in both simulated and real environments that GHIL-Glue achieves a 25% improvement across several hierarchical models that leverage generative subgoals, achieving a new state-of-the-art on the CALVIN simulation benchmark for policies using observations from a single RGB camera. GHIL-Glue also outperforms other generalist robot policies across 3/4 language-conditioned manipulation tasks testing zero-shot generalization in physical experiments.

GHIL-Glue: Hierarchical Control with Filtered Subgoal Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理