Visual Grounding for Object-Level Generalization in Reinforcement Learning

作者: Haobin Jiang, Zongqing Lu

分类: cs.AI, cs.CV

发布日期: 2024-08-04

备注: 35 pages, 14 figures, 17 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于视觉 grounding 的强化学习方法，提升对象级别泛化能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉Grounding 强化学习 泛化能力 视觉-语言模型 内在奖励

📋 核心要点

现有强化学习智能体在处理自然语言指令时，泛化能力不足，难以应对未见过的对象和指令。
利用视觉-语言模型进行视觉 grounding，提取目标对象的置信度图，并以此作为强化学习的任务表示和内在奖励。
实验表明，该方法在单任务和多任务环境中均能显著提升智能体的泛化能力，尤其是在零样本对象级别泛化方面。

📝 摘要（中文）

本文针对强化学习智能体在理解自然语言指令时面临的泛化挑战，提出了一种利用视觉-语言模型（VLM）进行视觉 grounding 的方法，并将视觉-语言知识迁移到强化学习中，从而使智能体能够零样本泛化到未见过的对象和指令。通过视觉 grounding，我们获得了目标对象的对象 grounding 置信度图。基于此，我们提出了两种将 VLM 知识迁移到 RL 的途径。首先，我们设计了一个从置信度图导出的对象 grounding 内在奖励函数，以更有效地引导智能体朝向目标对象。其次，与语言嵌入相比，置信度图为智能体的策略提供了一种更统一、更易于访问的任务表示。这使得智能体能够通过可理解的视觉置信度图处理未见过的对象和指令，从而促进零样本对象级别泛化。单任务实验证明，我们的内在奖励显著提高了具有挑战性的技能学习的性能。在多任务实验中，通过测试训练集之外的任务，我们表明，当提供置信度图作为任务表示时，智能体比基于语言的条件反射具有更好的泛化能力。

🔬 方法详解

问题定义：现有强化学习方法在处理自然语言指令时，泛化能力受限，难以处理未见过的对象和指令。传统的基于语言嵌入的方法难以有效捕捉视觉信息，导致智能体在面对新的视觉对象时表现不佳。因此，如何提升智能体在对象级别的泛化能力是一个关键问题。

核心思路：本文的核心思路是利用视觉-语言模型（VLM）的视觉 grounding 能力，将自然语言指令转化为视觉置信度图，从而为强化学习智能体提供更直观、更易于理解的任务表示。通过这种方式，智能体可以直接基于视觉信息进行决策，而无需依赖复杂的语言嵌入，从而提升泛化能力。

技术框架：整体框架包含以下几个主要模块：1) 视觉-语言模型（VLM）：用于将自然语言指令和视觉输入进行对齐，生成目标对象的置信度图。2) 对象 grounding 内在奖励函数：基于置信度图设计，引导智能体朝向目标对象。3) 强化学习策略网络：以置信度图作为输入，学习最优策略。整个流程是，给定自然语言指令和环境状态，VLM 生成置信度图，然后智能体根据置信度图和环境状态选择动作，并获得环境奖励和内在奖励，最终通过强化学习算法优化策略网络。

关键创新：最重要的技术创新点在于利用视觉 grounding 将语言信息转化为视觉置信度图，并将其作为强化学习的任务表示。与传统的语言嵌入方法相比，置信度图更直观、更易于理解，并且能够更好地捕捉视觉信息，从而提升智能体的泛化能力。此外，基于置信度图设计的内在奖励函数能够更有效地引导智能体朝向目标对象。

关键设计：VLM 使用预训练的 CLIP 模型，通过微调使其能够生成目标对象的置信度图。内在奖励函数的设计基于置信度图的像素值，奖励智能体靠近置信度高的区域。强化学习策略网络采用 Actor-Critic 结构，Actor 网络以置信度图和环境状态作为输入，输出动作；Critic 网络评估当前状态的价值。具体的损失函数包括策略梯度损失、价值函数损失和内在奖励损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在单任务技能学习和多任务泛化方面均取得了显著提升。在单任务实验中，内在奖励函数显著提高了智能体在具有挑战性的技能学习任务中的性能。在多任务实验中，当提供置信度图作为任务表示时，智能体在训练集之外的任务上表现出比基于语言的条件反射更好的泛化能力。具体而言，在零样本对象级别泛化方面，该方法能够成功处理未见过的对象和指令。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、游戏AI等领域。例如，在机器人操作中，机器人可以根据自然语言指令，通过视觉 grounding 识别目标对象，并完成相应的操作任务。在自动驾驶中，自动驾驶系统可以根据行人的语言指令，识别行人的意图，并做出相应的驾驶决策。该研究有助于提升智能体在复杂环境中的适应性和泛化能力，实现更智能、更可靠的人机交互。

📄 摘要（原文）

Generalization is a pivotal challenge for agents following natural language instructions. To approach this goal, we leverage a vision-language model (VLM) for visual grounding and transfer its vision-language knowledge into reinforcement learning (RL) for object-centric tasks, which makes the agent capable of zero-shot generalization to unseen objects and instructions. By visual grounding, we obtain an object-grounded confidence map for the target object indicated in the instruction. Based on this map, we introduce two routes to transfer VLM knowledge into RL. Firstly, we propose an object-grounded intrinsic reward function derived from the confidence map to more effectively guide the agent towards the target object. Secondly, the confidence map offers a more unified, accessible task representation for the agent's policy, compared to language embeddings. This enables the agent to process unseen objects and instructions through comprehensible visual confidence maps, facilitating zero-shot object-level generalization. Single-task experiments prove that our intrinsic reward significantly improves performance on challenging skill learning. In multi-task experiments, through testing on tasks beyond the training set, we show that the agent, when provided with the confidence map as the task representation, possesses better generalization capabilities than language-based conditioning. The code is available at https://github.com/PKU-RL/COPL.

Visual Grounding for Object-Level Generalization in Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理