Agentic Skill Discovery

作者: Xufeng Zhao, Cornelius Weber, Stefan Wermter

分类: cs.RO, cs.AI, cs.LG

发布日期: 2024-05-23 (更新: 2024-08-16)

备注: Webpage see https://agentic-skill-discovery.github.io/

💡 一句话要点

提出Agentic Skill Discovery框架，利用LLM自主发现机器人技能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人技能学习 自主技能发现 大型语言模型 强化学习 视觉-语言模型

📋 核心要点

现有机器人技能学习方法依赖人工分解或穷举组合，需要预先存在的技能库，限制了技能的自主发现。
该论文提出Agentic Skill Discovery框架，利用LLM生成任务建议并指导强化学习，实现技能的自主涌现和扩展。
实验表明，该框架能够从零开始学习到一系列有意义且可靠的技能，并能有效完成更高级的任务。

📝 摘要（中文）

本文提出了一种新颖的技能发现框架，该框架完全由大型语言模型（LLM）驱动。该框架首先利用LLM根据提供的场景描述和机器人的配置生成任务建议，旨在在完成任务后逐步获得新的技能。对于每个提出的任务，启动一系列强化学习过程，利用LLM采样的奖励和成功确定函数来开发相应的策略。通过独立的视觉-语言模型进一步确保学习行为的可靠性和可信度。实验表明，从零技能开始，技能库逐渐涌现并扩展到越来越多有意义且可靠的技能，使机器人能够有效地进一步提出和完成高级任务。

🔬 方法详解

问题定义：现有机器人技能学习方法主要存在两个痛点。一是依赖人工分解复杂任务，需要专家知识且难以泛化；二是采用穷举组合的方式，计算成本高昂，且需要预先存在的技能库，无法实现技能的自主发现。例如，如果初始技能库中只有“推动”技能，则永远无法涌现出“抓取”能力。

核心思路：该论文的核心思路是利用大型语言模型（LLM）的强大推理能力，自主生成任务建议，并指导强化学习过程，从而实现机器人技能的自主涌现和扩展。通过LLM驱动的探索，机器人可以摆脱对预定义技能库的依赖，发现更多样化和有意义的技能。

技术框架：该框架主要包含以下几个阶段：1) 任务建议生成：LLM根据场景描述和机器人配置，生成一系列任务建议。2) 强化学习策略训练：对于每个任务建议，启动强化学习过程，利用LLM采样的奖励函数和成功判定函数来训练相应的策略。3) 技能验证：使用独立的视觉-语言模型验证学习到的技能的可靠性和可信度。4) 技能库更新：将验证通过的技能添加到技能库中，用于后续任务的建议生成和策略训练。

关键创新：该论文最重要的技术创新点在于利用LLM驱动整个技能发现过程，摆脱了对预定义技能库的依赖。与传统的强化学习方法相比，该方法能够更有效地探索技能空间，发现更多样化和有意义的技能。此外，利用视觉-语言模型进行技能验证，提高了学习到的技能的可靠性和可信度。

关键设计：在任务建议生成阶段，LLM的prompt设计至关重要，需要包含场景描述、机器人配置以及任务目标等信息。在强化学习策略训练阶段，奖励函数和成功判定函数的采样策略会影响学习效率和技能质量。视觉-语言模型的选择和训练也需要仔细考虑，以确保能够准确评估技能的可靠性。

🖼️ 关键图片

📊 实验亮点

该论文通过实验验证了Agentic Skill Discovery框架的有效性。实验结果表明，该框架能够从零开始学习到一系列有意义且可靠的技能，例如抓取、放置、推动等。并且，学习到的技能可以用于完成更高级的任务，例如堆叠积木。与传统的强化学习方法相比，该框架能够更有效地探索技能空间，发现更多样化和有意义的技能。

🎯 应用场景

该研究成果可应用于各种需要机器人自主学习技能的场景，例如家庭服务机器人、工业自动化、灾难救援等。通过自主发现技能，机器人可以更好地适应复杂多变的环境，完成各种任务，提高工作效率和安全性。未来，该技术有望推动机器人更加智能化和自主化。

📄 摘要（原文）

Language-conditioned robotic skills make it possible to apply the high-level reasoning of Large Language Models (LLMs) to low-level robotic control. A remaining challenge is to acquire a diverse set of fundamental skills. Existing approaches either manually decompose a complex task into atomic robotic actions in a top-down fashion, or bootstrap as many combinations as possible in a bottom-up fashion to cover a wider range of task possibilities. These decompositions or combinations, however, require an initial skill library. For example, a grasping'' capability can never emerge from a skill library containing only diversepushing'' skills. Existing skill discovery techniques with reinforcement learning acquire skills by an exhaustive exploration but often yield non-meaningful behaviors. In this study, we introduce a novel framework for skill discovery that is entirely driven by LLMs. The framework begins with an LLM generating task proposals based on the provided scene description and the robot's configurations, aiming to incrementally acquire new skills upon task completion. For each proposed task, a series of reinforcement learning processes are initiated, utilizing reward and success determination functions sampled by the LLM to develop the corresponding policy. The reliability and trustworthiness of learned behaviors are further ensured by an independent vision-language model. We show that starting with zero skill, the skill library emerges and expands to more and more meaningful and reliable skills, enabling the robot to efficiently further propose and complete advanced tasks. Project page: \url{https://agentic-skill-discovery.github.io}.

Agentic Skill Discovery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理