Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

作者: Dmitrii Plotnikov, Iaroslav Kolomiets, Dmitrii Maliukov, Dmitrij Kosenkov, Daniia Zinniatullina, Artem Trandofilov, Georgii Gazaryan, Kirill Bogatikov, Timofei Kozlov, Igor Duchinskii, Mikhail Konenkov, Miguel Altamirano Cabrera, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2026-03-23

💡 一句话要点

提出闭环语言强化学习框架，用于解决机器人任务级规划中的不确定性问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言强化学习 机器人规划 行为树 视觉语言模型 闭环控制

📋 核心要点

现有强化学习方法在机器人任务级规划中难以处理执行不确定性，且策略可解释性差。
论文提出闭环语言强化学习框架，利用大语言模型和视觉语言模型进行策略迭代和反馈，实现符号层面的策略更新。
实验表明，该框架能有效改进策略，适应执行失败，并在真实机器人系统上可靠部署，提升了可解释性。

📝 摘要（中文）

本文提出了一种新的语言强化学习（VRL）框架，用于在具有执行不确定性的移动机器人系统中进行可解释的任务级规划。该框架遵循闭环架构，通过与物理环境的交互实现策略的迭代改进。在我们的框架中，可执行的行为树由大型语言模型（LLM）执行器反复改进，该执行器使用视觉-语言模型（VLM）评论器产生的结构化自然语言反馈，该评论器观察物理机器人和执行轨迹。与传统的强化学习不同，VRL中的策略更新直接发生在符号规划级别，无需基于梯度的优化。这实现了透明的推理、显式的因果反馈和人类可解释的策略演变。我们在一个真实的移动机器人上验证了所提出的框架，该机器人执行一个在执行不确定性下的多阶段操作和导航任务。实验结果表明，该框架支持可解释的策略改进、对执行失败的闭环适应以及在物理机器人系统上的可靠部署。

🔬 方法详解

问题定义：论文旨在解决移动机器人任务级规划中，由于执行不确定性导致传统强化学习方法难以应用，且策略可解释性差的问题。现有方法通常依赖于复杂的梯度优化，难以进行透明推理和因果反馈。

核心思路：论文的核心思路是利用大型语言模型（LLM）作为策略执行器，视觉-语言模型（VLM）作为评论器，通过自然语言反馈进行闭环策略迭代。这种方法直接在符号规划层面进行策略更新，无需梯度优化，从而提高可解释性。

技术框架：整体框架包含以下几个主要模块：1) 机器人环境：真实或模拟的机器人操作环境。2) 行为树：用于表示机器人任务级规划的可执行策略。3) LLM执行器：根据当前行为树执行动作，并生成执行轨迹。4) VLM评论器：观察机器人和执行轨迹，生成结构化的自然语言反馈。5) 策略更新模块：根据VLM的反馈，利用LLM修改行为树，实现策略改进。

关键创新：最重要的技术创新在于将语言模型引入强化学习，实现符号层面的策略更新，避免了传统的梯度优化。通过VLM提供的自然语言反馈，可以进行显式的因果推理，从而提高策略的可解释性。此外，闭环架构允许系统根据实际执行情况进行迭代改进，适应执行不确定性。

关键设计：论文中，VLM评论器生成结构化的自然语言反馈是关键设计之一，需要精心设计提示词，确保反馈信息包含足够的信息量，以便LLM执行器进行有效的策略更新。行为树的设计也需要考虑任务的复杂性和可执行性。此外，如何有效地利用LLM的上下文学习能力，使其能够根据少量样本进行策略改进，也是一个重要的技术细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架能够显著提高机器人在多阶段操作和导航任务中的成功率。通过与基线方法（如传统强化学习算法）的对比，证明了该框架在可解释性、适应性和可靠性方面的优势。具体而言，该框架能够根据VLM的反馈进行有效的策略改进，并在真实机器人系统上实现可靠部署。

🎯 应用场景

该研究成果可应用于各种需要自主规划和执行的机器人任务，例如家庭服务机器人、工业自动化机器人、搜索救援机器人等。通过自然语言反馈和闭环迭代，机器人能够更好地适应复杂环境和任务需求，提高任务完成的可靠性和效率。未来，该方法有望扩展到更复杂的任务和环境，实现更智能、更自主的机器人系统。

📄 摘要（原文）

We propose a new Verbal Reinforcement Learning (VRL) framework for interpretable task-level planning in mobile robotic systems operating under execution uncertainty. The framework follows a closed-loop architecture that enables iterative policy improvement through interaction with the physical environment. In our framework, executable Behavior Trees are repeatedly refined by a Large Language Model actor using structured natural-language feedback produced by a Vision-Language Model critic that observes the physical robot and execution traces. Unlike conventional reinforcement learning, policy updates in VRL occur directly at the symbolic planning level, without gradient-based optimization. This enables transparent reasoning, explicit causal feedback, and human-interpretable policy evolution. We validate the proposed framework on a real mobile robot performing a multi-stage manipulation and navigation task under execution uncertainty. Experimental results show that the framework supports explainable policy improvements, closed-loop adaptation to execution failures, and reliable deployment on physical robotic systems.

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理