Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning
作者: Changwei Yao, Xinzi Liu, Chen Li, Marios Savvides
分类: cs.RO
发布日期: 2025-09-19 (更新: 2026-02-02)
💡 一句话要点
提出RE-GoT框架,利用图推理和视觉反馈实现强化学习中奖励函数的自动进化。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 奖励函数设计 大型语言模型 视觉语言模型 图推理 自动进化
📋 核心要点
- 现有基于LLM的奖励函数设计方法存在幻觉、依赖人工反馈以及难以处理复杂任务等问题。
- RE-GoT通过引入图推理结构和视觉反馈,实现奖励函数的自动生成和迭代优化,无需人工干预。
- 实验表明,RE-GoT在RoboGen和ManiSkill2任务上显著优于现有方法,尤其在复杂多步任务中提升明显。
📝 摘要(中文)
设计有效的奖励函数是强化学习(RL)中的一个主要挑战,通常需要大量的人工专业知识和迭代改进。最近的研究利用大型语言模型(LLM)进行自动奖励设计,但这些方法受到幻觉、对人类反馈的依赖以及处理复杂、多步骤任务的挑战的限制。本文介绍了一种新的双层框架——基于图推理的奖励进化(RE-GoT),该框架通过结构化的基于图的推理来增强LLM,并集成视觉语言模型(VLM)以进行自动rollout评估。RE-GoT首先将任务分解为文本属性图,从而实现全面的分析和奖励函数生成,然后使用来自VLM的视觉反馈迭代地改进奖励,无需人工干预。在10个RoboGen和4个ManiSkill2任务上的大量实验表明,RE-GoT始终优于现有的基于LLM的基线。在RoboGen上,我们的方法将平均任务成功率提高了32.25%,在复杂的多步骤任务上取得了显著的提升。在ManiSkill2上,RE-GoT在四个不同的操作任务中实现了93.73%的平均成功率,显著超过了先前的基于LLM的方法,甚至超过了专家设计的奖励。我们的结果表明,将LLM和VLM与图推理相结合,为RL中的自主奖励进化提供了一个可扩展且有效的解决方案。
🔬 方法详解
问题定义:强化学习中,设计有效的奖励函数是一个长期存在的难题。传统方法依赖人工经验,耗时且容易出错。最近利用LLM自动生成奖励函数的方法,虽然有一定进展,但存在幻觉问题,需要人工干预,且难以处理复杂的多步骤任务。这些痛点限制了其在实际场景中的应用。
核心思路:RE-GoT的核心思路是将任务分解为图结构,利用图的结构化信息辅助LLM进行更准确的推理和奖励函数生成。同时,引入VLM进行视觉反馈,自动评估rollout结果,并迭代优化奖励函数,从而避免人工干预,提高奖励函数的质量和泛化能力。这种结合文本、图和视觉信息的方式,能够更好地理解任务,并生成更有效的奖励函数。
技术框架:RE-GoT是一个双层框架。第一层是基于图的奖励函数生成:首先,将任务分解为文本属性图(Graph-of-Thoughts),节点表示任务步骤,边表示步骤之间的关系。然后,利用LLM分析图结构,生成初始奖励函数。第二层是基于视觉反馈的奖励函数进化:利用VLM评估rollout结果,计算奖励函数的梯度,并利用梯度信息迭代优化奖励函数。整个过程无需人工干预,实现奖励函数的自动进化。
关键创新:RE-GoT的关键创新在于:1) 引入图推理结构,增强LLM的推理能力,减少幻觉;2) 引入VLM进行视觉反馈,实现奖励函数的自动进化,避免人工干预;3) 提出双层框架,将奖励函数生成和进化解耦,提高框架的灵活性和可扩展性。与现有方法相比,RE-GoT能够更好地处理复杂的多步骤任务,并生成更有效的奖励函数。
关键设计:在图构建方面,论文使用LLM将任务描述分解为步骤,并确定步骤之间的依赖关系。在奖励函数进化方面,论文使用VLM评估rollout结果,并计算奖励函数的梯度。具体而言,VLM被用于判断rollout是否成功,并根据成功与否调整奖励函数的权重。损失函数的设计目标是最大化成功rollout的概率,同时最小化失败rollout的概率。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
RE-GoT在RoboGen和ManiSkill2数据集上取得了显著的成果。在RoboGen上,平均任务成功率提高了32.25%,尤其在复杂的多步骤任务上提升明显。在ManiSkill2上,平均成功率达到93.73%,超过了现有的基于LLM的方法,甚至超过了专家设计的奖励。这些结果表明,RE-GoT是一种有效的奖励函数自动进化方法。
🎯 应用场景
RE-GoT框架具有广泛的应用前景,可应用于机器人操作、游戏AI、自动驾驶等领域。通过自动生成和优化奖励函数,可以降低强化学习的应用门槛,加速智能体的训练过程,并提高智能体的性能。该研究对于推动人工智能的自主学习和决策具有重要意义。
📄 摘要(原文)
Designing effective reward functions remains a major challenge in reinforcement learning (RL), often requiring considerable human expertise and iterative refinement. Recent advances leverage Large Language Models (LLMs) for automated reward design, but these approaches are limited by hallucinations, reliance on human feedback, and challenges with handling complex, multi-step tasks. In this work, we introduce Reward Evolution with Graph-of-Thoughts (RE-GoT), a novel bi-level framework that enhances LLMs with structured graph-based reasoning and integrates Visual Language Models (VLMs) for automated rollout evaluation. RE-GoT first decomposes tasks into text-attributed graphs, enabling comprehensive analysis and reward function generation, and then iteratively refines rewards using visual feedback from VLMs without human intervention. Extensive experiments on 10 RoboGen and 4 ManiSkill2 tasks demonstrate that RE-GoT consistently outperforms existing LLM-based baselines. On RoboGen, our method improves average task success rates by 32.25%, with notable gains on complex multi-step tasks. On ManiSkill2, RE-GoT achieves an average success rate of 93.73% across four diverse manipulation tasks, significantly surpassing prior LLM-based approaches and even exceeding expert-designed rewards. Our results indicate that combining LLMs and VLMs with graph-of-thoughts reasoning provides a scalable and effective solution for autonomous reward evolution in RL.