SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards

📄 arXiv: 2602.21158v1 📥 PDF

作者: Dengjia Zhang, Xiaoou Liu, Lu Cheng, Yaqing Wang, Kenton Murray, Hua Wei

分类: cs.LG, cs.CL

发布日期: 2026-02-24


💡 一句话要点

SELAUR:基于不确定性感知奖励的自进化LLM Agent

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 强化学习 不确定性估计 奖励设计 多步决策

📋 核心要点

  1. 现有LLM Agent奖励设计忽略了模型内在不确定性,导致探索效率低和学习不稳定。
  2. SELAUR将token级不确定性估计融入奖励函数,指导Agent探索并从失败轨迹中学习。
  3. 在ALFWorld和WebShop实验中,SELAUR显著提升了Agent的成功率和鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为多步骤决策Agent,其中有效的奖励设计对于指导学习至关重要。尽管最近的工作探索了各种形式的奖励塑造和步级信用分配,但一个关键信号在很大程度上被忽视了:LLM的内在不确定性。不确定性反映了模型的置信度,揭示了需要探索的地方,即使在失败的轨迹中也提供了有价值的学习线索。我们介绍了SELAUR:Self Evolving LLM Agent via Uncertainty-aware Rewards,这是一个强化学习框架,它将不确定性直接纳入奖励设计中。SELAUR将基于熵、最小置信度和边际的指标集成到组合的token级不确定性估计中,提供密集的置信度对齐监督,并采用一种失败感知奖励重塑机制,将这些不确定性信号注入到步级和轨迹级奖励中,以提高探索效率和学习稳定性。在ALFWorld和WebShop两个基准上的实验表明,我们的方法始终提高了相对于强基线的成功率。消融研究进一步证明了不确定性信号如何增强探索和鲁棒性。

🔬 方法详解

问题定义:现有基于LLM的Agent在多步决策任务中,奖励函数的设计往往忽略了LLM自身的不确定性。这种不确定性可以反映模型对自身预测的置信程度,并指示Agent应该在哪些方面进行更多的探索。传统方法通常依赖于稀疏的成功/失败信号,无法充分利用LLM的内在信息,导致探索效率低下,学习过程不稳定。

核心思路:SELAUR的核心思想是将LLM的内在不确定性作为奖励信号的一部分,从而更有效地指导Agent的学习过程。通过将不确定性纳入奖励函数,SELAUR鼓励Agent探索那些模型自身不太确定的区域,并从失败的轨迹中提取有价值的信息。这种方法旨在提高Agent的探索效率和学习稳定性。

技术框架:SELAUR是一个强化学习框架,其主要流程如下:1. Agent与环境交互,生成轨迹数据。2. 使用熵、最小置信度和边际等指标计算token级别的不确定性估计。3. 将token级别的不确定性聚合为步级和轨迹级别的奖励信号。4. 使用这些奖励信号训练LLM Agent。该框架包含三个主要模块:不确定性估计模块、奖励重塑模块和Agent训练模块。

关键创新:SELAUR的关键创新在于将LLM的内在不确定性直接融入到奖励设计中。与传统的奖励塑造方法不同,SELAUR利用不确定性信号提供密集的、与置信度对齐的监督,从而更有效地指导Agent的学习。此外,SELAUR还采用了一种失败感知的奖励重塑机制,允许Agent从失败的轨迹中学习,进一步提高了学习效率和鲁棒性。

关键设计:SELAUR使用三种不同的指标来估计token级别的不确定性:熵、最小置信度和边际。这些指标被组合成一个统一的不确定性估计。奖励重塑机制包括步级奖励和轨迹级奖励,步级奖励基于当前步骤的不确定性,轨迹级奖励基于整个轨迹的不确定性。具体参数设置和损失函数细节在论文中有详细描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ALFWorld和WebShop两个基准测试中,SELAUR始终优于强大的基线方法,成功率得到显著提升。消融研究表明,不确定性信号能够有效增强Agent的探索能力和鲁棒性。具体性能数据和提升幅度在论文中有详细展示,但此处未知。

🎯 应用场景

SELAUR方法可应用于各种需要LLM进行多步决策的任务,例如机器人导航、游戏AI、对话系统和自动化任务规划。通过提高Agent的探索效率和学习稳定性,SELAUR可以帮助LLM更好地适应复杂环境,并实现更高效、更可靠的决策。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed as multi-step decision-making agents, where effective reward design is essential for guiding learning. Although recent work explores various forms of reward shaping and step-level credit assignment, a key signal remains largely overlooked: the intrinsic uncertainty of LLMs. Uncertainty reflects model confidence, reveals where exploration is needed, and offers valuable learning cues even in failed trajectories. We introduce SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards, a reinforcement learning framework that incorporates uncertainty directly into the reward design. SELAUR integrates entropy-, least-confidence-, and margin-based metrics into a combined token-level uncertainty estimate, providing dense confidence-aligned supervision, and employs a failure-aware reward reshaping mechanism that injects these uncertainty signals into step- and trajectory-level rewards to improve exploration efficiency and learning stability. Experiments on two benchmarks, ALFWorld and WebShop, show that our method consistently improves success rates over strong baselines. Ablation studies further demonstrate how uncertainty signals enhance exploration and robustness.