Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

📄 arXiv: 2606.06673v1 📥 PDF

作者: Ujjwal Bhatta, Utsabi Dangol, Sumaly Bajracharya, Rodrigue Rizk, KC Santosh

分类: cs.LG

发布日期: 2026-06-04

备注: Accepted to the 2026 IEEE Conference on Artificial Intelligence (IEEE CAI). 6 pages, 3 figures. Code available at: https://github.com/USD-AI-ResearchLab/uncertainty-aware-llm-rl

DOI: 10.1109/CAI68641.2026.11536354


💡 一句话要点

提出不确定性感知的LLM引导策略塑造以解决稀疏奖励问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏奖励 强化学习 不确定性感知 大型语言模型 策略优化 多任务学习 A*算法

📋 核心要点

  1. 稀疏奖励和异构任务序列导致强化学习收敛缓慢和探索效率低,现有方法难以有效应对这些挑战。
  2. 提出的不确定性感知的LLM引导策略塑造(ULPS)通过整合LLM和不确定性估计,提供结构化的行为指导。
  3. 在MiniGridUnlockPickup基准上,ULPS在执行准确性上提升超过9%,并且需要更少的环境交互,表现出更高的奖励AUC。

📝 摘要(中文)

稀疏奖励和异构任务序列是强化学习中的持续挑战,常导致收敛缓慢、泛化能力弱和探索效率低。本文提出了一种新颖的框架——不确定性感知的LLM引导策略塑造(ULPS),将经过校准的大型语言模型(LLM)整合进强化学习训练循环中,以提供结构化、基于不确定性的行为指导。ULPS利用基于A*的oracle合成最优符号轨迹,进一步微调基于BERT的语言模型。在训练过程中,该模型提供的动作建议受通过蒙特卡洛(MC)dropout估计的认知不确定性影响。通过基于熵的混合机制,ULPS自适应地平衡LLM指导与学习策略(通过近端策略优化PPO),使智能体能够优先考虑可靠的先验,同时保持适应性。实验结果表明,ULPS在MiniGridUnlockPickup基准上成功率、奖励效率和样本复杂度上均优于无指导、未校准和标准RL基线。

🔬 方法详解

问题定义:本文旨在解决强化学习中的稀疏奖励和异构任务序列问题,现有方法在这些情况下往往表现出收敛缓慢和探索效率低下的缺陷。

核心思路:ULPS框架通过将经过校准的LLM引入训练循环,利用不确定性估计来提供行为指导,从而增强智能体的学习能力和适应性。

技术框架:ULPS的整体架构包括三个主要模块:基于A*的oracle用于生成符号轨迹,基于BERT的语言模型用于提供动作建议,以及基于熵的混合机制用于平衡LLM指导与学习策略。

关键创新:ULPS的创新在于将不确定性感知与LLM结合,利用蒙特卡洛dropout来动态调整动作建议的影响力,这一设计在现有RL方法中尚属首次。

关键设计:ULPS采用了基于熵的混合机制来调节LLM的指导与策略学习之间的平衡,确保智能体在学习过程中能够优先利用可靠的先验信息,同时保持灵活性。具体的参数设置和损失函数设计在实验中经过优化,以提升整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,ULPS在MiniGridUnlockPickup基准上成功率和奖励效率显著提升,执行准确性提高超过9%,并且在环境交互次数上表现出更高的效率,奖励AUC也显著提高,验证了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、游戏AI等需要处理稀疏奖励和复杂任务序列的场景。通过提供更高效的学习策略,ULPS有助于提升智能体在多任务环境中的表现,未来可能扩展到部分可观察和多智能体设置中。

📄 摘要(原文)

Sparse rewards and heterogeneous task sequences remain persistent challenges in Reinforcement Learning (RL), often resulting in slow convergence, weak generalization, and inefficient exploration. We propose Uncertainty-Aware LLM-Guided Policy Shaping (ULPS), a novel framework that integrates a calibrated Large Language Model (LLM) into the RL training loop to provide structured, uncertainty-modulated behavioral guidance. ULPS employs an A-based oracle to synthesize optimal symbolic trajectories, which are used to fine-tune a BERT-based language model. During training, this model supplies action suggestions whose influence is conditioned on epistemic uncertainty estimated via Monte Carlo (MC) dropout. An entropy-based blending mechanism adaptively balances LLM guidance and the learned policy (via Proximal Policy Optimization, PPO), allowing the agent to prioritize reliable priors while preserving adaptability. We evaluate ULPS on the MiniGridUnlockPickup benchmark and observe consistent improvements in success rate, reward efficiency, and sample complexity over unguided, uncalibrated, and standard RL baselines. ULPS achieves more than 9% improvement in execution accuracy after fine-tuning, requires fewer environment interactions, and yields higher reward AUC. Our results demonstrate that integrating symbolic A trajectories, pretrained language priors, and uncertainty-aware control offers a principled and effective approach to multi-task reinforcement learning in sparse-reward domains, with potential extensibility to partially observable and multi-agent settings.