PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning

📄 arXiv: 2511.13765v1 📥 PDF

作者: Shengjie Sun, Jiafei Lyu, Runze Liu, Mengbei Yan, Bo Liu, Deheng Ye, Xiu Li

分类: cs.LG, cs.AI

发布日期: 2025-11-14


💡 一句话要点

PROF:基于LLM的离线模仿学习奖励代码偏好优化框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离线模仿学习 奖励函数学习 大型语言模型 奖励偏好排序 代码生成

📋 核心要点

  1. 现有离线模仿学习方法过度简化奖励结构,假设轨迹相似性与奖励正相关,忽略了奖励函数的复杂性。
  2. PROF框架利用大型语言模型生成和优化奖励函数代码,通过奖励偏好排序(RPR)评估奖励函数质量,无需环境交互。
  3. 实验结果表明,PROF在D4RL基准测试中表现优异,超越或匹配了现有先进方法,验证了其有效性。

📝 摘要(中文)

离线模仿学习(offline IL)无需显式奖励标注即可训练有效策略。现有方法通常使用少量专家演示来估计未标记数据集的奖励,但这些方法假设轨迹与专家演示的相似性与奖励呈正相关,这过度简化了潜在的奖励结构。我们提出了PROF,一个新颖的框架,它利用大型语言模型(LLM)从自然语言描述和单个专家轨迹生成和改进可执行的奖励函数代码。我们提出了奖励偏好排序(RPR),一种无需环境交互或强化学习训练的奖励函数质量评估和排序策略。RPR计算奖励函数的主导分数,较高的分数表示与专家偏好更好的一致性。通过在RPR和基于文本的梯度优化之间交替,PROF完全自动化了下游策略学习的最佳奖励函数的选择和改进。在D4RL上的实验结果表明,PROF在众多数据集和领域中超越或匹配了最近的强大基线,突出了我们方法的有效性。

🔬 方法详解

问题定义:离线模仿学习旨在从静态数据集中学习策略,而无需与环境交互。现有方法依赖于奖励函数估计,但通常假设奖励与轨迹和专家演示的相似性直接相关,这忽略了奖励函数的复杂性,导致次优策略。

核心思路:PROF的核心思想是利用大型语言模型(LLM)生成和优化奖励函数代码,并使用奖励偏好排序(RPR)来评估奖励函数的质量,从而避免了对环境交互的依赖。通过迭代地改进奖励函数,PROF能够学习到更准确的奖励模型,进而提升模仿学习的性能。

技术框架:PROF框架包含两个主要模块:奖励函数生成与优化模块和奖励偏好排序(RPR)模块。首先,利用LLM从自然语言描述和单个专家轨迹生成初始奖励函数代码。然后,通过RPR评估奖励函数的质量,并使用基于文本的梯度优化方法改进奖励函数。这两个模块交替进行,直到找到最佳的奖励函数。

关键创新:PROF的关键创新在于利用LLM生成可执行的奖励函数代码,并提出了一种新的奖励函数质量评估方法RPR,该方法无需环境交互或强化学习训练。RPR通过计算奖励函数的主导分数来评估其与专家偏好的一致性,从而避免了对环境的采样和策略训练。

关键设计:RPR的关键设计在于计算奖励函数的主导分数。具体来说,对于每个奖励函数,RPR计算其在专家轨迹上的奖励值,并与其他奖励函数进行比较。如果一个奖励函数在专家轨迹上的奖励值高于其他奖励函数,则该奖励函数的主导分数增加。最终,选择主导分数最高的奖励函数作为最佳奖励函数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

PROF在D4RL基准测试中取得了显著的成果。在多个数据集和领域中,PROF超越或匹配了现有的强大基线。例如,在某些任务上,PROF的性能提升超过了10%。这些实验结果表明,PROF能够有效地学习到准确的奖励模型,并提升模仿学习的性能。

🎯 应用场景

PROF框架可应用于各种离线模仿学习场景,例如机器人控制、自动驾驶和游戏AI。通过利用LLM生成和优化奖励函数,PROF可以降低对人工标注奖励数据的需求,并提高模仿学习的性能。该研究的潜在价值在于降低了模仿学习的成本,并使其能够应用于更广泛的领域。

📄 摘要(原文)

Offline imitation learning (offline IL) enables training effective policies without requiring explicit reward annotations. Recent approaches attempt to estimate rewards for unlabeled datasets using a small set of expert demonstrations. However, these methods often assume that the similarity between a trajectory and an expert demonstration is positively correlated with the reward, which oversimplifies the underlying reward structure. We propose PROF, a novel framework that leverages large language models (LLMs) to generate and improve executable reward function codes from natural language descriptions and a single expert trajectory. We propose Reward Preference Ranking (RPR), a novel reward function quality assessment and ranking strategy without requiring environment interactions or RL training. RPR calculates the dominance scores of the reward functions, where higher scores indicate better alignment with expert preferences. By alternating between RPR and text-based gradient optimization, PROF fully automates the selection and refinement of optimal reward functions for downstream policy learning. Empirical results on D4RL demonstrate that PROF surpasses or matches recent strong baselines across numerous datasets and domains, highlighting the effectiveness of our approach.