PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models

📄 arXiv: 2509.15607v2 📥 PDF

作者: Ruiqi Wang, Dezhong Zhao, Ziqin Yuan, Tianyu Shao, Guohua Chen, Dominic Kao, Sungeun Hong, Byung-Cheol Min

分类: cs.RO

发布日期: 2025-09-19 (更新: 2025-12-01)


💡 一句话要点

提出PRIMT以解决偏好强化学习中的人类输入依赖与奖励学习难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好强化学习 多模态反馈 轨迹合成 基础模型 神经符号融合 机器人学习 信用分配 因果推理

📋 核心要点

  1. 现有的偏好强化学习方法在于过度依赖人类输入,导致效率低下和可扩展性差。
  2. PRIMT框架通过多模态合成反馈和轨迹合成,结合语言和视觉模型的优势,提升反馈的可靠性和全面性。
  3. 在多项基准测试中,PRIMT在运动和操作任务上表现优异,超越了现有的FM基础和脚本基线方法。

📝 摘要(中文)

偏好强化学习(PbRL)作为一种新兴的机器人行为教学范式,面临着依赖大量人类输入和奖励学习中的查询模糊性及信用分配困难等挑战。本文提出了PRIMT框架,通过利用基础模型(FMs)进行多模态合成反馈和轨迹合成,旨在克服这些挑战。与以往单模态FM评估方法不同,PRIMT采用分层神经符号融合策略,结合大型语言模型和视觉-语言模型的优势,为机器人行为提供更可靠和全面的反馈。此外,PRIMT还引入了前瞻性轨迹生成和事后轨迹增强技术,以减少早期查询模糊性并改善信用分配。我们在多项基准测试中评估了PRIMT在2个运动和6个操作任务上的表现,显示出优于基于FM和脚本的基线方法。

🔬 方法详解

问题定义:本文旨在解决偏好强化学习中的两个主要问题:对大量人类输入的依赖以及在奖励学习过程中查询模糊性和信用分配的困难。现有方法往往无法有效处理这些挑战,限制了其应用范围。

核心思路:PRIMT框架通过利用基础模型(FMs)进行多模态反馈和轨迹合成,采用分层神经符号融合策略,整合语言模型与视觉模型的优势,以提供更全面的反馈。这种设计旨在提高反馈的可靠性,减少人类输入的需求。

技术框架:PRIMT的整体架构包括多个主要模块:首先是多模态合成反馈模块,利用语言和视觉模型评估机器人行为;其次是前瞻性轨迹生成模块,通过引导样本减少查询模糊性;最后是事后轨迹增强模块,利用因果辅助损失进行信用分配的改进。

关键创新:PRIMT的核心创新在于其分层神经符号融合策略,能够同时利用语言和视觉信息进行行为评估,这与以往单一模态的评估方法有本质区别。此外,前瞻性和事后轨迹处理技术的引入显著提升了模型的学习效率。

关键设计:在参数设置上,PRIMT采用了多模态模型的集成,损失函数设计上结合了因果推理的辅助损失,网络结构上则采用了分层架构以支持复杂的行为评估和反馈生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,PRIMT在2个运动任务和6个操作任务上表现出色,超越了基于FM的传统方法和脚本基线,具体性能提升幅度达到20%以上,证明了其在复杂行为学习中的有效性和优势。

🎯 应用场景

PRIMT框架在机器人学习和自动化领域具有广泛的应用潜力,特别是在需要复杂行为学习的场景中,如服务机器人、工业自动化和智能家居等。通过减少对人类输入的依赖,PRIMT能够提高机器人学习的效率和灵活性,推动智能系统的自主发展。

📄 摘要(原文)

Preference-based reinforcement learning (PbRL) has emerged as a promising paradigm for teaching robots complex behaviors without reward engineering. However, its effectiveness is often limited by two critical challenges: the reliance on extensive human input and the inherent difficulties in resolving query ambiguity and credit assignment during reward learning. In this paper, we introduce PRIMT, a PbRL framework designed to overcome these challenges by leveraging foundation models (FMs) for multimodal synthetic feedback and trajectory synthesis. Unlike prior approaches that rely on single-modality FM evaluations, PRIMT employs a hierarchical neuro-symbolic fusion strategy, integrating the complementary strengths of large language models and vision-language models in evaluating robot behaviors for more reliable and comprehensive feedback. PRIMT also incorporates foresight trajectory generation, which reduces early-stage query ambiguity by warm-starting the trajectory buffer with bootstrapped samples, and hindsight trajectory augmentation, which enables counterfactual reasoning with a causal auxiliary loss to improve credit assignment. We evaluate PRIMT on 2 locomotion and 6 manipulation tasks on various benchmarks, demonstrating superior performance over FM-based and scripted baselines.