QuickLAP: Quick Language-Action Preference Learning for Autonomous Driving Agents
作者: Jordan Abi Nader, David Lee, Nathaniel Dennler, Andreea Bobu
分类: cs.AI, cs.RO
发布日期: 2025-11-22
🔗 代码/项目: GITHUB
💡 一句话要点
提出 QuickLAP,融合语言和动作偏好学习自动驾驶奖励函数,提升自主驾驶性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自主驾驶 人机协作 奖励学习 语言理解 贝叶斯方法
📋 核心要点
- 现有方法难以有效融合物理修正的精确性和语言指令的高层意图,导致奖励函数学习效率低下。
- QuickLAP 框架将语言指令视为用户偏好的概率性表达,结合物理修正,利用贝叶斯方法实时推断奖励函数。
- 实验表明,QuickLAP 在奖励学习误差上优于传统方法 70% 以上,用户研究也验证了其优越性。
📝 摘要(中文)
本文提出 QuickLAP:快速语言-动作偏好学习框架,用于融合物理反馈和语言反馈,实时推断奖励函数。该框架基于贝叶斯方法,将语言视为用户潜在偏好的概率性观察,从而明确哪些奖励特征重要以及如何解释物理修正。QuickLAP 利用大型语言模型(LLM)从自由形式的语句中提取奖励特征注意力掩码和偏好转移,并将其与物理反馈集成在一个闭式更新规则中。这实现了快速、实时和鲁棒的奖励学习,能够处理模糊的反馈。在半自动驾驶模拟器中,与仅使用物理反馈和启发式多模态基线相比,QuickLAP 将奖励学习误差降低了 70% 以上。一项包含 15 名参与者的用户研究进一步验证了该方法:参与者发现 QuickLAP 更易于理解和协作,并且更喜欢其学习到的行为。
🔬 方法详解
问题定义:现有自主驾驶代理通常依赖物理修正或语言指令进行学习,但物理修正意图模糊,语言指令缺乏物理基础。如何有效融合这两种模态的反馈,快速、鲁棒地学习奖励函数,是本文要解决的问题。现有方法在处理模糊反馈和实时性方面存在不足。
核心思路:QuickLAP 的核心思路是将语言指令视为用户潜在偏好的概率性观察,利用大型语言模型提取语言中的奖励特征注意力掩码和偏好转移信息,并将其与物理修正信息融合,通过贝叶斯框架实时更新奖励函数。这种方法能够更准确地理解用户的意图,从而更快地学习到合适的奖励函数。
技术框架:QuickLAP 框架包含以下主要模块:1) 感知模块:接收物理反馈(例如车辆轨迹修正)和语言指令;2) 语言理解模块:利用大型语言模型(LLM)从语言指令中提取奖励特征注意力掩码和偏好转移信息;3) 贝叶斯更新模块:将语言理解模块的输出与物理反馈融合,使用闭式更新规则实时更新奖励函数;4) 控制模块:根据学习到的奖励函数控制车辆行为。
关键创新:QuickLAP 的关键创新在于:1) 将语言指令视为用户偏好的概率性观察,利用 LLM 提取语言中的关键信息;2) 提出了一种闭式更新规则,能够快速、实时地更新奖励函数;3) 能够有效处理模糊的反馈,提高奖励学习的鲁棒性。与现有方法相比,QuickLAP 能够更有效地融合物理和语言反馈,更快地学习到合适的奖励函数。
关键设计:QuickLAP 使用预训练的大型语言模型(具体模型未知)来提取语言特征。奖励函数被表示为一组可学习的权重,这些权重对应于不同的奖励特征(例如,车道保持、速度限制)。贝叶斯更新规则的具体形式未知,但它利用了语言模型提供的注意力掩码和偏好转移信息来调整奖励权重。损失函数的设计目标是最小化预测行为与用户期望行为之间的差异。
🖼️ 关键图片
📊 实验亮点
QuickLAP 在半自动驾驶模拟器中进行了评估,结果表明,与仅使用物理反馈和启发式多模态基线相比,QuickLAP 将奖励学习误差降低了 70% 以上。此外,一项包含 15 名参与者的用户研究表明,参与者认为 QuickLAP 更易于理解和协作,并且更喜欢其学习到的行为。这些结果验证了 QuickLAP 在奖励学习方面的有效性和优越性。
🎯 应用场景
QuickLAP 可应用于各种人机协作的自主系统,例如自动驾驶、机器人导航、人机交互等。通过融合物理反馈和语言指令,QuickLAP 能够使自主系统更快速、更准确地理解人类用户的意图,从而实现更自然、更高效的人机协作。该研究有助于提升自主系统的智能化水平和用户体验。
📄 摘要(原文)
Robots must learn from both what people do and what they say, but either modality alone is often incomplete: physical corrections are grounded but ambiguous in intent, while language expresses high-level goals but lacks physical grounding. We introduce QuickLAP: Quick Language-Action Preference learning, a Bayesian framework that fuses physical and language feedback to infer reward functions in real time. Our key insight is to treat language as a probabilistic observation over the user's latent preferences, clarifying which reward features matter and how physical corrections should be interpreted. QuickLAP uses Large Language Models (LLMs) to extract reward feature attention masks and preference shifts from free-form utterances, which it integrates with physical feedback in a closed-form update rule. This enables fast, real-time, and robust reward learning that handles ambiguous feedback. In a semi-autonomous driving simulator, QuickLAP reduces reward learning error by over 70% compared to physical-only and heuristic multimodal baselines. A 15-participant user study further validates our approach: participants found QuickLAP significantly more understandable and collaborative, and preferred its learned behavior over baselines. Code is available at https://github.com/MIT-CLEAR-Lab/QuickLAP.