Aligning Dialogue Agents with Global Feedback via Large Language Model Reward Decomposition
作者: Dong Won Lee, Hae Won Park, Cynthia Breazeal, Louis-Philippe Morency
分类: cs.CL
发布日期: 2025-05-21
备注: 9 pages, 3 figures, 3 tables
💡 一句话要点
提出基于大语言模型奖励分解的对话Agent对齐框架,仅用会话级反馈即可优化对话质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话Agent 奖励分解 大语言模型 强化学习 多模态融合
📋 核心要点
- 现有对话Agent对齐方法依赖于细粒度的人工反馈或复杂的奖励塑造,成本高昂且难以泛化。
- 利用大语言模型强大的推理能力,将全局会话反馈分解为细粒度的turn级别奖励,无需人工干预。
- 实验表明,该方法在对话质量上显著优于现有奖励分解方法,证明了LLM作为奖励分解器的有效性。
📝 摘要(中文)
本文提出了一种基于大语言模型的奖励分解框架,用于仅使用单个会话级别的反馈信号来对齐对话Agent。我们利用一个冻结的、预训练的大语言模型(LLM)的推理能力,通过分解全局的、会话级别的反馈来推断细粒度的局部隐式奖励。我们的第一个纯文本变体提示LLM仅使用对话记录来执行奖励分解。第二个多模态变体结合了额外的行为线索,例如音高、视线和面部表情,并将其表达为自然语言描述。这些推断出的turn级别奖励被提炼成一个轻量级的奖励模型,我们利用它进行基于强化学习的对话生成微调。我们针对最先进的奖励分解方法评估了纯文本和多模态变体,并在对话质量的人工评估中证明了显著的改进,这表明LLM是强大的奖励分解器,从而消除了手动奖励塑造和细粒度人工反馈的需要。
🔬 方法详解
问题定义:现有对话Agent的训练通常需要大量的、细粒度的人工标注奖励,或者需要精心设计的奖励函数。这些方法成本高昂,且难以泛化到不同的对话场景。因此,如何仅利用会话级别的全局反馈信号,有效地训练对话Agent,是一个重要的挑战。
核心思路:本文的核心思路是利用预训练的大语言模型(LLM)的强大推理能力,将全局的会话级别反馈分解为细粒度的turn级别的隐式奖励。LLM可以根据对话历史和全局反馈,推断出每个turn对最终结果的贡献,从而生成turn级别的奖励信号。
技术框架:该框架包含以下几个主要模块:1) 对话数据收集:收集包含对话历史和会话级别反馈的数据。2) LLM奖励分解:使用prompt工程,提示LLM根据对话历史和全局反馈,生成turn级别的奖励。该模块包含纯文本和多模态两种变体,多模态变体额外考虑了音高、视线和面部表情等行为线索。3) 奖励模型训练:将LLM生成的turn级别奖励作为监督信号,训练一个轻量级的奖励模型。4) 强化学习微调:使用训练好的奖励模型作为奖励函数,对对话Agent进行强化学习微调。
关键创新:该方法最重要的创新点在于利用LLM进行奖励分解,从而避免了人工标注或手动设计奖励函数的需要。与现有奖励分解方法相比,该方法能够更有效地利用全局反馈信号,并生成更准确的turn级别奖励。此外,多模态信息的引入进一步提升了奖励分解的准确性。
关键设计:在LLM奖励分解阶段,使用了精心设计的prompt,以引导LLM进行有效的推理。对于多模态变体,使用了自然语言描述来表示行为线索。在奖励模型训练阶段,使用了回归损失函数来最小化预测奖励与LLM生成奖励之间的差异。在强化学习微调阶段,使用了PPO算法来优化对话Agent的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在对话质量的人工评估中显著优于现有奖励分解方法。与最先进的基线相比,纯文本变体在对话流畅性和相关性方面取得了显著提升,而多模态变体则进一步提高了对话的自然性和吸引力。这些结果表明,LLM是强大的奖励分解器,能够有效地利用全局反馈信号来优化对话Agent。
🎯 应用场景
该研究成果可广泛应用于对话机器人、智能客服、虚拟助手等领域。通过利用全局反馈信号和LLM奖励分解,可以降低对话Agent的训练成本,提高对话质量,并使其能够更好地适应不同的对话场景。未来,该方法还可以扩展到其他需要奖励塑造的强化学习任务中。
📄 摘要(原文)
We propose a large language model based reward decomposition framework for aligning dialogue agents using only a single session-level feedback signal. We leverage the reasoning capabilities of a frozen, pretrained large language model (LLM) to infer fine-grained local implicit rewards by decomposing global, session-level feedback. Our first text-only variant prompts the LLM to perform reward decomposition using only the dialogue transcript. The second multimodal variant incorporates additional behavioral cues, such as pitch, gaze, and facial affect, expressed as natural language descriptions. These inferred turn-level rewards are distilled into a lightweight reward model, which we utilize for RL-based fine-tuning for dialogue generation. We evaluate both text-only and multimodal variants against state-of-the-art reward decomposition methods and demonstrate notable improvements in human evaluations of conversation quality, suggesting that LLMs are strong reward decomposers that obviate the need for manual reward shaping and granular human feedback.