Direct Multi-Turn Preference Optimization for Language Agents
作者: Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng
分类: cs.CL, cs.LG
发布日期: 2024-06-21 (更新: 2025-02-23)
备注: Accepted by EMNLP 2024 Main
🔗 代码/项目: GITHUB
💡 一句话要点
提出DMPO,通过优化状态-动作占用度量解决多轮语言Agent的直接偏好优化问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮对话 语言Agent 直接偏好优化 强化学习 状态-动作占用度量
📋 核心要点
- 现有DPO方法在多轮Agent任务中,由于配分函数难以消除,面临优化难题,限制了其应用。
- DMPO通过状态-动作占用度量约束替换策略约束,并结合长度归一化,使配分函数与当前状态解耦。
- 实验结果表明,DMPO在多轮Agent任务上表现优异,验证了其有效性和优越性。
📝 摘要(中文)
本文针对语言Agent任务中,如何利用直接偏好优化(DPO)方法进行多轮任务学习的问题。传统DPO方法在多轮任务中面临配分函数难以消除的挑战。为了解决这个问题,本文提出DMPO损失函数,核心思想是将强化学习目标中的策略约束替换为状态-动作占用度量约束,并对Bradley-Terry模型进行长度归一化,从而使配分函数与当前状态无关。理论分析证明了DMPO损失的有效性。在三个多轮Agent任务数据集上的大量实验表明,DMPO损失函数具有有效性和优越性。
🔬 方法详解
问题定义:论文旨在解决多轮对话Agent任务中,如何有效地利用直接偏好优化(DPO)方法进行策略学习的问题。传统的DPO方法在单轮任务中表现良好,但直接应用于多轮任务时,由于配分函数依赖于整个对话历史,难以消除,导致优化困难。现有方法难以处理多轮对话中奖励的延迟性和轨迹长度差异问题。
核心思路:论文的核心思路是将强化学习的目标函数中的策略约束替换为状态-动作占用度量约束。通过这种替换,配分函数不再依赖于当前状态,从而可以被消除。此外,论文还对Bradley-Terry模型进行了长度归一化,以解决不同长度轨迹之间的偏好比较问题。
技术框架:DMPO方法的技术框架主要包括以下几个步骤:1) 收集多轮对话数据,并对每个对话生成preferred和dispreferred的轨迹对。2) 使用状态-动作占用度量约束替换策略约束,构建新的强化学习目标函数。3) 对Bradley-Terry模型进行长度归一化。4) 使用DMPO损失函数训练语言模型,优化Agent策略。
关键创新:论文的关键创新在于:1) 将策略约束替换为状态-动作占用度量约束,解决了多轮任务中配分函数难以消除的问题。2) 引入长度归一化,解决了轨迹长度差异带来的偏好比较偏差。3) 提出了DMPO损失函数,可以直接优化多轮Agent任务的策略。与现有方法的本质区别在于,DMPO能够有效地处理多轮对话中的配分函数问题和轨迹长度差异问题,从而实现更有效的策略学习。
关键设计:DMPO损失函数基于Bradley-Terry模型,并进行了修改以适应多轮任务。损失函数的形式如下: loss = -log sigmoid(β(reward(preferred) - reward(dispreferred)) + length_normalization) 其中,β是一个超参数,用于控制偏好的强度。length_normalization是一个长度归一化项,用于解决轨迹长度差异带来的偏好比较偏差。具体实现中,可以使用不同的长度归一化方法,例如,可以使用轨迹长度的倒数作为权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DMPO在三个多轮Agent任务数据集上均取得了显著的性能提升。例如,在某个数据集上,DMPO相比于基线方法,成功率提升了10%以上。此外,实验还验证了长度归一化对性能的提升效果。这些结果表明,DMPO是一种有效且优越的多轮Agent策略学习方法。
🎯 应用场景
DMPO方法可应用于各种需要多轮交互的语言Agent任务,例如对话系统、任务型对话、游戏Agent等。该方法能够提升Agent在复杂环境中的决策能力和长期回报,具有广泛的应用前景。未来,可以进一步探索DMPO在更复杂的Agent任务中的应用,例如涉及多模态输入和复杂推理的任务。
📄 摘要(原文)
Adapting Large Language Models (LLMs) for agent tasks is critical in developing language agents. Direct Preference Optimization (DPO) is a promising technique for this adaptation with the alleviation of compounding errors, offering a means to directly optimize Reinforcement Learning (RL) objectives. However, applying DPO to multi-turn tasks presents challenges due to the inability to cancel the partition function. Overcoming this obstacle involves making the partition function independent of the current state and addressing length disparities between preferred and dis-preferred trajectories. In this light, we replace the policy constraint with the state-action occupancy measure constraint in the RL objective and add length normalization to the Bradley-Terry model, yielding a novel loss function named DMPO for multi-turn agent tasks with theoretical explanations. Extensive experiments on three multi-turn agent task datasets confirm the effectiveness and superiority of the DMPO loss. The code is available at https://github.com/swt-user/DMPO.