Sparse Rewards Can Self-Train Dialogue Agents

作者: Barrett Martin Lattimer, Varun Gangal, Ryan McDonald, Yi Yang

分类: cs.CL

发布日期: 2024-09-06 (更新: 2025-07-18)

备注: Accepted to ACL 2025 (Findings)

🔗 代码/项目: GITHUB

💡 一句话要点

提出JOSH：利用稀疏奖励自训练对话Agent，提升工具调用能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话Agent 自训练 稀疏奖励 工具调用 LLM 模拟环境 自对齐

📋 核心要点

现有对话Agent依赖人工标注数据和反馈，成本高昂且难以跟上LLM能力提升。
JOSH算法利用稀疏奖励模拟环境，让LLM Agent通过自我对齐学习理想行为。
实验表明，JOSH能显著提升Agent的工具调用能力，同时保持通用性能。

📝 摘要（中文）

当前大型语言模型（LLM）Agent，尤其是在多轮对话任务中，性能的提升主要依赖于监督微调和高质量的人工反馈。然而，随着基础LLM模型的不断改进，获取有意义的人工反馈变得越来越困难且成本高昂。在某些领域，基础LLM Agent可能最终超越人类能力，使得传统的反馈驱动方法变得不切实际。本文提出了一种新颖的自提升范式，使LLM Agent能够在没有外部人工反馈的情况下自主提高其性能。我们的方法，即模拟收获的并列结果（Juxtaposed Outcomes for Simulation Harvesting，JOSH），是一种自对齐算法，它利用稀疏奖励模拟环境来提取理想行为，并进一步在其自身的输出上训练LLM。我们提出了ToolWOZ，这是一个从MultiWOZ衍生的稀疏奖励工具调用模拟环境。我们证明了使用JOSH训练的模型，无论大小，都显著提高了基于工具的交互能力，同时保留了跨各种基准测试的一般模型能力。我们的代码和数据已在GitHub上公开。

🔬 方法详解

问题定义：论文旨在解决对话Agent在工具调用任务中，对高质量人工反馈的依赖问题。随着LLM能力的提升，获取有效的人工反馈变得越来越困难和昂贵，甚至在某些领域，LLM可能超越人类专家，使得人工反馈不再可靠。现有方法难以有效利用LLM自身生成的数据进行自提升。

核心思路：论文的核心思路是利用稀疏奖励的模拟环境，让LLM Agent通过自我对齐的方式，从自身的行为中学习。Agent在模拟环境中进行交互，根据交互结果获得稀疏奖励，然后利用这些奖励信号来区分好的行为和坏的行为，并进一步训练模型，从而实现性能的提升。这种方法避免了对大量人工标注数据的依赖，降低了训练成本。

技术框架：JOSH算法包含以下几个主要步骤：1) 构建一个稀疏奖励的模拟环境，例如ToolWOZ，用于模拟对话Agent与工具的交互。2) LLM Agent在模拟环境中进行交互，生成一系列对话和工具调用行为。3) 根据模拟环境的奖励信号，对Agent的行为进行评估，区分好的行为和坏的行为。4) 利用这些评估结果，通过对比学习或其他方法，进一步训练LLM Agent，使其学习到更好的策略。

关键创新：JOSH算法的关键创新在于其自对齐的特性。它不需要外部的人工反馈，而是通过模拟环境的奖励信号，让Agent自己学习和改进。这种方法可以有效地利用LLM自身生成的数据，实现性能的持续提升。此外，JOSH算法还提出了一种新的稀疏奖励模拟环境ToolWOZ，用于评估和训练对话Agent的工具调用能力。

关键设计：ToolWOZ环境的设计是关键。它需要能够真实地模拟对话Agent与各种工具的交互，并提供合理的稀疏奖励信号。奖励信号的设计需要能够有效地引导Agent学习到正确的行为。此外，JOSH算法还可以采用不同的对比学习方法来训练LLM Agent，例如InfoNCE等。具体的参数设置需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用JOSH算法训练的LLM Agent在ToolWOZ环境中的工具调用成功率显著提高。与基线模型相比，JOSH训练的模型在保持通用能力的同时，能够更好地完成工具调用任务。具体性能数据在论文中给出，表明JOSH是一种有效的自训练方法。

🎯 应用场景

该研究成果可应用于各种需要对话Agent进行工具调用的场景，例如智能助手、客户服务、自动化流程等。通过自训练的方式，可以降低Agent的开发和维护成本，并提高其性能和适应性。未来，该方法有望扩展到更复杂的任务和环境，实现更智能、更自主的对话Agent。

📄 摘要（原文）

Recent advancements in state-of-the-art (SOTA) Large Language Model (LLM) agents, especially in multi-turn dialogue tasks, have been primarily driven by supervised fine-tuning and high-quality human feedback. However, as base LLM models continue to improve, acquiring meaningful human feedback has become increasingly challenging and costly. In certain domains, base LLM agents may eventually exceed human capabilities, making traditional feedback-driven methods impractical. In this paper, we introduce a novel self-improvement paradigm that empowers LLM agents to autonomously enhance their performance without external human feedback. Our method, Juxtaposed Outcomes for Simulation Harvesting (JOSH), is a self-alignment algorithm that leverages a sparse reward simulation environment to extract ideal behaviors and further train the LLM on its own outputs. We present ToolWOZ, a sparse reward tool-calling simulation environment derived from MultiWOZ. We demonstrate that models trained with JOSH, both small and frontier, significantly improve tool-based interactions while preserving general model capabilities across diverse benchmarks. Our code and data are publicly available on GitHub at https://github.com/asappresearch/josh-llm-simulation-training

Sparse Rewards Can Self-Train Dialogue Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理