SAND: Boosting LLM Agents with Self-Taught Action Deliberation

作者: Yu Xia, Yiran Shen, Junda Wu, Tong Yu, Sungchul Kim, Ryan A. Rossi, Lina Yao, Julian McAuley

分类: cs.CL

发布日期: 2025-07-10 (更新: 2025-08-20)

备注: EMNLP 2025

💡 一句话要点

提出SAND框架，通过自学习行动审议提升LLM Agent性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 行动审议 自学习 强化学习 交互式任务

📋 核心要点

现有LLM Agent微调方法缺乏对备选行动的充分推理和比较，导致Agent容易选择次优行动。
SAND框架通过引入自学习行动审议机制，使Agent在行动前显式地审议候选行动，从而提升决策质量。
实验结果表明，SAND在交互式Agent任务上显著优于监督微调和其他先进方法，平均提升达20%。

📝 摘要（中文）

大型语言模型（LLM）Agent通常通过在ReAct风格的专家轨迹上进行监督微调，或通过成对rollout上的偏好优化进行调整。这些方法大多侧重于模仿特定的专家行为，或促进选择的推理思路和行动优于拒绝的思路和行动。然而，由于行动空间探索有限，LLM Agent在没有对备选行动进行推理和比较的情况下，可能会过度倾向于看似合理但次优的行动。为了解决这个问题，本文提出了自学习行动审议（SAND）框架，使LLM Agent能够在提交行动之前显式地审议候选行动。为了应对大型行动空间和步级行动评估带来的挑战，我们结合了自洽行动采样和执行引导的行动评论，以帮助使用LLM Agent的基础模型合成步级行动审议思路。以迭代的方式，审议轨迹然后被用于微调LLM Agent本身。在两个具有代表性的交互式Agent任务上的评估表明，SAND比初始监督微调平均提高了20%，并且优于最先进的Agent调整方法。

🔬 方法详解

问题定义：现有LLM Agent的微调方法，如监督微调和偏好优化，主要依赖于模仿专家行为或区分优劣行动。这些方法缺乏对备选行动的充分探索和审议，导致Agent容易陷入局部最优，选择看似合理但实际次优的行动。尤其是在复杂的交互式任务中，行动空间巨大，Agent难以充分探索所有可能性。

核心思路：SAND的核心思路是让LLM Agent在行动前进行“自我审议”，即生成多个候选行动，并对这些行动进行评估和比较，从而选择最优行动。这种审议过程借鉴了人类决策时的思考方式，有助于Agent更全面地考虑各种可能性，避免盲目行动。

技术框架：SAND框架包含以下几个主要阶段：1) 自洽行动采样：利用LLM Agent生成多个候选行动，增加行动空间的多样性。2) 执行引导的行动评论：通过模拟执行每个候选行动，并根据执行结果对行动进行评估和打分。3) 审议轨迹生成：将采样、执行和评论过程记录下来，形成审议轨迹。4) 迭代微调：利用审议轨迹对LLM Agent进行微调，使其学习如何进行有效的行动审议。

关键创新：SAND的关键创新在于引入了“自学习行动审议”的概念，并设计了一套完整的框架来实现这一概念。与传统的微调方法相比，SAND不仅关注模仿专家行为，更注重让Agent学习如何进行独立思考和决策。此外，SAND还巧妙地利用LLM Agent自身的能力来生成审议轨迹，避免了对额外标注数据的依赖。

关键设计：在自洽行动采样阶段，可以使用不同的采样策略来控制候选行动的多样性。在执行引导的行动评论阶段，可以设计不同的奖励函数来评估行动的优劣。在迭代微调阶段，可以使用不同的损失函数来引导Agent学习审议策略。此外，如何平衡探索和利用，也是一个需要仔细考虑的问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SAND在两个具有代表性的交互式Agent任务上取得了显著的性能提升。与初始监督微调相比，SAND平均提高了20%。此外，SAND还优于其他先进的Agent调整方法，证明了其有效性和优越性。这些结果表明，通过引入自学习行动审议机制，可以显著提升LLM Agent的决策能力。

🎯 应用场景

SAND框架具有广泛的应用前景，可以应用于各种需要智能Agent进行决策的场景，例如游戏AI、机器人控制、对话系统、自动驾驶等。通过提升Agent的决策能力，SAND可以帮助Agent更好地完成任务，提高效率和安全性。此外，SAND还可以用于提升Agent的解释性和可信度，使其更容易被人类理解和信任。

📄 摘要（原文）

Large Language Model (LLM) agents are commonly tuned with supervised finetuning on ReAct-style expert trajectories or preference optimization over pairwise rollouts. Most of these methods focus on imitating specific expert behaviors or promoting chosen reasoning thoughts and actions over rejected ones. However, without reasoning and comparing over alternatives actions, LLM agents finetuned with these methods may over-commit towards seemingly plausible but suboptimal actions due to limited action space exploration. To address this, in this paper we propose Self-taught ActioN Deliberation (SAND) framework, enabling LLM agents to explicitly deliberate over candidate actions before committing to one. To tackle the challenges of when and what to deliberate given large action space and step-level action evaluation, we incorporate self-consistency action sampling and execution-guided action critique to help synthesize step-wise action deliberation thoughts using the base model of the LLM agent. In an iterative manner, the deliberation trajectories are then used to finetune the LLM agent itself. Evaluating on two representative interactive agent tasks, SAND achieves an average 20% improvement over initial supervised finetuning and also outperforms state-of-the-art agent tuning approaches.

SAND: Boosting LLM Agents with Self-Taught Action Deliberation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理