FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

作者: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

分类: cs.CL

发布日期: 2026-04-28

备注: Accepted to ACL 2026 Findings

💡 一句话要点

FAMA：面向交互式工具使用环境，基于失败感知的开源LLM元代理框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 自主代理 失败分析 元代理 交互式环境 开源LLM

📋 核心要点

现有开源LLM在交互式工具使用环境中，易因决策错误产生级联效应，导致任务失败。
FAMA框架通过分析失败轨迹，激活专门代理，注入针对性上下文，解决常见错误。
实验表明，FAMA框架在开源LLM上实现了高达27%的性能提升，验证了其有效性。

📝 摘要（中文）

大型语言模型越来越多地被部署为自主代理的决策核心，这些代理能够影响外部环境。然而，在模拟以客户为中心的问题解决场景的对话基准测试中，这些代理经常由于不正确的决策产生的级联效应而失败。对于参数规模较小、上下文窗口有限且推理预算受限的开源LLM来说，这些挑战尤为突出，这导致了代理设置中错误累积的增加。为了应对这些挑战，我们提出了失败感知元代理（FAMA）框架。FAMA分两个阶段运行：首先，它分析来自基线代理的失败轨迹，以识别最常见的错误；其次，它采用一种编排机制，通过在决策步骤之前为工具使用代理注入有针对性的上下文，激活专门用于解决这些错误的最小子集代理。跨开源LLM的实验表明，在各种评估模式下，性能增益高达27%，超过了标准基线。这些结果表明，通过专门的代理来有针对性地管理上下文，以解决常见故障，是构建可靠的、多轮工具使用LLM代理（模拟真实世界的对话场景）的一个有价值的设计原则。

🔬 方法详解

问题定义：论文旨在解决开源LLM在交互式工具使用环境中，由于参数规模小、上下文窗口有限和推理预算受限等因素，容易出现错误累积，导致任务失败的问题。现有方法缺乏对失败模式的有效分析和针对性干预，使得LLM在复杂对话场景中表现不佳。

核心思路：FAMA的核心思路是“失败感知”和“元代理”。首先，通过分析历史失败轨迹，识别LLM最容易出错的环节。然后，利用专门设计的代理，在LLM做出决策前，注入针对性的上下文信息，从而引导LLM做出更正确的选择。这种方法类似于“专家会诊”，在关键时刻引入专业知识，避免LLM犯低级错误。

技术框架：FAMA框架包含两个主要阶段：1) 失败分析阶段：分析基线代理的失败轨迹，识别最常见的错误类型和模式。这可以通过错误分类、聚类等方法实现。2) 元代理编排阶段：根据失败分析的结果，构建一个专门代理池，每个代理负责解决特定类型的错误。在LLM做出决策前，FAMA会根据当前状态，激活最相关的代理，并将其输出的上下文信息注入到LLM的输入中。

关键创新：FAMA的关键创新在于其“失败感知”的设计理念和“元代理”的编排机制。与传统的端到端训练方法不同，FAMA更加关注LLM的弱点，并有针对性地进行干预。这种方法可以有效提高LLM在复杂环境中的鲁棒性和可靠性。此外，FAMA的元代理编排机制可以灵活地扩展代理池，以适应不同的任务和环境。

关键设计：FAMA的关键设计包括：1) 失败分析方法：如何有效地识别和分类失败模式？可以使用规则、机器学习模型等方法。2) 代理激活策略：如何确定何时激活哪个代理？可以使用基于规则的策略、强化学习等方法。3) 上下文注入方式：如何将代理的输出信息有效地注入到LLM的输入中？可以使用提示工程、知识图谱等方法。论文中可能还涉及损失函数的设计，例如，可以设计一个奖励函数，鼓励LLM选择更正确的工具。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FAMA框架在多个开源LLM上取得了显著的性能提升，最高可达27%。这一结果表明，通过针对性地解决LLM的常见错误，可以有效提高其在交互式工具使用环境中的表现。此外，FAMA框架的模块化设计使其易于扩展和定制，可以适应不同的任务和环境。

🎯 应用场景

FAMA框架可应用于各种需要LLM进行交互式工具使用的场景，例如智能客服、自动化运维、智能家居等。通过提高LLM的决策准确性和鲁棒性，FAMA可以显著提升这些应用的效率和用户体验。未来，FAMA还可以扩展到更复杂的任务和环境，例如机器人控制、自动驾驶等。

📄 摘要（原文）

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理