FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

📄 arXiv: 2604.25135v1 📥 PDF

作者: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

分类: cs.CL

发布日期: 2026-04-28

备注: Accepted to ACL 2026 Findings


💡 一句话要点

FAMA:面向交互式工具使用环境,基于失败感知的开源LLM元代理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 自主代理 失败分析 元代理 交互式环境 开源LLM

📋 核心要点

  1. 现有开源LLM在交互式工具使用环境中,易因决策错误产生级联效应,导致任务失败。
  2. FAMA框架通过分析失败轨迹,激活专门代理,注入针对性上下文,解决常见错误。
  3. 实验表明,FAMA框架在开源LLM上实现了高达27%的性能提升,验证了其有效性。

📝 摘要(中文)

大型语言模型越来越多地被部署为自主代理的决策核心,这些代理能够影响外部环境。然而,在模拟以客户为中心的问题解决场景的对话基准测试中,这些代理经常由于不正确的决策产生的级联效应而失败。对于参数规模较小、上下文窗口有限且推理预算受限的开源LLM来说,这些挑战尤为突出,这导致了代理设置中错误累积的增加。为了应对这些挑战,我们提出了失败感知元代理(FAMA)框架。FAMA分两个阶段运行:首先,它分析来自基线代理的失败轨迹,以识别最常见的错误;其次,它采用一种编排机制,通过在决策步骤之前为工具使用代理注入有针对性的上下文,激活专门用于解决这些错误的最小子集代理。跨开源LLM的实验表明,在各种评估模式下,性能增益高达27%,超过了标准基线。这些结果表明,通过专门的代理来有针对性地管理上下文,以解决常见故障,是构建可靠的、多轮工具使用LLM代理(模拟真实世界的对话场景)的一个有价值的设计原则。

🔬 方法详解

问题定义:论文旨在解决开源LLM在交互式工具使用环境中,由于参数规模小、上下文窗口有限和推理预算受限等因素,容易出现错误累积,导致任务失败的问题。现有方法缺乏对失败模式的有效分析和针对性干预,使得LLM在复杂对话场景中表现不佳。

核心思路:FAMA的核心思路是“失败感知”和“元代理”。首先,通过分析历史失败轨迹,识别LLM最容易出错的环节。然后,利用专门设计的代理,在LLM做出决策前,注入针对性的上下文信息,从而引导LLM做出更正确的选择。这种方法类似于“专家会诊”,在关键时刻引入专业知识,避免LLM犯低级错误。

技术框架:FAMA框架包含两个主要阶段:1) 失败分析阶段:分析基线代理的失败轨迹,识别最常见的错误类型和模式。这可以通过错误分类、聚类等方法实现。2) 元代理编排阶段:根据失败分析的结果,构建一个专门代理池,每个代理负责解决特定类型的错误。在LLM做出决策前,FAMA会根据当前状态,激活最相关的代理,并将其输出的上下文信息注入到LLM的输入中。

关键创新:FAMA的关键创新在于其“失败感知”的设计理念和“元代理”的编排机制。与传统的端到端训练方法不同,FAMA更加关注LLM的弱点,并有针对性地进行干预。这种方法可以有效提高LLM在复杂环境中的鲁棒性和可靠性。此外,FAMA的元代理编排机制可以灵活地扩展代理池,以适应不同的任务和环境。

关键设计:FAMA的关键设计包括:1) 失败分析方法:如何有效地识别和分类失败模式?可以使用规则、机器学习模型等方法。2) 代理激活策略:如何确定何时激活哪个代理?可以使用基于规则的策略、强化学习等方法。3) 上下文注入方式:如何将代理的输出信息有效地注入到LLM的输入中?可以使用提示工程、知识图谱等方法。论文中可能还涉及损失函数的设计,例如,可以设计一个奖励函数,鼓励LLM选择更正确的工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAMA框架在多个开源LLM上取得了显著的性能提升,最高可达27%。这一结果表明,通过针对性地解决LLM的常见错误,可以有效提高其在交互式工具使用环境中的表现。此外,FAMA框架的模块化设计使其易于扩展和定制,可以适应不同的任务和环境。

🎯 应用场景

FAMA框架可应用于各种需要LLM进行交互式工具使用的场景,例如智能客服、自动化运维、智能家居等。通过提高LLM的决策准确性和鲁棒性,FAMA可以显著提升这些应用的效率和用户体验。未来,FAMA还可以扩展到更复杂的任务和环境,例如机器人控制、自动驾驶等。

📄 摘要(原文)

Large Language Models are being increasingly deployed as the decision-making core of autonomous agents capable of effecting change in external environments. Yet, in conversational benchmarks, which simulate real-world customer-centric issue resolution scenarios, these agents frequently fail due to the cascading effects of incorrect decision-making. These challenges are particularly pronounced for open-source LLMs with smaller parameter sizes, limited context windows, and constrained inference budgets, which contribute to increased error accumulation in agentic settings. To tackle these challenges, we present the Failure-Aware Meta-Agentic (FAMA) framework. FAMA operates in two stages: first, it analyzes failure trajectories from baseline agents to identify the most prevalent errors; second, it employs an orchestration mechanism that activates a minimal subset of specialized agents tailored to address these failures by injecting a targeted context for the tool-use agent before the decision-making step. Experiments across open-source LLMs demonstrate performance gains up to 27% across evaluation modes over standard baselines. These results highlight that targeted curation of context through specialized agents to address common failures is a valuable design principle for building reliable, multi-turn tool-use LLM agents that simulate real-world conversational scenarios.