Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
作者: Wenwu Li, Yuran Song, Mingze Zhao, Bo Jin, Wenhao Li
分类: cs.MA, cs.AI
发布日期: 2026-05-28
备注: 15 pages, 4 figures, 6 tables
💡 一句话要点
提出时序与结构信用分配方法,优化LLM多智能体提示,提升复杂推理任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 提示优化 信用分配 复杂推理
📋 核心要点
- 现有方法难以将多智能体系统轨迹层面的失败归因于特定智能体或交互轮次,导致优化效率低下。
- 提出时序和结构信用分配,通过状态空间瓶颈和静态角色策略解耦误差信号,从而进行更精准的优化。
- 实验表明,该方法在多种推理基准测试中显著降低了查询复杂度,并提升了多智能体系统的性能。
📝 摘要(中文)
多智能体系统(MAS)通过协作交互增强了大型语言模型(LLM)处理复杂推理任务的能力,但由于计算图的离散性、不可微性和全局监督信号的稀疏性,优化其动态过程仍然是一个巨大的挑战。现有的黑盒优化器难以将轨迹层面的失败归因于特定的局部组件,导致低效和高方差的探索。我们认为,可处理的MAS优化需要结构化的归纳偏置来解耦误差信号。我们提出了时序和结构信用分配,它沿着两个轴分解目标:(i)时序信用,使用状态空间瓶颈来识别关键轮次;(ii)结构信用,使用静态角色策略来隔离智能体的贡献。利用这些分解的信号,我们引入了一种离散的、口头化的块坐标下降算法进行迭代优化。它不是进行不加区分的全局更新,而是在优化角色提示和聚合协议之间交替,使用LLM生成的“代理梯度”来仅针对已识别的薄弱环节。在不同的推理基准测试中,我们的方法大大降低了查询复杂度,同时提高了性能,为自改进的MAS提供了一条有原则且可解释的路径。
🔬 方法详解
问题定义:论文旨在解决多智能体系统中,由于计算图的离散性、不可微性和全局监督信号的稀疏性,导致难以有效优化智能体之间的交互和提示的问题。现有黑盒优化器难以将轨迹层面的失败归因于特定的智能体或交互轮次,导致优化效率低下,探索空间巨大。
核心思路:论文的核心思路是通过引入结构化的归纳偏置,将全局的优化目标分解为可追踪的时序和结构信用。具体来说,通过时序信用分配识别关键的交互轮次,通过结构信用分配识别对结果影响最大的智能体。这样可以将优化目标聚焦到特定的智能体和交互轮次上,从而提高优化效率。
技术框架:整体框架是一个迭代优化的过程,主要包含以下几个阶段:1) 使用多智能体系统进行推理;2) 通过时序信用分配识别关键轮次;3) 通过结构信用分配识别关键智能体;4) 使用LLM生成“代理梯度”,指导对关键智能体提示和聚合协议的优化;5) 重复以上步骤,直到收敛。该框架采用离散的、口头化的块坐标下降算法,交替优化角色提示和聚合协议。
关键创新:最重要的技术创新点在于提出了时序和结构信用分配方法,将全局优化目标分解为可追踪的局部信用,从而实现了对多智能体系统更精准的优化。与现有方法相比,该方法能够更有效地利用监督信号,避免了盲目的全局搜索,显著降低了查询复杂度。
关键设计:时序信用分配通过分析状态空间瓶颈来识别关键轮次,例如信息传递的关键节点。结构信用分配则利用静态角色策略来隔离各个智能体的贡献,例如分析不同角色对最终结果的影响。LLM生成的“代理梯度”用于指导对角色提示和聚合协议的优化,这些“代理梯度”实际上是LLM对当前策略的改进建议,以自然语言的形式呈现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个推理基准测试中取得了显著的性能提升,并大幅降低了查询复杂度。具体而言,与现有方法相比,该方法能够以更少的查询次数达到更高的准确率,证明了其在优化多智能体系统方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要多智能体协作的复杂推理任务,例如知识图谱推理、代码生成、对话系统等。通过优化智能体之间的交互和提示,可以显著提升系统的性能和效率,降低计算成本,并为构建更智能、更可靠的多智能体系统提供理论基础。
📄 摘要(原文)
While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizing their dynamics remains a formidable challenge due to the discrete, non-differentiable nature of the computation graph and the sparsity of global supervisory signals. Existing black-box optimizers struggle to attribute trajectory-level failure to specific local components, resulting in inefficient, high-variance exploration. We argue that tractable MAS optimization needs structural inductive biases to disentangle error signals. We propose temporal and structural credit assignment, which decomposes the objective along two axes: (i) temporal credit, using state-space bottlenecks to identify critical rounds, and (ii) structural credit, using stationary role policies to isolate agent contributions. Leveraging these decomposed signals, we introduce a discrete, verbalized block coordinate descent algorithm for iterative refinement. Rather than indiscriminate global updates, it alternates between optimizing role prompts and aggregation protocols, using LLM-generated "proxy gradients" to target only the identified weak links. Across diverse reasoning benchmarks, our approach substantially reduces query complexity while improving performance, providing a principled and interpretable path toward self-improving MAS.