Every Response Counts: Quantifying Uncertainty of LLM-based Multi-Agent Systems through Tensor Decomposition

作者: Tiejin Chen, Huaiyuan Yao, Jia Chen, Evangelos E. Papalexakis, Hua Wei

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-09

备注: Accept to ACL 26

💡 一句话要点

提出MATU框架，通过张量分解量化LLM多智能体系统的不确定性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 不确定性量化 张量分解 大型语言模型 可靠性评估

📋 核心要点

现有不确定性量化方法难以应对LLM多智能体系统中多步推理、通信路径可变和拓扑多样性带来的挑战。
MATU框架通过将推理轨迹表示为嵌入矩阵，并组织成高阶张量，利用张量分解分离并量化不确定性来源。
实验表明，MATU能够有效地估计各种任务和通信拓扑中的整体和鲁棒的不确定性。

📝 摘要（中文）

基于大型语言模型的多智能体系统(MAS)在复杂任务中表现优于单智能体系统，但其复杂的交互带来了可靠性挑战，这些挑战源于通信动态和角色依赖。现有的不确定性量化方法通常为单轮输出设计，无法解决MAS的独特复杂性。具体来说，这些方法难以应对多步推理中的级联不确定性、智能体间通信路径的可变性以及通信拓扑的多样性。为了弥合这一差距，我们引入了一种新的框架MATU，该框架通过张量分解来量化不确定性。MATU超越了分析最终文本输出，将整个推理轨迹表示为嵌入矩阵，并将多次执行运行组织成高阶张量。通过应用张量分解，我们分离并量化了不同的不确定性来源，提供了一种通用的、可跨不同智能体结构使用的综合可靠性度量。

🔬 方法详解

问题定义：论文旨在解决LLM多智能体系统（MAS）中不确定性量化的问题。现有的不确定性量化方法主要针对单轮输出设计，无法有效处理MAS中由于多步推理、智能体间通信路径可变以及通信拓扑多样性所带来的复杂不确定性。这些不确定性会影响MAS的可靠性，阻碍其在实际场景中的应用。

核心思路：论文的核心思路是将MAS的推理轨迹表示为嵌入矩阵，并将多次执行运行组织成高阶张量。然后，利用张量分解技术，将不同来源的不确定性解耦并进行量化。通过这种方式，可以更全面、更细粒度地评估MAS的可靠性。这种方法的核心在于将复杂的交互过程转化为数学上可处理的张量形式，从而利用张量分解的强大能力。

技术框架：MATU框架主要包含以下几个阶段：1) 轨迹嵌入：将MAS的推理轨迹（包括智能体间的通信内容）转换为嵌入矩阵。2) 张量构建：将多次执行运行的嵌入矩阵组织成一个高阶张量。3) 张量分解：对高阶张量进行分解，例如CP分解或Tucker分解，以提取不同来源的不确定性成分。4) 不确定性量化：基于分解结果，计算各种不确定性指标，例如方差、熵等。

关键创新：MATU的关键创新在于它将张量分解技术应用于LLM多智能体系统的不确定性量化。与传统的基于最终输出的分析方法不同，MATU能够捕捉整个推理过程中的不确定性，并将其分解为不同的来源。这种方法能够更全面地评估MAS的可靠性，并为改进MAS的设计提供指导。此外，MATU具有通用性，可以应用于不同的智能体结构和通信拓扑。

关键设计：在轨迹嵌入阶段，可以使用预训练的语言模型（例如BERT、GPT）将文本信息转换为嵌入向量。在张量分解阶段，可以选择不同的分解算法，例如CP分解或Tucker分解，具体选择取决于任务的特点和计算资源的限制。在不确定性量化阶段，可以根据分解结果计算各种不确定性指标，例如方差、熵等。具体的参数设置需要根据实验结果进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MATU能够有效地估计各种任务和通信拓扑中的整体和鲁棒的不确定性。具体来说，MATU在多个基准测试中优于现有的不确定性量化方法，并且能够准确地识别出导致系统不确定性的关键因素。实验还表明，MATU具有良好的可扩展性，可以应用于大规模的MAS。

🎯 应用场景

MATU框架可应用于各种需要高可靠性的LLM多智能体系统，例如金融风险评估、医疗诊断、自动驾驶等领域。通过量化系统的不确定性，可以帮助用户更好地理解系统的行为，并采取相应的措施来提高系统的可靠性。此外，MATU还可以用于评估不同智能体结构和通信拓扑对系统可靠性的影响，从而为MAS的设计提供指导。

📄 摘要（原文）

While Large Language Model-based Multi-Agent Systems (MAS) consistently outperform single-agent systems on complex tasks, their intricate interactions introduce critical reliability challenges arising from communication dynamics and role dependencies. Existing Uncertainty Quantification methods, typically designed for single-turn outputs, fail to address the unique complexities of the MAS. Specifically, these methods struggle with three distinct challenges: the cascading uncertainty in multi-step reasoning, the variability of inter-agent communication paths, and the diversity of communication topologies. To bridge this gap, we introduce MATU, a novel framework that quantifies uncertainty through tensor decomposition. MATU moves beyond analyzing final text outputs by representing entire reasoning trajectories as embedding matrices and organizing multiple execution runs into a higher-order tensor. By applying tensor decomposition, we disentangle and quantify distinct sources of uncertainty, offering a comprehensive reliability measure that is generalizable across different agent structures. We provide comprehensive experiments to show that MATU effectively estimates holistic and robust uncertainty across diverse tasks and communication topologies.

Every Response Counts: Quantifying Uncertainty of LLM-based Multi-Agent Systems through Tensor Decomposition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理