Collaboration Dynamics and Reliability Challenges of Multi-Agent LLM Systems in Finite Element Analysis

📄 arXiv: 2408.13406v2 📥 PDF

作者: Chuan Tian, Yilei Zhang

分类: cs.AI, cs.CE, cs.MA

发布日期: 2024-08-23 (更新: 2025-11-05)


💡 一句话要点

研究多智能体LLM系统在有限元分析中的协作动态与可靠性挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 有限元分析 协作动态 可靠性 AutoGen 工程计算

📋 核心要点

  1. 现有基于LLM的多智能体系统在工程计算工作流程中的应用,缺乏对智能体间协作动态如何影响推理质量和验证可靠性的深入理解。
  2. 本文通过构建基于AutoGen的有限元分析多智能体框架,研究不同角色配置下的协作模式,并分析其对结果正确性的影响。
  3. 实验结果表明,功能互补性比团队规模更重要,并揭示了确认偏差、过早共识和验证-确认差距等系统性失效模式。

📝 摘要(中文)

基于大型语言模型(LLM)的多智能体系统越来越多地应用于自动化科学和工程计算工作流程。然而,智能体间的动态如何影响推理质量和验证可靠性仍不清楚。本文使用基于AutoGen的多智能体框架进行线弹性有限元分析(FEA),评估了七种角色配置在四个任务下的表现,对话轮数限制为12轮。通过1120次受控试验,发现协作有效性更依赖于功能互补性而非团队规模:三智能体Coder-Executor-Critic配置能够产生物理和视觉上正确的解决方案,而增加冗余审查员反而降低了成功率。然而,仍然存在三种系统性失效模式:(1)确认偏差,即反驳智能体认可而非挑战输出(85-92%的一致性,包括错误);(2)由冗余审查员导致的过早共识;(3)可执行但物理上不正确的代码通过检测的验证-确认差距。没有智能体组合能够成功验证复杂任务中的本构关系。基于功能多样性、角色分化和计算验证理论,本文提出了可操作的设计原则:(i)分配互补的智能体角色,(ii)实施多级验证(执行、规范、物理),以及(iii)通过对抗或基于触发的交互控制来防止早期共识。这些发现为设计工程工作流程中值得信赖的LLM协作奠定了原则性基础。

🔬 方法详解

问题定义:论文旨在解决基于LLM的多智能体系统在有限元分析(FEA)等工程计算任务中,由于智能体间协作方式不当导致的推理质量下降和验证可靠性不足的问题。现有方法缺乏对智能体间动态关系的深入理解,容易出现确认偏差、过早共识等问题,导致最终结果不准确甚至错误。

核心思路:论文的核心思路是通过构建一个可控的多智能体实验环境,系统性地评估不同角色配置下的协作模式,并分析其对FEA结果正确性的影响。通过观察智能体之间的交互行为,识别潜在的失效模式,并提出相应的改进策略,从而提高多智能体系统在工程计算中的可靠性。

技术框架:论文使用AutoGen框架构建多智能体系统,用于执行线弹性有限元分析任务。该框架包含多个智能体,每个智能体扮演不同的角色,如Coder、Executor、Critic和Rebuttal。智能体之间通过对话进行协作,共同完成FEA任务。实验中,作者评估了七种不同的角色配置在四个任务下的表现,并设置了固定的对话轮数限制。

关键创新:论文的关键创新在于系统性地研究了多智能体LLM系统在工程计算中的协作动态和可靠性挑战。通过大量的受控实验,揭示了功能互补性、角色分化和多级验证对提高系统可靠性的重要性。此外,论文还识别了确认偏差、过早共识和验证-确认差距等系统性失效模式,为设计更可靠的多智能体系统提供了指导。

关键设计:论文的关键设计包括:(1)选择AutoGen作为多智能体框架,便于构建和控制实验环境;(2)设计了七种不同的角色配置,以评估不同协作模式的影响;(3)设置了四个不同复杂度的FEA任务,以测试系统的泛化能力;(4)采用多级验证方法,包括执行验证、规范验证和物理验证,以提高结果的可靠性;(5)提出了基于对抗或触发的交互控制机制,以防止早期共识和确认偏差。

📊 实验亮点

实验结果表明,三智能体Coder-Executor-Critic配置能够产生物理和视觉上正确的FEA解决方案,而增加冗余审查员反而降低了成功率。同时,实验揭示了多智能体系统中的三种系统性失效模式:确认偏差(85-92%的一致性,包括错误)、过早共识和验证-确认差距。研究结果强调了功能互补性和多级验证的重要性。

🎯 应用场景

该研究成果可应用于自动化工程设计、科学计算和复杂问题求解等领域。通过优化多智能体系统的协作模式,可以提高工程计算的效率和可靠性,减少人为错误,并加速产品开发周期。未来,该研究可扩展到其他工程领域,如结构优化、流体分析和电磁仿真等。

📄 摘要(原文)

Large Language Model (LLM)-based multi-agent systems are increasingly applied to automate computational workflows in science and engineering. However, how inter-agent dynamics influence reasoning quality and verification reliability remains unclear. We study these mechanisms using an AutoGen-based multi-agent framework for linear-elastic Finite Element Analysis (FEA), evaluating seven role configurations across four tasks under a fixed 12-turn conversation limit. From 1,120 controlled trials, we find that collaboration effectiveness depends more on functional complementarity than team size: the three-agent Coder-Executor-Critic configuration uniquely produced physically and visually correct solutions, while adding redundant reviewers reduced success rates. Yet three systematic failure modes persist: (1) affirmation bias, where the Rebuttal agent endorsed rather than challenged outputs (85-92% agreement, including errors); (2) premature consensus caused by redundant reviewers; and (3) a verification-validation gap where executable but physically incorrect code passed undetected. No agent combination successfully validated constitutive relations in complex tasks. Building on theories of functional diversity, role differentiation, and computational validation, we propose actionable design principles: (i) assign complementary agent roles, (ii) enforce multi-level validation (execution, specification, physics), and (iii) prevent early consensus through adversarial or trigger-based interaction control. These findings establish a principled foundation for designing trustworthy LLM collaborations in engineering workflows.