MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems

📄 arXiv: 2602.03053v1 📥 PDF

作者: Vishal Venkataramani, Haizhou Shi, Zixuan Ke, Austin Xu, Xiaoxiao He, Yingbo Zhou, Semih Yavuz, Hao Wang, Shafiq Joty

分类: cs.AI, cs.CL, cs.MA

发布日期: 2026-02-03

备注: Preprint; work in progress

🔗 代码/项目: GITHUB


💡 一句话要点

MAS-ProVe:系统性研究多智能体系统过程验证的有效性与挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 过程验证 大型语言模型 LLM-as-a-Judge 奖励模型 上下文管理 实证研究

📋 核心要点

  1. 基于LLM的MAS推理轨迹方差大,过程验证作为潜在的协调工具,其有效性尚不明确。
  2. MAS-ProVe系统性研究了三种验证范式、两种验证粒度级别、五种验证器和四种上下文管理策略。
  3. 实验表明过程级验证效果不稳定,LLM-as-a-Judge优于奖励模型,但仍存在上下文长度-性能权衡。

📝 摘要(中文)

本文提出了MAS-ProVe,一项针对多智能体系统(MAS)过程验证的系统性实证研究。基于大型语言模型(LLM)的MAS在推理轨迹上表现出高度的方差。过程验证,即评估轨迹中的中间步骤,已在通用推理设置中显示出潜力,并被认为是指导MAS协调的潜在工具;然而,它在MAS中的实际有效性仍不清楚。本研究涵盖了三种验证范式(LLM-as-a-Judge、奖励模型和过程奖励模型),评估了两个验证粒度级别(智能体级别和迭代级别)。进一步考察了五个代表性的验证器和四种上下文管理策略,并在多个推理基准上对六个不同的MAS框架进行了实验。结果表明,过程级验证并不能持续提高性能,并且经常表现出高度的方差,突出了可靠评估部分多智能体轨迹的难度。在所研究的方法中,LLM-as-a-Judge通常优于基于奖励的方法,并且经过训练的评判器优于通用LLM。此外,观察到LLM作为评判器和作为单个智能体之间的性能差距很小,并确定了验证中的上下文长度-性能权衡。总的来说,研究结果表明,有效且稳健的MAS过程验证仍然是一个开放的挑战,需要超越当前范式的进一步发展。

🔬 方法详解

问题定义:论文旨在解决多智能体系统(MAS)中过程验证有效性不明确的问题。现有方法,如直接使用LLM进行推理,在MAS中表现出较高的方差,难以保证结果的可靠性。过程验证作为一种潜在的解决方案,其在MAS中的实际效果和适用性需要深入研究。

核心思路:论文的核心思路是通过系统性的实验评估不同过程验证方法在MAS中的表现。通过对比不同的验证范式(LLM-as-a-Judge、奖励模型、过程奖励模型)、验证粒度(智能体级别、迭代级别)、验证器和上下文管理策略,来分析过程验证对MAS性能的影响,并找出最佳实践。

技术框架:MAS-ProVe的研究框架主要包括以下几个部分:1) MAS环境搭建:选择六个不同的MAS框架和多个推理基准。2) 过程验证方法选择:选取三种验证范式(LLM-as-a-Judge、奖励模型、过程奖励模型)和五个代表性验证器。3) 上下文管理策略:采用四种不同的上下文管理策略,以控制输入到验证器的信息量。4) 实验评估:在不同的MAS框架和推理基准上进行实验,评估不同过程验证方法的性能。

关键创新:论文的主要创新在于对MAS过程验证进行了全面的实证研究。它不是简单地提出一种新的验证方法,而是系统地分析了现有方法的优缺点,并揭示了过程验证在MAS中面临的挑战。通过对比不同的验证范式、粒度和策略,为未来的研究提供了重要的参考。

关键设计:论文的关键设计包括:1) 验证范式选择:LLM-as-a-Judge利用LLM的推理能力进行判断,奖励模型和过程奖励模型则通过训练来学习评估标准。2) 验证粒度控制:智能体级别验证关注单个智能体的行为,迭代级别验证关注整个系统的进展。3) 上下文管理策略:不同的策略控制输入到验证器的信息量,以平衡验证的准确性和效率。4) 实验指标:使用多种指标来评估MAS的性能,包括准确率、效率和鲁棒性。

📊 实验亮点

实验结果表明,过程级验证在MAS中并不总是有效,且方差较高。LLM-as-a-Judge通常优于基于奖励的方法,经过训练的评判器性能优于通用LLM。研究还发现LLM作为评判器和作为单个智能体之间的性能差距较小,并存在上下文长度-性能的权衡。这些发现为未来MAS过程验证的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如:自动驾驶、智能交通、机器人协同、分布式计算等。通过更有效地验证和指导多智能体的行为,可以提高系统的可靠性、效率和安全性,从而推动相关领域的发展。

📄 摘要(原文)

Multi-Agent Systems (MAS) built on Large Language Models (LLMs) often exhibit high variance in their reasoning trajectories. Process verification, which evaluates intermediate steps in trajectories, has shown promise in general reasoning settings, and has been suggested as a potential tool for guiding coordination of MAS; however, its actual effectiveness in MAS remains unclear. To fill this gap, we present MAS-ProVe, a systematic empirical study of process verification for multi-agent systems (MAS). Our study spans three verification paradigms (LLM-as-a-Judge, reward models, and process reward models), evaluated across two levels of verification granularity (agent-level and iteration-level). We further examine five representative verifiers and four context management strategies, and conduct experiments over six diverse MAS frameworks on multiple reasoning benchmarks. We find that process-level verification does not consistently improve performance and frequently exhibits high variance, highlighting the difficulty of reliably evaluating partial multi-agent trajectories. Among the methods studied, LLM-as-a-Judge generally outperforms reward-based approaches, with trained judges surpassing general-purpose LLMs. We further observe a small performance gap between LLMs acting as judges and as single agents, and identify a context-length-performance trade-off in verification. Overall, our results suggest that effective and robust process verification for MAS remains an open challenge, requiring further advances beyond current paradigms. Code is available at https://github.com/Wang-ML-Lab/MAS-ProVe.