M^3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark
作者: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
分类: cs.AI
发布日期: 2025-11-21 (更新: 2025-12-13)
🔗 代码/项目: GITHUB
💡 一句话要点
提出M^3-Bench,用于评估多模态工具使用代理在复杂工作流中的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 工具使用 大型语言模型 基准测试 多跳推理 多线程处理 视觉基础 模型评估
📋 核心要点
- 现有方法在处理需要视觉理解、复杂推理和工具组合的多模态任务时存在不足。
- M^3-Bench通过模拟真实世界的多跳、多线程工作流,提供更全面的评估。
- 该基准采用相似性驱动的对齐方法,并结合LLM集成判断,实现可解释的评估指标。
📝 摘要(中文)
本文提出了M^3-Bench,这是首个在模型上下文协议下评估多模态工具使用的基准。该基准针对现实的、多跳和多线程的工作流程,这些流程需要视觉基础和文本推理、跨工具依赖以及跨步骤的中间资源持久性。我们引入了一种相似性驱动的对齐方法,该方法序列化每个工具调用,使用句子编码器嵌入签名,并执行相似性分桶的匈牙利匹配以获得可审计的一对一对应关系。在此对齐的基础上,我们报告了可解释的指标,这些指标将语义保真度与工作流一致性分离。该基准跨越28个服务器,包含231个工具,并提供通过执行器和判断器流程以及人工验证整理的标准轨迹;一个辅助的四个大型语言模型(LLM)集成报告端到端任务完成情况和信息基础。对代表性的最先进的多模态LLM(MLLM)的评估揭示了多模态MCP工具使用中持续存在的差距,特别是在参数保真度和结构一致性方面,突显了对联合推理图像、文本和工具图的方法的需求。我们的基准的匿名存储库位于https://github.com/EtaYang10th/Open-M3-Bench。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在多模态工具使用方面面临挑战,尤其是在处理需要视觉信息、复杂推理和跨多个工具的依赖关系的任务时。现有的基准测试往往无法充分模拟真实世界场景的复杂性,例如多步骤操作、多线程并行处理以及中间结果的持久化。因此,需要一个更全面、更具挑战性的基准来评估和改进MLLM在这些方面的能力。
核心思路:M^3-Bench的核心思路是构建一个更贴近真实世界的多模态工具使用环境,通过模拟复杂的工作流程来评估MLLM的性能。该基准侧重于多跳(multi-hop)、多线程(multi-threaded)的任务,要求模型具备视觉基础(visual grounding)和文本推理能力,并能处理跨工具的依赖关系。此外,M^3-Bench还引入了一种相似性驱动的对齐方法,以实现更准确的评估。
技术框架:M^3-Bench的整体框架包括以下几个主要组成部分:1) 任务定义:定义了一系列需要多模态工具使用的复杂任务。2) 工具集:提供了一组包含231个工具的工具集,涵盖图像处理、文本处理等多个领域。3) 执行器和判断器流程:使用执行器执行任务,并使用判断器评估执行结果。4) 相似性驱动的对齐:用于建立工具调用和预期结果之间的对应关系。5) LLM集成判断:使用多个LLM对任务完成情况和信息基础进行评估。
关键创新:M^3-Bench的关键创新在于以下几个方面:1) 多模态、多跳、多线程的任务设计:更真实地模拟了实际应用场景的复杂性。2) 相似性驱动的对齐方法:提高了评估的准确性和可解释性。3) LLM集成判断:利用多个LLM的集体智慧,提高了评估的可靠性。4) Executor & Judge pipeline with human verification:通过人工验证保证了轨迹的质量。
关键设计:相似性驱动的对齐方法是M^3-Bench的关键设计之一。该方法首先序列化每个工具调用,然后使用句子编码器嵌入工具签名的语义信息。接着,采用相似性分桶的匈牙利匹配算法,建立工具调用和预期结果之间的一对一对应关系。这种方法能够有效地处理工具调用中的语义差异,并提高评估的准确性。此外,LLM集成判断采用了四个大型语言模型,通过投票机制来提高评估的鲁棒性。
🖼️ 关键图片
📊 实验亮点
对现有MLLM的评估表明,在多模态MCP工具使用中存在显著差距,尤其是在参数保真度和结构一致性方面。这些结果强调了开发能够联合推理图像、文本和工具图的方法的重要性。M^3-Bench提供了一个标准化的评估平台,可以帮助研究人员更好地理解和解决这些问题。
🎯 应用场景
M^3-Bench可用于评估和改进多模态LLM在各种实际应用中的性能,例如智能助手、自动化工作流程、机器人控制等。通过提供更全面、更具挑战性的评估,该基准有助于推动多模态工具使用领域的研究和发展,最终实现更智能、更高效的人工智能系统。
📄 摘要(原文)
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench