ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
作者: Yinuo Liu, Zi Qian, Heng Zhou, Jiahao Zhang, Yajie Zhang, Zhihang Li, Mengyu Zhou, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang
分类: cs.AI
发布日期: 2026-03-31
🔗 代码/项目: GITHUB
💡 一句话要点
提出ATP-Bench基准测试,用于评估MLLM在交错生成任务中的Agentic Tool Planning能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大型语言模型 交错生成 Agentic Tool Planning 基准测试 视觉问答
📋 核心要点
- 现有MLLM在交错生成任务中,图像生成和检索增强通常被视为互斥路径,无法有效统一事实性和创造性。
- 提出Agentic Tool Planning范例,模型作为中央控制器,自主决定何时、何地以及调用哪些工具生成交错响应。
- 构建ATP-Bench基准测试,包含7702个QA对,并提出Multi-Agent MLLM-as-a-Judge (MAM)系统进行评估。
📝 摘要(中文)
交错的文本和图像生成是多模态大型语言模型(MLLM)的一个重要前沿领域,它提供了一种更直观的方式来传达复杂的信息。目前的范例依赖于图像生成或检索增强,但它们通常将两者视为互斥的路径,未能统一事实性和创造性。我们认为,该领域的下一个里程碑是Agentic Tool Planning,即模型充当中央控制器,自主决定何时、何地以及调用哪些工具来为视觉关键型查询生成交错的响应。为了系统地评估这种范例,我们引入了ATP-Bench,这是一个新颖的基准,包含跨越八个类别和25个视觉关键意图的7,702个QA对(包括1,592个VQA对),具有人工验证的查询和ground truth。此外,为了独立于端到端执行和不断变化的工具后端来评估agentic planning,我们提出了一个Multi-Agent MLLM-as-a-Judge (MAM)系统。MAM评估工具调用精度,识别错过的使用工具的机会,并评估整体响应质量,而无需ground-truth参考。我们对10个最先进的MLLM进行的广泛实验表明,模型在连贯的交错规划方面存在困难,并且在工具使用行为方面表现出显着差异,这突出了巨大的改进空间,并为推进交错生成提供了可操作的指导。数据集和代码可在https://github.com/Qwen-Applications/ATP-Bench获得。
🔬 方法详解
问题定义:现有MLLM在处理需要交错生成文本和图像的视觉关键型查询时,缺乏有效的工具规划机制。它们通常将图像生成和检索增强视为独立的流程,无法根据查询内容动态选择和组合合适的工具,导致生成结果的事实性和创造性不足。现有方法难以应对复杂场景,例如需要先进行视觉问答,再根据答案生成图像,最后结合文本进行描述的场景。
核心思路:论文的核心思路是引入Agentic Tool Planning的概念,将MLLM视为一个智能体,能够自主地规划和执行工具调用,以生成高质量的交错文本和图像。通过让模型具备自主决策能力,可以更好地应对复杂查询,并灵活地利用各种工具来提升生成结果的质量。
技术框架:整体框架包含以下几个主要模块:1) 查询理解模块:分析用户输入的查询,识别视觉关键意图。2) 工具规划模块:根据查询意图,规划需要调用的工具序列,例如视觉问答、图像生成、图像检索等。3) 工具执行模块:按照规划的顺序,依次调用相应的工具,并获取工具的输出结果。4) 交错生成模块:将工具的输出结果与文本信息进行融合,生成最终的交错文本和图像。5) 评估模块:使用MAM系统评估工具调用精度和整体响应质量。
关键创新:论文的关键创新在于提出了Agentic Tool Planning范例,并构建了相应的基准测试和评估系统。与现有方法相比,该范例更加灵活和智能,能够更好地应对复杂查询,并提升交错生成结果的质量。MAM评估系统无需ground-truth参考,可以更客观地评估模型性能。
关键设计:ATP-Bench基准测试包含8个类别和25个视觉关键意图,覆盖了各种复杂的交错生成场景。MAM评估系统采用多智能体协作的方式,模拟人类专家的评估过程,从而提高评估的准确性和可靠性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的MLLM在ATP-Bench基准测试上表现不佳,尤其是在连贯的交错规划和工具使用方面存在显著差距。不同模型在工具使用行为方面表现出较大差异,表明该领域仍有很大的改进空间。MAM评估系统能够有效地评估工具调用精度和整体响应质量,为模型改进提供了有价值的反馈。
🎯 应用场景
该研究成果可应用于智能客服、内容创作、教育等领域。例如,在智能客服中,可以根据用户提出的复杂问题,自动生成包含图像和文本的解答,提高用户满意度。在内容创作中,可以辅助创作者快速生成高质量的图文内容。在教育领域,可以用于创建交互式学习材料,提高学生的学习兴趣和效果。
📄 摘要(原文)
Interleaved text-and-image generation represents a significant frontier for Multimodal Large Language Models (MLLMs), offering a more intuitive way to convey complex information. Current paradigms rely on either image generation or retrieval augmentation, yet they typically treat the two as mutually exclusive paths, failing to unify factuality with creativity. We argue that the next milestone in this field is Agentic Tool Planning, where the model serves as a central controller that autonomously determines when, where, and which tools to invoke to produce interleaved responses for visual-critical queries. To systematically evaluate this paradigm, we introduce ATP-Bench, a novel benchmark comprising 7,702 QA pairs (including 1,592 VQA pairs) across eight categories and 25 visual-critical intents, featuring human-verified queries and ground truths. Furthermore, to evaluate agentic planning independent of end-to-end execution and changing tool backends, we propose a Multi-Agent MLLM-as-a-Judge (MAM) system. MAM evaluates tool-call precision, identifies missed opportunities for tool use, and assesses overall response quality without requiring ground-truth references. Our extensive experiments on 10 state-of-the-art MLLMs reveal that models struggle with coherent interleaved planning and exhibit significant variations in tool-use behavior, highlighting substantial room for improvement and providing actionable guidance for advancing interleaved generation. Dataset and code are available at https://github.com/Qwen-Applications/ATP-Bench.