TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
作者: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Chen Wei, Konstantinos Psounis, Kaipeng Zhang
分类: cs.CV
发布日期: 2025-11-03 (更新: 2025-11-05)
备注: Preprint
💡 一句话要点
提出TIR-Bench,用于评估Agentic图像推理中模型利用工具进行图像处理的能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: Agentic图像推理 多模态大语言模型 视觉推理 基准测试 工具使用
📋 核心要点
- 现有视觉推理基准测试无法充分评估模型利用工具进行复杂图像处理和操作的能力,尤其是在思维链中。
- TIR-Bench通过13个需要新型工具使用的图像处理任务,全面评估Agentic图像推理能力,弥补了现有基准的不足。
- 实验结果表明,TIR-Bench对现有模型具有挑战性,并初步研究了直接微调与Agentic微调的差异。
📝 摘要(中文)
视觉推理的前沿正在转向像OpenAI o3这样的模型,这些模型可以智能地创建和操作工具来转换图像以解决问题,即在思维链中进行“图像思考”。然而,现有的基准测试未能完全捕捉到这种高级能力。即使是视觉搜索,作为当前“图像思考”方法最常见的基准测试,也只测试了诸如定位和裁剪等基本操作,对于更复杂、动态和依赖于工具的推理几乎没有提供任何见解。我们引入了TIR-Bench,这是一个全面的基准测试,用于评估Agentic图像推理,涵盖13个不同的任务,每个任务都需要使用新的工具在思维链中进行图像处理和操作。我们评估了22个多模态大型语言模型(MLLM),从领先的开源和专有模型到那些具有显式工具使用增强的模型。结果表明,TIR-Bench具有普遍的挑战性,并且强大的性能需要真正的图像思考能力。最后,我们提出了一个比较直接微调与Agentic微调的初步研究。
🔬 方法详解
问题定义:现有视觉推理基准,如视觉搜索,主要测试定位和裁剪等基本操作,无法充分评估模型在复杂、动态和工具依赖场景下的“图像思考”能力。现有方法难以模拟人类利用工具进行图像处理和操作以解决问题的过程,缺乏对Agentic图像推理能力的有效评估。
核心思路:TIR-Bench的核心思路是构建一个包含多样化任务的基准测试,每个任务都需要模型利用特定的图像处理工具,并在思维链中进行推理。通过这种方式,可以更全面地评估模型在复杂场景下利用工具进行图像操作和推理的能力,从而推动Agentic图像推理领域的发展。
技术框架:TIR-Bench包含13个不同的任务,每个任务都设计为需要使用特定的图像处理工具。模型需要首先理解任务目标,然后选择合适的工具,并按照一定的步骤执行图像处理操作,最终得到结果。整个过程模拟了人类利用工具解决问题的思维过程。基准测试还提供了一套评估指标,用于衡量模型在不同任务上的性能。
关键创新:TIR-Bench的关键创新在于其任务的多样性和对工具使用的强调。与现有基准测试相比,TIR-Bench的任务更加复杂,需要模型具备更强的推理能力和工具使用能力。此外,TIR-Bench还引入了Agentic微调的概念,探索如何通过微调来提高模型在工具使用方面的性能。
关键设计:TIR-Bench的任务设计涵盖了多种图像处理操作,例如图像编辑、图像增强、图像修复等。每个任务都配备了相应的工具,模型需要学习如何使用这些工具来完成任务。基准测试还考虑了任务的难度,从简单到复杂,逐步提高对模型的要求。评估指标包括任务完成率、准确率等,用于全面评估模型的性能。
📊 实验亮点
TIR-Bench评估了22个多模态大型语言模型,结果表明该基准测试具有普遍的挑战性,需要模型具备真正的图像思考能力。初步研究表明,Agentic微调可能优于直接微调,为未来的模型训练提供了新的方向。具体性能数据和对比基线未在摘要中给出,属于未知信息。
🎯 应用场景
TIR-Bench的研究成果可应用于智能图像编辑、自动化图像修复、视觉辅助工具等领域。通过提升模型利用工具进行图像推理的能力,可以开发出更智能、更高效的图像处理系统,为用户提供更好的体验,并推动计算机视觉技术在实际场景中的应用。
📄 摘要(原文)
The frontier of visual reasoning is shifting toward models like OpenAI o3, which can intelligently create and operate tools to transform images for problem-solving, also known as thinking-\textit{with}-images in chain-of-thought. Yet existing benchmarks fail to fully capture this advanced capability. Even Visual Search, the most common benchmark for current thinking-\textit{with}-images methods, tests only basic operations such as localization and cropping, offering little insight into more complex, dynamic, and tool-dependent reasoning. We introduce \textbf{TIR-Bench}, a comprehensive benchmark for evaluating agentic thinking-with-images across 13 diverse tasks, each requiring novel tool use for image processing and manipulation in chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from leading open-sourced and proprietary models to those with explicit tool-use augmentation. Results show that TIR-Bench is universally challenging, and strong performance requires genuine thinking-with-images capabilities. Finally, we present a pilot study comparing direct versus agentic fine-tuning.