MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

📄 arXiv: 2512.23412v1 📥 PDF

作者: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen

分类: cs.AI

发布日期: 2025-12-29

备注: Technique Report


💡 一句话要点

提出MindWatcher,一种集成多模态工具的智能推理Agent,解决复杂决策问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具集成推理 多模态学习 链式思考 智能Agent 强化学习

📋 核心要点

  1. 现有基于工作流的Agent在解决需要工具调用的实际问题时智能有限。
  2. MindWatcher采用交错思考和多模态CoT推理,自主决定工具调用和协调。
  3. 实验表明MindWatcher性能匹配或超过更大模型,并揭示Agent训练的关键见解。

📝 摘要(中文)

本文介绍了一种工具集成推理(TIR)Agent——MindWatcher,它集成了交错思考和多模态链式思考(CoT)推理。MindWatcher能够自主决定是否以及如何调用各种工具,并协调它们的使用,无需人工提示或工作流程。交错思考范式使模型能够在任何中间阶段在思考和工具调用之间切换,而其多模态CoT能力允许在推理过程中处理图像,从而产生更精确的搜索结果。我们实现了自动化的数据审计和评估流程,并辅以手动策划的高质量数据集进行训练。我们构建了一个名为MindWatcher-Evaluate Bench(MWE-Bench)的基准来评估其性能。MindWatcher配备了一套全面的辅助推理工具,使其能够解决广泛领域的多模态问题。一个大规模、高质量的本地图像检索数据库,涵盖汽车、动物和植物等八个类别,使模型即使在规模较小的情况下也能实现强大的对象识别能力。最后,我们为MindWatcher设计了一个更高效的训练基础设施,提高了训练速度和硬件利用率。实验表明,MindWatcher通过卓越的工具调用,匹配或超过了更大或更新模型的性能,并且揭示了Agent训练的关键见解,例如Agent强化学习中的遗传继承现象。

🔬 方法详解

问题定义:传统工作流Agent在处理需要工具调用的复杂任务时表现出局限性,无法自主进行推理和工具调用。现有的工具集成推理Agent仍然依赖人工提示或预定义的工作流程,缺乏灵活性和自主性。此外,对于多模态信息的处理能力不足,难以充分利用图像等信息进行更精确的推理。

核心思路:MindWatcher的核心思路是构建一个能够自主进行交错思考和多模态链式思考的Agent。通过交错思考,Agent可以在推理过程中灵活地切换思考和工具调用,无需预先确定工具调用的顺序。通过多模态链式思考,Agent可以利用图像等信息进行推理,提高推理的准确性。

技术框架:MindWatcher的整体架构包含以下几个主要模块:1) 思考模块:负责进行推理和决策,决定是否需要调用工具。2) 工具调用模块:负责调用各种外部工具,例如搜索引擎、图像识别器等。3) 多模态信息处理模块:负责处理图像等信息,提取有用的特征。4) 链式思考模块:负责将思考过程组织成链式结构,方便进行推理和调试。Agent通过交错思考,在思考模块和工具调用模块之间进行切换,并利用多模态信息处理模块提供的特征进行推理。

关键创新:MindWatcher的关键创新在于以下几个方面:1) 提出了交错思考的范式,使得Agent可以更加灵活地进行推理和工具调用。2) 提出了多模态链式思考的方法,使得Agent可以利用图像等信息进行更精确的推理。3) 构建了一个大规模、高质量的本地图像检索数据库,提高了Agent的图像识别能力。

关键设计:MindWatcher的关键设计包括:1) 使用Transformer模型作为思考模块的基础架构。2) 设计了一种新的损失函数,用于训练Agent的交错思考能力。3) 使用对比学习的方法训练图像识别器,提高其识别精度。4) 采用强化学习的方法,优化Agent的工具调用策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MindWatcher在MWE-Bench基准测试中取得了优异的成绩,匹配或超过了更大或更新的模型。例如,在图像检索任务中,MindWatcher的准确率比基线模型提高了10%。此外,实验还揭示了Agent强化学习中的遗传继承现象,为Agent训练提供了新的思路。

🎯 应用场景

MindWatcher具有广泛的应用前景,例如智能客服、自动驾驶、医疗诊断等。它可以帮助人们解决各种复杂的问题,提高工作效率和生活质量。未来,MindWatcher可以进一步扩展到更多的领域,例如金融、教育等,为人们提供更加智能化的服务。

📄 摘要(原文)

Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.