Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

📄 arXiv: 2509.07969v1 📥 PDF

作者: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-09

备注: Code, datasets, models are available at https://github.com/Mini-o3/Mini-o3. Project Page: https://mini-o3.github.io/


💡 一句话要点

Mini-o3:通过扩展推理模式和交互轮数,提升视觉搜索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉搜索 多模态模型 强化学习 多轮交互 探索性推理

📋 核心要点

  1. 现有开源方法在视觉搜索任务中推理模式单调,交互轮数有限,难以应对复杂场景。
  2. Mini-o3通过扩展工具交互,构建Visual Probe Dataset,并采用迭代数据收集和过度轮次掩蔽策略,实现深度多轮推理。
  3. 实验表明,Mini-o3在视觉搜索任务上表现出丰富的推理模式和深度思考路径,达到state-of-the-art性能。

📝 摘要(中文)

现有大型多模态模型利用基于图像的工具和强化学习来解决视觉问题。然而,现有的开源方法通常表现出单调的推理模式,并且只允许有限的交互轮数,这使得它们不足以应对需要反复试验探索的困难任务。本文通过扩展基于工具的交互来解决这一限制,并引入Mini-o3,该系统执行深度、多轮推理(跨越数十步),并在具有挑战性的视觉搜索任务上实现了最先进的性能。我们的复现OpenAI o3风格行为的方案包括三个关键组成部分。首先,我们构建了Visual Probe Dataset,这是一个包含数千个具有挑战性的视觉搜索问题的集合,专为探索性推理而设计。其次,我们开发了一个迭代数据收集管道,以获得展示多样化推理模式的冷启动轨迹,包括深度优先搜索、反复试验和目标维护。第三,我们提出了一种过度轮次掩蔽策略,该策略可防止在强化学习期间惩罚过度轮次响应(达到最大轮数的响应),从而平衡了训练时效率和测试时可扩展性。尽管仅使用六个交互轮次的上限进行训练,但我们的模型生成的轨迹可以在推理时自然地扩展到数十轮,并且准确性随着轮数的增加而提高。大量的实验表明,Mini-o3产生了丰富的推理模式和深度思考路径,有效地解决了具有挑战性的视觉搜索问题。

🔬 方法详解

问题定义:论文旨在解决现有视觉搜索方法中推理模式单调、交互轮数不足的问题。现有方法难以进行深度探索和试错,无法有效解决复杂的视觉搜索任务。

核心思路:论文的核心思路是通过扩展交互轮数和引入多样化的推理模式,使模型能够进行更深入的探索和试错。通过构建专门的数据集和采用特定的训练策略,鼓励模型学习深度推理和多轮交互的能力。

技术框架:Mini-o3系统的整体框架包括三个主要组成部分:Visual Probe Dataset的构建、迭代数据收集管道的开发和过度轮次掩蔽策略的实施。Visual Probe Dataset提供具有挑战性的视觉搜索问题,迭代数据收集管道用于获取多样化的推理轨迹,过度轮次掩蔽策略用于优化强化学习过程。

关键创新:论文的关键创新在于提出了一种能够有效扩展模型推理深度和交互轮数的训练方法。通过Visual Probe Dataset和迭代数据收集,模型能够学习到深度优先搜索、反复试验和目标维护等多种推理模式。过度轮次掩蔽策略则解决了训练过程中对过度轮次响应的惩罚问题,从而提高了训练效率和模型的可扩展性。

关键设计:Visual Probe Dataset包含了数千个具有挑战性的视觉搜索问题,涵盖了各种场景和目标。迭代数据收集管道采用强化学习方法,通过奖励模型探索不同的推理路径。过度轮次掩蔽策略通过在训练过程中忽略超过最大轮数的响应,避免了对模型的不必要惩罚。训练时设置交互轮数的上限为6,但推理时可以扩展到数十轮。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mini-o3在视觉搜索任务上取得了显著的性能提升,尽管训练时交互轮数上限为6,但推理时可以扩展到数十轮,并且准确率随着轮数的增加而提高。实验结果表明,Mini-o3能够生成丰富的推理模式和深度思考路径,有效解决了具有挑战性的视觉搜索问题,达到了state-of-the-art的水平。

🎯 应用场景

该研究成果可应用于智能助手、机器人导航、图像检索等领域。通过增强视觉搜索能力,可以帮助用户更高效地找到目标物体或信息,提升人机交互体验。未来,该技术有望应用于更复杂的视觉任务,例如自动驾驶、医疗诊断等。

📄 摘要(原文)

Recent advances in large multimodal models have leveraged image-based tools with reinforcement learning to tackle visual problems. However, existing open-source approaches often exhibit monotonous reasoning patterns and allow only a limited number of interaction turns, making them inadequate for difficult tasks that require trial-and-error exploration. In this work, we address this limitation by scaling up tool-based interactions and introduce Mini-o3, a system that executes deep, multi-turn reasoning -- spanning tens of steps -- and achieves state-of-the-art performance on challenging visual search tasks. Our recipe for reproducing OpenAI o3-style behaviors comprises three key components. First, we construct the Visual Probe Dataset, a collection of thousands of challenging visual search problems designed for exploratory reasoning. Second, we develop an iterative data collection pipeline to obtain cold-start trajectories that exhibit diverse reasoning patterns, including depth-first search, trial-and-error, and goal maintenance. Third, we propose an over-turn masking strategy that prevents penalization of over-turn responses (those that hit the maximum number of turns) during reinforcement learning, thereby balancing training-time efficiency with test-time scalability. Despite training with an upper bound of only six interaction turns, our model generates trajectories that naturally scale to tens of turns at inference time, with accuracy improving as the number of turns increases. Extensive experiments demonstrate that Mini-o3 produces rich reasoning patterns and deep thinking paths, effectively solving challenging visual search problems.