SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

📄 arXiv: 2504.07934v3 📥 PDF

作者: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

分类: cs.CV

发布日期: 2025-04-10 (更新: 2025-05-30)

备注: 27 pages, 5 figures


💡 一句话要点

ThinkLite-VL:利用MCTS指导样本选择,实现数据高效的视觉推理自提升

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 强化学习 蒙特卡洛树搜索 样本选择 数据高效学习

📋 核心要点

  1. 现有视觉推理模型训练需要大量数据,且难以有效利用数据中的难度信息,导致训练效率低下。
  2. 论文提出基于MCTS的样本难度评估方法,筛选出更具挑战性和信息量的样本,用于强化微调,提升模型推理能力。
  3. 实验表明,使用少量精选样本训练的ThinkLite-VL模型,在多个视觉推理任务上超越了使用更多数据训练的现有模型。

📝 摘要(中文)

本文提出ThinkLite-VL,一个视觉推理模型家族,它仅依赖强化微调(RFT)自提升,无需知识蒸馏,就能以远少于现有方法(数量级更少)的训练样本实现最先进(SoTA)的性能。核心思想是样本难度对RFT效果至关重要:适当的挑战性样本能够显著提升推理能力,即使在低数据量的情况下。然而,可靠且可扩展地量化样本难度并非易事。为此,本文重新利用蒙特卡洛树搜索(MCTS)来衡量样本难度,具体通过视觉语言模型(VLM)解决每个实例所需的推理迭代次数来体现。基于MCTS的选择过程能够识别出那些能够诱导更深层次推理且仍然可解的样本,从而从包含数学、自然图像理解和图表理解的7万个开源样本中筛选出高质量子集。通过这种方法,本文仅选择了1.1万个具有挑战性的样本用于Qwen2.5-VL-7B-Instruct的RFT,以及7500个样本用于Qwen2.5-VL-72B-Instruct。由此产生的模型ThinkLite-VL-7B和ThinkLite-VL-72B在八个视觉推理基准测试中显著优于各自的基础模型。特别是,ThinkLite-VL-7B将Qwen2.5-VL-7B-Instruct的平均性能提高了7%,并超越了所有现有的7B级别模型以及更大的模型,如GPT-4o、O1和Qwen2.5-VL-72B,在MathVista上实现了75.1的新SoTA分数。ThinkLite-VL-72B进一步推进了SoTA前沿,在MathVista上实现了79.7的准确率,并且在开源SoTA上的平均基准测试改进为4.42。这些结果表明,MCTS指导的难度过滤为多模态推理中的数据高效自提升提供了一条可扩展且有效的途径。

🔬 方法详解

问题定义:论文旨在解决视觉推理模型训练过程中数据效率低下的问题。现有方法通常需要大量标注数据,并且难以区分样本的难度,导致模型在简单样本上过度训练,而在复杂样本上学习不足。这限制了模型在实际应用中的泛化能力。

核心思路:论文的核心思路是利用蒙特卡洛树搜索(MCTS)来评估样本的难度,并选择那些既具有挑战性又能够被模型解决的样本进行强化微调。通过专注于这些“有价值”的样本,模型可以更有效地学习到视觉推理所需的知识,从而在少量数据下达到更好的性能。

技术框架:ThinkLite-VL的整体框架包括以下几个主要阶段:1) 使用开源数据集构建初始训练集;2) 利用MCTS评估训练集中每个样本的难度,难度定义为VLM解决该实例所需的推理迭代次数;3) 根据MCTS评估的难度值,筛选出具有挑战性的样本子集;4) 使用筛选出的样本子集对预训练的视觉语言模型(例如Qwen2.5-VL)进行强化微调(RFT),得到最终的ThinkLite-VL模型。

关键创新:论文最重要的技术创新点在于将MCTS应用于样本难度评估。与传统的难度评估方法(例如基于模型预测置信度)相比,MCTS能够更准确地反映样本的推理复杂度,因为它考虑了模型解决问题所需的步骤和策略。这种基于推理复杂度的难度评估方法能够更有效地筛选出对模型学习有益的样本。

关键设计:MCTS的具体实现中,每个节点代表一个推理步骤,边代表可能的动作(例如,选择一个视觉区域或生成一个文本片段)。MCTS的目标是找到一条能够成功解决问题的路径。MCTS的搜索深度和宽度需要根据具体任务进行调整。强化微调阶段,使用标准的策略梯度算法,目标是最大化模型在筛选出的样本子集上的奖励。奖励函数可以设置为模型预测的正确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ThinkLite-VL-7B在MathVista数据集上取得了75.1的SoTA分数,超越了所有现有的7B级别模型,以及更大的模型,如GPT-4o、O1和Qwen2.5-VL-72B。ThinkLite-VL-72B进一步将MathVista的准确率提升至79.7,并且在开源SoTA上的平均基准测试改进为4.42。这些结果表明,通过MCTS指导的样本选择,可以使用更少的数据训练出性能更强的视觉推理模型。

🎯 应用场景

ThinkLite-VL的研究成果可应用于各种需要视觉推理能力的场景,例如智能客服、自动驾驶、医疗诊断等。通过降低模型训练所需的数据量,可以加速模型的开发和部署,并降低成本。此外,该方法还可以用于提升现有视觉推理模型的性能,使其在更复杂的环境中表现更好。未来,该方法有望推广到其他多模态学习任务中。

📄 摘要(原文)

We introduce ThinkLite-VL, a family of visual reasoning models that achieve state-of-the-art (SoTA) performance using an order of magnitude fewer training samples, relying purely on reinforcement fine-tuning (RFT) self-improvement without any knowledge distillation. Our central insight is that sample difficulty critically influences RFT effectiveness: appropriately challenging examples can drive substantial reasoning improvements, even in low-data regimes. However, quantifying sample difficulty in a reliable and scalable manner remains non-trivial. To address this, we repurpose Monte Carlo Tree Search (MCTS) to measure sample difficulty via the number of reasoning iterations a vision-language model (VLM) requires to solve each instance. This MCTS-based selection procedure identifies samples that induce deeper reasoning while remaining solvable, allowing us to filter a high-quality subset from 70k open-source examples spanning math, natural image understanding, and chart comprehension. Using this approach, we select just 11k challenging samples for RFT on Qwen2.5-VL-7B-Instruct and 7.5k samples for Qwen2.5-VL-72B-Instruct. The resulting models, ThinkLite-VL-7B and ThinkLite-VL-72B, significantly outperform their respective base models across eight visual reasoning benchmarks. In particular, ThinkLite-VL-7B improves the average performance of Qwen2.5-VL-7B-Instruct by 7\% and surpasses all existing 7B-level models, as well as much larger models such as GPT-4o, O1 and Qwen2.5-VL-72B, achieving a new SoTA score of 75.1 on MathVista. ThinkLite-VL-72B further advances the SoTA frontier, achieving an accuracy of 79.7 on MathVista and an average benchmark improvement of 4.42 over the open-source SOTA. These results demonstrate that MCTS-guided difficulty filtering provides a scalable and effective path toward data-efficient self-improvement in multimodal reasoning.