Learn to Think: Improving Multimodal Reasoning through Vision-Aware Self-Improvement Training
作者: Qihuang Zhong, Liang Ding, Wenjie Xuan, Juhua Liu, Bo Du, Dacheng Tao
分类: cs.CV
发布日期: 2026-05-12
备注: Accepted by ICML 2026
💡 一句话要点
VISTA:提出视觉感知自提升训练框架,提升多模态大语言模型的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 自提升学习 视觉感知 推理能力 注意力机制
📋 核心要点
- 现有MLLM的自提升训练存在数据不平衡和语言先验偏差问题,导致模型难以有效利用视觉信息进行推理。
- VISTA框架通过前缀重采样策略和视觉感知注意力得分,解决数据不平衡和语言先验偏差问题,提升模型对视觉信息的关注。
- 实验结果表明,VISTA在多种MLLM和任务上均能有效提升多模态推理性能,例如在Qwen2.5-VL-3B-Instruct上平均性能提升显著。
📝 摘要(中文)
本文提出VISTA,一个视觉感知的自提升训练框架,旨在提升多模态大语言模型(MLLM)的推理能力。现有的自提升训练方法存在两个缺点:数据不平衡,简单样本过度训练,而关键的困难样本训练不足;语言先验偏差,MLLM过度依赖语言信息而忽略视觉线索。VISTA首先引入前缀重采样策略,复用部分正确的推理轨迹以高效收集数据,然后设计视觉感知注意力得分,量化模型对视觉信息的关注程度。大量实验表明,VISTA可应用于各种后训练场景,如监督微调和偏好学习,并有效提升各种MLLM和任务的多模态推理性能,例如,Qwen2.5-VL-3B-Instruct的平均性能提升高达+13.66%。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLM)在自提升训练过程中,存在数据不平衡和语言先验偏差的问题。数据不平衡指的是简单样本被过度训练,而更具挑战性和关键性的样本则训练不足。语言先验偏差指的是模型过度依赖语言信息,而忽略了视觉信息,导致模型无法充分利用多模态信息进行推理。
核心思路:VISTA的核心思路是通过视觉感知来指导自提升训练过程,从而解决数据不平衡和语言先验偏差问题。具体来说,VISTA通过前缀重采样策略来更有效地利用已有的推理轨迹,并设计视觉感知注意力得分来量化模型对视觉信息的关注程度,从而引导模型更多地关注视觉信息。
技术框架:VISTA框架主要包含两个关键模块:前缀重采样模块和视觉感知注意力模块。前缀重采样模块旨在通过复用部分正确的推理轨迹来高效地收集数据,从而缓解数据不平衡问题。视觉感知注意力模块旨在通过计算视觉感知注意力得分来量化模型对视觉信息的关注程度,从而引导模型更多地关注视觉信息。整个训练流程包括:1) 使用MLLM生成推理轨迹;2) 使用前缀重采样策略筛选和扩充推理轨迹;3) 使用视觉感知注意力模块计算注意力得分;4) 使用筛选后的数据和注意力得分进行训练。
关键创新:VISTA的关键创新在于提出了视觉感知的自提升训练方法。与传统的自提升训练方法不同,VISTA不仅关注语言信息,还关注视觉信息,并通过视觉感知注意力得分来引导模型更多地关注视觉信息。此外,VISTA提出的前缀重采样策略能够更有效地利用已有的推理轨迹,从而提高数据利用率。
关键设计:前缀重采样策略的关键在于如何选择和复用部分正确的推理轨迹。VISTA采用了一种基于规则的方法来判断推理轨迹是否部分正确,并根据一定的概率选择复用这些轨迹。视觉感知注意力得分的计算基于模型在处理视觉信息时的注意力权重,具体来说,VISTA使用Cross-Attention层的注意力权重来衡量模型对不同视觉区域的关注程度。损失函数方面,VISTA使用了标准的交叉熵损失函数,并根据视觉感知注意力得分对损失函数进行加权,从而引导模型更多地关注视觉信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VISTA在多个MLLM和任务上均取得了显著的性能提升。例如,在Qwen2.5-VL-3B-Instruct模型上,VISTA的平均性能提升高达+13.66%。此外,VISTA在监督微调和偏好学习等不同的后训练场景下均表现出良好的效果,证明了其通用性和有效性。
🎯 应用场景
VISTA框架可广泛应用于各种需要多模态推理能力的场景,例如视觉问答、图像描述、视觉对话等。该研究有助于提升智能助手、自动驾驶、医疗诊断等领域的性能,并为未来多模态人工智能的发展提供新的思路。
📄 摘要(原文)
Post-training with explicit reasoning traces is common to improve the reasoning capabilities of Multimodal Large Language Models (MLLMs). However, acquiring high-quality reasoning traces is often costly and time-consuming. Hence, the self-improvement paradigm has emerged, enabling MLLMs to self-generate reasoning traces for training without external supervision. Despite its effectiveness, we reveal two shortcomings in the self-improvement training of MLLMs: 1) data imbalance, where simple samples are over-trained, but the challenging yet crucial samples are under-trained; 2) language prior bias, where MLLMs overly rely on linguistic priors while neglecting the visual cues. To this end, we propose VISTA, a vision-aware self-improvement training framework for enhancing the multimodal reasoning of MLLMs. Specifically, VISTA first introduces a prefix resampling strategy to reuse the partial correct reasoning traces for efficient data collection, and then designs a vision-aware attention score to quantify the model's focus on visual information. Extensive experiments show that VISTA can be applied to various post-training scenarios, i.e., supervised fine-tuning and preference learning, and effectively enhances the multimodal reasoning performance across various MLLMs and tasks, e.g., bringing up to +13.66% average performance gains for Qwen2.5-VL-3B-Instruct.