RL makes MLLMs see better than SFT

作者: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo

分类: cs.CV, cs.LG

发布日期: 2025-10-18

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出PIVOT，通过强化学习优化MLLM视觉编码器，显著提升视觉感知能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉编码器 强化学习 视觉问答 偏好学习 模型优化 多模态语言模型

📋 核心要点

现有MLLM研究过度依赖LLM主干，忽视了视觉编码器对模型性能的关键影响。
论文提出Preference-Instructed Vision OpTimization (PIVOT)，利用强化学习优化视觉编码器。
实验表明，PIVOT训练的视觉编码器在MLLM中表现优异，计算成本远低于传统预训练方法。

📝 摘要（中文）

多模态语言模型（MLLM）研究中的一个主要假设是，其性能很大程度上继承自LLM主干，因为LLM具有巨大的参数规模和卓越的能力。这导致对视觉编码器的理解存在空白，而视觉编码器决定了MLLM如何感知图像。最近MLLM训练范式的转变，从监督微调（SFT）到强化学习（RL），放大了这种疏忽——即，对这种训练如何重塑视觉编码器以及MLLM的分析严重不足。为了解决这个问题，我们首先研究了训练策略对MLLM的影响，其中RL在强视觉相关的VQA基准测试中显示出明显优于SFT的优势。受此启发，我们通过从ImageNet分类和分割到梯度可视化的各种深入实验，对MLLM的视觉编码器进行了关键但未被充分探索的分析。我们的结果表明，MLLM的后训练策略（即SFT或RL）不仅导致MLLM下游任务的不同结果，而且从根本上重塑了MLLM的底层视觉表示。具体来说，我们研究的关键发现是，与SFT相比，RL产生更强且精确定位的视觉表示，从而提高了MLLM视觉编码器的能力。然后，我们将我们的发现重新构建为一个简单的配方，用于构建MLLM的强大视觉编码器，即偏好指导的视觉优化（PIVOT）。当集成到MLLM中时，经过PIVOT训练的视觉编码器甚至优于更大且经过更大量训练的同类产品，尽管所需的计算成本不到标准视觉预训练的1%。这一结果为推进MLLM的视觉主干开辟了一条有效且高效的道路。

🔬 方法详解

问题定义：现有的多模态语言模型（MLLM）训练方法，特别是监督微调（SFT），往往侧重于利用大型语言模型（LLM）的能力，而忽略了视觉编码器在感知图像方面的重要性。这种忽视导致视觉编码器的性能瓶颈，限制了MLLM在视觉相关任务中的表现。现有方法缺乏对不同训练策略（如SFT和强化学习RL）如何影响视觉编码器的深入分析。

核心思路：论文的核心思路是利用强化学习（RL）来优化MLLM的视觉编码器，使其能够产生更强、更精确定位的视觉表示。通过强化学习，模型可以根据视觉任务的奖励信号，学习到更有效的视觉特征提取方式，从而提升MLLM的整体性能。这种方法的核心在于将视觉编码器的训练与MLLM的下游任务紧密结合，实现端到端的优化。

技术框架：论文提出的Preference-Instructed Vision OpTimization (PIVOT) 框架包含以下主要步骤：1) 使用预训练的视觉编码器初始化MLLM；2) 使用SFT或RL对MLLM进行训练；3) 对比不同训练策略下视觉编码器的性能；4) 基于RL训练的视觉编码器，构建PIVOT框架，该框架利用偏好学习来指导视觉编码器的优化。整体流程旨在通过强化学习，使视觉编码器更好地适应MLLM的下游任务，从而提升MLLM的视觉感知能力。

关键创新：论文的关键创新在于：1) 深入分析了SFT和RL训练策略对MLLM视觉编码器的影响，发现RL能够产生更强的视觉表示；2) 提出了PIVOT框架，利用偏好学习来指导视觉编码器的优化，实现了高效的视觉特征提取；3) 证明了通过PIVOT训练的视觉编码器，即使在计算资源有限的情况下，也能超越更大规模的预训练模型。

关键设计：PIVOT框架的关键设计包括：1) 使用奖励函数来指导视觉编码器的训练，奖励函数的设计需要与下游任务紧密相关；2) 利用偏好学习来选择更优的视觉表示，偏好学习可以通过人工标注或自动生成的方式实现；3) 对视觉编码器的网络结构进行优化，使其更适合于强化学习的训练方式。具体的参数设置和损失函数选择需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过PIVOT训练的视觉编码器在视觉问答（VQA）等任务中表现出色，显著优于使用SFT训练的同类模型。更重要的是，PIVOT训练的视觉编码器甚至超越了更大规模、更大量训练的视觉编码器，同时计算成本仅为标准视觉预训练的1%。这证明了PIVOT在提升MLLM视觉感知能力方面的有效性和效率。

🎯 应用场景

该研究成果可广泛应用于各种多模态任务，如视觉问答、图像描述、目标检测等。通过优化视觉编码器，可以提升MLLM在这些任务中的性能和效率。此外，该方法在资源受限的场景下具有重要意义，可以利用较少的计算资源训练出高性能的视觉编码器，推动多模态人工智能技术的发展。

📄 摘要（原文）

A dominant assumption in Multimodal Language Model (MLLM) research is that its performance is largely inherited from the LLM backbone, given its immense parameter scale and remarkable capabilities. This has created a void in the understanding of the vision encoder, which determines how MLLMs perceive images. The recent shift in MLLM training paradigms, from Supervised Finetuning (SFT) to Reinforcement Learning (RL), magnifies this oversight-namely, the significant lack of analysis on how such training reshapes the vision encoder as well as the MLLM. To address this, we first investigate the impact of training strategies on MLLMs, where RL shows a clear advantage over SFT in strongly vision-related VQA benchmarks. Motivated by this, we conduct a critical yet under-explored analysis of the vision encoder of MLLMs through diverse and in-depth experiments, ranging from ImageNet classification and segmentation to gradient visualization. Our results demonstrate that MLLM's post-training strategy (i.e., SFT or RL) not only leads to distinct outcomes on MLLM downstream tasks, but also fundamentally reshapes MLLM's underlying visual representations. Specifically, the key finding of our study is that RL produces stronger and precisely localized visual representations compared to SFT, boosting the ability of the vision encoder for MLLM. We then reframe our findings into a simple recipe for building strong vision encoders for MLLMs, Preference-Instructed Vision OpTimization (PIVOT). When integrated into MLLMs, a PIVOT-trained vision encoder outperforms even larger and more heavily-trained counterparts, despite requiring less than 1% of the computational cost of standard vision pretraining. This result opens an effective and efficient path for advancing the vision backbones of MLLMs. Project page available at https://june-page.github.io/pivot/

RL makes MLLMs see better than SFT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理