MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
作者: Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-05-30 (更新: 2025-06-05)
备注: Project Webpage: https://modomodo-rl.github.io/
💡 一句话要点
MoDoMoDo:多领域数据混合用于多模态LLM的强化学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 强化学习 数据混合 视觉-语言推理 大型语言模型
📋 核心要点
- 现有MLLM在复杂视觉-语言任务中面临推理能力不足的挑战,尤其是在处理需要细致视觉、逻辑和空间理解的任务时。
- 论文提出一种基于可验证奖励的多模态强化学习框架,并设计数据混合策略,优化多领域数据集的训练,提升模型泛化能力。
- 实验表明,该方法在分布外测试中显著提升了MLLM的准确率,相较于均匀混合策略平均提升5.24%,相比基线提升20.74%。
📝 摘要(中文)
本文提出了一种针对多模态大型语言模型(MLLM)的强化学习框架,该框架基于可验证奖励的强化学习(RLVR)。针对视觉-语言任务的多样性和复杂性,以及多数据集训练中目标冲突的问题,本文提出了一种系统性的后训练框架,用于多模态LLM的RLVR。该框架包含一个严格的数据混合问题公式化和基准实现。具体来说,(1) 我们构建了一个多模态RLVR框架,通过整合包含不同可验证视觉-语言问题的数据集,并支持使用不同可验证奖励的多领域在线强化学习;(2) 我们提出了一种数据混合策略,该策略学习从数据混合分布中预测强化学习微调的结果,从而优化最佳混合。实验结果表明,多领域RLVR训练与混合预测策略相结合,可以显著提高MLLM的通用推理能力。与使用均匀数据混合进行后训练的相同模型相比,我们最佳混合策略将后训练模型在分布外基准测试中的准确率平均提高了5.24%,与预微调基线相比,总共提高了20.74%。
🔬 方法详解
问题定义:现有的多模态大型语言模型(MLLM)在处理复杂的视觉-语言任务时,推理能力不足,尤其是在需要细致的视觉、逻辑和空间理解的任务中。直接在多个数据集上进行训练会导致不同数据集之间的目标冲突,从而影响模型的泛化能力。因此,如何有效地混合多个数据集,以提升MLLM在复杂视觉-语言任务中的推理能力是一个关键问题。
核心思路:论文的核心思路是通过强化学习(RL)来优化多模态LLM的训练过程,并引入可验证奖励(Verifiable Rewards)来指导模型的学习。此外,论文还提出了一种数据混合策略,该策略能够学习从数据混合分布中预测强化学习微调的结果,从而找到最佳的数据混合比例。通过这种方式,可以有效地解决多数据集训练中的目标冲突问题,并提升模型的泛化能力。
技术框架:整体框架包含以下几个主要模块:1) 多模态RLVR框架:用于多数据集的后训练,包含不同可验证的视觉-语言问题,并支持使用不同可验证奖励的多领域在线强化学习。2) 数据混合策略:学习从数据混合分布中预测强化学习微调的结果,并优化最佳混合比例。3) 强化学习训练:使用可验证奖励来指导模型的学习,并根据数据混合策略选择不同的数据集进行训练。
关键创新:论文的关键创新在于提出了一种数据混合策略,该策略能够学习从数据混合分布中预测强化学习微调的结果,从而找到最佳的数据混合比例。这种策略能够有效地解决多数据集训练中的目标冲突问题,并提升模型的泛化能力。此外,将可验证奖励的强化学习应用于多模态LLM的训练也是一个创新点。
关键设计:数据混合策略的设计是关键。具体来说,该策略使用一个预测模型来预测不同数据混合比例下,强化学习微调后的模型性能。然后,通过优化该预测模型,可以找到最佳的数据混合比例。损失函数的设计需要考虑不同数据集之间的目标冲突,并平衡不同数据集的重要性。强化学习的奖励函数设计需要能够准确地反映模型的推理能力,并与可验证奖励相结合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多领域RLVR训练与混合预测策略相结合,可以显著提高MLLM的通用推理能力。与使用均匀数据混合进行后训练的相同模型相比,最佳混合策略将后训练模型在分布外基准测试中的准确率平均提高了5.24%,与预微调基线相比,总共提高了20.74%。这些结果表明,该方法能够有效地提升MLLM的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要复杂视觉-语言推理的场景,例如智能问答、视觉导航、机器人控制等。通过优化多模态LLM的训练,可以提升模型在实际应用中的性能和可靠性,例如在医疗诊断、自动驾驶等领域具有潜在应用价值。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model's accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.