Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

作者: Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang

分类: cs.CV

发布日期: 2026-03-10

💡 一句话要点

提出基于强化学习的后训练策略，实现统一多模态模型中的交错生成能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 交错生成 强化学习 策略优化 视觉语言模型 后训练 组相对策略优化

📋 核心要点

现有统一多模态模型在交错生成能力上不足，限制了其在复杂视觉推理任务中的应用。
提出基于强化学习的后训练方法，通过混合数据集和组相对策略优化，提升模型交错生成能力。
在MMIE和InterleavedBench数据集上实验表明，该方法显著提高了多模态交错生成的质量和连贯性。

📝 摘要（中文）

统一的视觉-语言模型在多模态理解和生成方面取得了显著进展，但在生成多模态交错输出方面仍存在不足，而这对于视觉故事讲述和逐步视觉推理等任务至关重要。本文提出了一种基于强化学习的后训练策略，以在现有统一模型中解锁这种能力，而无需依赖大规模的多模态交错数据集。首先，使用混合数据集进行热身，该数据集包含精心设计的交错序列以及用于多模态理解和文本到图像生成的有限数据，这使模型能够接触到交错生成模式，同时保留其预训练能力。为了进一步完善交错生成，我们提出了一个统一的策略优化框架，该框架将组相对策略优化（GRPO）扩展到多模态设置。我们的方法在单个解码轨迹中联合建模文本和图像生成，并使用包含文本相关性、视觉-文本对齐和结构保真度的混合奖励对其进行优化。此外，我们还结合了过程级奖励以提供逐步指导，从而提高了复杂多模态任务中的训练效率。在MMIE和InterleavedBench上的实验表明，我们的方法显著提高了多模态交错生成的质量和连贯性。

🔬 方法详解

问题定义：现有统一视觉-语言模型难以生成高质量的多模态交错输出，例如在视觉故事讲述中，模型无法自然地穿插文本描述和图像生成。现有方法要么依赖大规模标注的交错数据集，要么难以保证生成内容的一致性和连贯性。

核心思路：利用强化学习对预训练的统一模型进行后训练，使其具备多模态交错生成能力。核心思想是，通过奖励函数引导模型学习生成高质量的交错序列，同时利用组相对策略优化提高训练效率和稳定性。避免了对大规模交错数据集的依赖，并能有效利用预训练模型的知识。

技术框架：整体框架包含两个阶段：1) 热身阶段：使用混合数据集（包含交错序列和少量多模态理解/文本到图像数据）进行初步训练，使模型接触交错生成模式。2) 强化学习阶段：使用组相对策略优化（GRPO）框架，联合优化文本和图像生成。该框架在单个解码轨迹中生成交错的文本和图像，并根据混合奖励进行优化。

关键创新：1) 提出基于强化学习的后训练策略，无需大规模交错数据集。2) 将组相对策略优化（GRPO）扩展到多模态设置，实现文本和图像的联合优化。3) 设计了混合奖励函数，包含文本相关性、视觉-文本对齐和结构保真度，以及过程级奖励，以提供逐步指导。

关键设计：混合奖励函数是关键。文本相关性奖励衡量生成文本与上下文的相关性；视觉-文本对齐奖励衡量生成图像与文本描述的一致性；结构保真度奖励衡量生成序列的整体连贯性。过程级奖励在每个生成步骤提供指导，加速训练。GRPO通过对策略进行分组，并计算组内相对优势，从而降低方差，提高训练稳定性。

🖼️ 关键图片

📊 实验亮点

在MMIE数据集和InterleavedBench数据集上的实验结果表明，该方法显著提高了多模态交错生成的质量和连贯性。具体性能提升数据未知，但论文强调了相较于基线方法，该方法在生成质量和一致性方面有显著提升。

🎯 应用场景

该研究成果可应用于视觉故事讲述、逐步视觉推理、多模态对话系统等领域。例如，可以用于生成带有图像的互动式故事，或帮助机器人理解并执行包含视觉信息的复杂任务。该方法降低了对大规模标注数据的依赖，有望推动多模态人工智能的实际应用。

📄 摘要（原文）

Unified vision-language models have made significant progress in multimodal understanding and generation, yet they largely fall short in producing multimodal interleaved outputs, which is a crucial capability for tasks like visual storytelling and step-by-step visual reasoning. In this work, we propose a reinforcement learning-based post-training strategy to unlock this capability in existing unified models, without relying on large-scale multimodal interleaved datasets. We begin with a warm-up stage using a hybrid dataset comprising curated interleaved sequences and limited data for multimodal understanding and text-to-image generation, which exposes the model to interleaved generation patterns while preserving its pretrained capabilities. To further refine interleaved generation, we propose a unified policy optimization framework that extends Group Relative Policy Optimization (GRPO) to the multimodal setting. Our approach jointly models text and image generation within a single decoding trajectory and optimizes it with our novel hybrid rewards covering textual relevance, visual-text alignment, and structural fidelity. Additionally, we incorporate process-level rewards to provide step-wise guidance, enhancing training efficiency in complex multimodal tasks. Experiments on MMIE and InterleavedBench demonstrate that our approach significantly enhances the quality and coherence of multimodal interleaved generation.

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理