PairUni: Pairwise Training for Unified Multimodal Language Models

作者: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang

分类: cs.CL

发布日期: 2025-10-29 (更新: 2025-10-30)

备注: 21 pages, 11 figures, and 8 tables

🔗 代码/项目: GITHUB

💡 一句话要点

PairUni：通过成对训练统一多模态语言模型，平衡理解与生成任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一视觉-语言模型 强化学习 数据增强 成对训练

📋 核心要点

统一视觉-语言模型在理解和生成任务间存在数据和监督的异构性，导致强化学习训练时难以平衡。
PairUni框架通过将数据重组为理解-生成对，并使用GPT-o3进行数据增强，对齐优化过程，从而解决上述问题。
PairUni在Janus-Pro UVLM上进行了评估，并在各种UVLM上实现了平衡的性能提升，优于现有基线。

📝 摘要（中文）

统一视觉-语言模型(UVLMs)需要在单一架构中执行理解和生成任务，但这些任务依赖于异构数据和监督，使得在强化学习(RL)期间难以平衡它们。我们提出了PairUni，一个统一的框架，将数据重组为理解-生成(UG)对，并相应地对齐优化。我们首先使用GPT-o3来增强单任务数据，为理解样本生成标题，为生成样本生成问答(QA)对，从而形成来自同一实例的对齐对。此外，对于每个生成样本，我们检索一个语义相关的理解示例来形成检索对，连接不同但相关的数据点。这些成对结构暴露了跨任务的语义对应关系，并支持一致的策略学习。为了利用这种结构，我们提出了Pair-GPRO，一种基于Group Relative Policy Optimization的pair-aware变体。它为每个pair分配一个相似度分数来调节优势函数，从而加强来自良好对齐示例的学习并减少任务干扰。我们整理了一个高质量的包含16K UG对的数据集PairUG，用于RL微调，并在强大的Janus-Pro UVLM上评估PairUni。我们的方法在各种UVLM上实现了平衡的改进，优于强大的UVLM RL基线。

🔬 方法详解

问题定义：统一视觉-语言模型(UVLMs)需要在单个架构中同时处理理解和生成任务。然而，这些任务通常依赖于不同的数据集和监督信号，导致在训练过程中难以平衡。现有的强化学习方法在处理这种异构性时面临挑战，容易出现任务间的干扰，导致性能下降。

核心思路：PairUni的核心思想是将理解和生成任务的数据组织成对，从而显式地建立任务间的联系。通过这种方式，模型可以学习到跨任务的语义对应关系，从而更好地平衡理解和生成能力。此外，PairUni还引入了一种pair-aware的强化学习算法，Pair-GPRO，它根据pair的相似度来调节优势函数，从而加强对齐良好的pair的学习，减少任务干扰。

技术框架：PairUni框架主要包含以下几个步骤：1) 数据增强：使用GPT-o3等大型语言模型为理解任务生成标题，为生成任务生成问答对，从而形成对齐的理解-生成(UG)pair。2) 检索：对于每个生成样本，检索一个语义相关的理解示例，形成检索pair。3) 训练：使用Pair-GPRO算法对模型进行强化学习微调。Pair-GPRO算法根据pair的相似度来调节优势函数，从而加强对齐良好的pair的学习。

关键创新：PairUni的关键创新在于：1) 提出了将数据组织成对的思想，从而显式地建立理解和生成任务间的联系。2) 提出了Pair-GPRO算法，它根据pair的相似度来调节优势函数，从而加强对齐良好的pair的学习，减少任务干扰。3) 构建了一个高质量的包含16K UG对的数据集PairUG，用于RL微调。

关键设计：PairUni的关键设计包括：1) 使用GPT-o3进行数据增强，生成高质量的标题和问答对。2) 使用语义相似度度量方法（具体方法未知）来检索语义相关的理解示例。3) Pair-GPRO算法中，相似度分数的计算方法（具体方法未知）以及如何将其融入优势函数中进行调节。

🖼️ 关键图片

📊 实验亮点

PairUni在Janus-Pro UVLM上进行了评估，并在各种UVLM上实现了平衡的性能提升，优于强大的UVLM RL基线。具体提升幅度未知，但论文强调了在不同UVLM上的“平衡的改进”，表明该方法具有较好的泛化能力。此外，论文还构建了一个高质量的包含16K UG对的数据集PairUG，为后续研究提供了有价值的资源。

🎯 应用场景

PairUni框架可以应用于各种需要同时进行视觉理解和文本生成的场景，例如智能客服、视觉问答、图像描述生成等。该研究有助于提升多模态语言模型的性能和泛化能力，使其在实际应用中更加可靠和有效。未来，该方法可以扩展到其他多模态任务，例如视频理解和语音识别。

📄 摘要（原文）

Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Codes are available at https://github.com/Haochen-Wang409/PairUni.

PairUni: Pairwise Training for Unified Multimodal Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理