PairUni: Pairwise Training for Unified Multimodal Language Models
作者: Jiani Zheng, Zhiyang Teng, Xiangtai Li, Anran Wang, Yu Tian, Kunpeng Qiu, Ye Tian, Haochen Wang, Zhuochen Wang
分类: cs.CL
发布日期: 2025-10-29 (更新: 2025-10-30)
备注: 21 pages, 11 figures, and 8 tables
🔗 代码/项目: GITHUB
💡 一句话要点
PairUni:通过成对训练统一多模态语言模型,平衡理解与生成任务。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 统一视觉-语言模型 强化学习 数据增强 成对训练
📋 核心要点
- 统一视觉-语言模型在理解和生成任务间存在数据和监督的异构性,导致强化学习训练时难以平衡。
- PairUni框架通过将数据重组为理解-生成对,并使用GPT-o3进行数据增强,对齐优化过程,从而解决上述问题。
- PairUni在Janus-Pro UVLM上进行了评估,并在各种UVLM上实现了平衡的性能提升,优于现有基线。
📝 摘要(中文)
统一视觉-语言模型(UVLMs)需要在单一架构中执行理解和生成任务,但这些任务依赖于异构数据和监督,使得在强化学习(RL)期间难以平衡它们。我们提出了PairUni,一个统一的框架,将数据重组为理解-生成(UG)对,并相应地对齐优化。我们首先使用GPT-o3来增强单任务数据,为理解样本生成标题,为生成样本生成问答(QA)对,从而形成来自同一实例的对齐对。此外,对于每个生成样本,我们检索一个语义相关的理解示例来形成检索对,连接不同但相关的数据点。这些成对结构暴露了跨任务的语义对应关系,并支持一致的策略学习。为了利用这种结构,我们提出了Pair-GPRO,一种基于Group Relative Policy Optimization的pair-aware变体。它为每个pair分配一个相似度分数来调节优势函数,从而加强来自良好对齐示例的学习并减少任务干扰。我们整理了一个高质量的包含16K UG对的数据集PairUG,用于RL微调,并在强大的Janus-Pro UVLM上评估PairUni。我们的方法在各种UVLM上实现了平衡的改进,优于强大的UVLM RL基线。
🔬 方法详解
问题定义:统一视觉-语言模型(UVLMs)需要在单个架构中同时处理理解和生成任务。然而,这些任务通常依赖于不同的数据集和监督信号,导致在训练过程中难以平衡。现有的强化学习方法在处理这种异构性时面临挑战,容易出现任务间的干扰,导致性能下降。
核心思路:PairUni的核心思想是将理解和生成任务的数据组织成对,从而显式地建立任务间的联系。通过这种方式,模型可以学习到跨任务的语义对应关系,从而更好地平衡理解和生成能力。此外,PairUni还引入了一种pair-aware的强化学习算法,Pair-GPRO,它根据pair的相似度来调节优势函数,从而加强对齐良好的pair的学习,减少任务干扰。
技术框架:PairUni框架主要包含以下几个步骤:1) 数据增强:使用GPT-o3等大型语言模型为理解任务生成标题,为生成任务生成问答对,从而形成对齐的理解-生成(UG)pair。2) 检索:对于每个生成样本,检索一个语义相关的理解示例,形成检索pair。3) 训练:使用Pair-GPRO算法对模型进行强化学习微调。Pair-GPRO算法根据pair的相似度来调节优势函数,从而加强对齐良好的pair的学习。
关键创新:PairUni的关键创新在于:1) 提出了将数据组织成对的思想,从而显式地建立理解和生成任务间的联系。2) 提出了Pair-GPRO算法,它根据pair的相似度来调节优势函数,从而加强对齐良好的pair的学习,减少任务干扰。3) 构建了一个高质量的包含16K UG对的数据集PairUG,用于RL微调。
关键设计:PairUni的关键设计包括:1) 使用GPT-o3进行数据增强,生成高质量的标题和问答对。2) 使用语义相似度度量方法(具体方法未知)来检索语义相关的理解示例。3) Pair-GPRO算法中,相似度分数的计算方法(具体方法未知)以及如何将其融入优势函数中进行调节。
🖼️ 关键图片
📊 实验亮点
PairUni在Janus-Pro UVLM上进行了评估,并在各种UVLM上实现了平衡的性能提升,优于强大的UVLM RL基线。具体提升幅度未知,但论文强调了在不同UVLM上的“平衡的改进”,表明该方法具有较好的泛化能力。此外,论文还构建了一个高质量的包含16K UG对的数据集PairUG,为后续研究提供了有价值的资源。
🎯 应用场景
PairUni框架可以应用于各种需要同时进行视觉理解和文本生成的场景,例如智能客服、视觉问答、图像描述生成等。该研究有助于提升多模态语言模型的性能和泛化能力,使其在实际应用中更加可靠和有效。未来,该方法可以扩展到其他多模态任务,例如视频理解和语音识别。
📄 摘要(原文)
Unified vision-language models (UVLMs) must perform both understanding and generation within a single architecture, but these tasks rely on heterogeneous data and supervision, making it difficult to balance them during reinforcement learning (RL). We propose PairUni, a unified framework that reorganizes data into understanding-generation (UG) pairs and aligns optimization accordingly. We first use GPT-o3 to augment single-task data, generating captions for understanding samples and question-answer (QA) pairs for generation samples, forming aligned pairs from the same instance. Additionally, for each generation sample, we retrieve a semantically related understanding example to form a retrieved pair, linking different but related data points. These paired structures expose cross-task semantic correspondences and support consistent policy learning. To leverage this structure, we present Pair-GPRO, a pair-aware variant based on Group Relative Policy Optimization. It assigns a similarity score to each pair to modulate the advantage, strengthening learning from well-aligned examples and reducing task interference. We curate a high-quality dataset of 16K UG pairs named PairUG for RL fine-tuning and evaluate PairUni on the powerful Janus-Pro UVLMs. Our approach achieves balanced improvements on various UVLMs, outperforming strong UVLM RL baselines. Codes are available at https://github.com/Haochen-Wang409/PairUni.