Uni-Synergy: Bridging Understanding and Generation for Personalized Reasoning via Co-operative Reinforcement Learning

📄 arXiv: 2605.10445v1 📥 PDF

作者: Zijun Shen, Sihan Yang, Ruichuan An, Ziyu Guo, Hao Liang, Ming Lu, Renrui Zhang, Wentao Zhang

分类: cs.CV

发布日期: 2026-05-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出Sync-R1框架,通过协作强化学习实现多模态个性化理解与生成的协同优化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 强化学习 个性化生成 协同推理 多任务学习 梯度优化

📋 核心要点

  1. 现有UMMs多依赖隐式Token对齐,难以有效捕捉个性化理解与生成任务间的深度协同效应。
  2. 提出Sync-R1框架,通过协作强化学习将理解与生成纳入统一的显式推理循环,实现双向反馈优化。
  3. 实验表明Sync-R1在跨任务推理中表现卓越,且通过DGS策略显著提升了训练收敛效率与性能。

📝 摘要(中文)

统一多模态模型(UMMs)在通用任务中表现优异,但在弥合个性化理解与生成之间的鸿沟方面仍面临挑战。现有方法多依赖于监督微调下的隐式Token级对齐,难以充分挖掘理解与生成之间的协同潜力。为此,本文提出了Sync-R1,这是一个端到端的强化学习框架,旨在单一的显式推理循环中联合优化个性化理解与生成。通过统一的反馈机制,Sync-R1使个性化理解能够指导内容创作,同时生成的质量反过来在集成的奖励景观中优化理解能力。为高效协调这种双任务协同,本文引入了Sync-GRPO强化学习方法及动态组缩放(DGS)策略,以减少梯度方差并加速收敛。此外,本文还发布了包含更丰富文本描述与用户上下文的UnifyBench++基准。实验结果表明,Sync-R1在跨任务推理和个性化表现上达到了SOTA水平,且无需复杂的冷启动过程。

🔬 方法详解

问题定义:现有统一多模态模型在处理个性化需求时,往往将理解与生成视为独立任务,仅通过监督微调进行隐式对齐,导致模型无法在推理过程中实现理解对生成的指导以及生成对理解的反哺。

核心思路:论文提出将理解与生成整合进一个显式的强化学习循环中,利用协作机制让两者在统一的奖励景观下共同进化,从而实现真正的“理解驱动生成,生成优化理解”。

技术框架:Sync-R1采用端到端的强化学习架构,核心包含Sync-GRPO算法,通过集成奖励系统对模型输出进行评估,并引入动态组缩放(DGS)机制,在训练过程中自适应过滤低潜力轨迹,从而降低梯度方差。

关键创新:最重要的创新在于将理解与生成任务显式耦合,通过强化学习的反馈闭环打破了传统监督学习中静态对齐的局限,实现了跨任务的动态协同优化。

关键设计:Sync-GRPO作为核心优化器,负责处理多目标奖励;DGS策略通过动态调整采样组,有效提升了复杂任务下的收敛速度;UnifyBench++数据集则为模型提供了更具挑战性的个性化上下文环境。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Sync-R1在UnifyBench++基准测试中展现了显著的性能优势,在跨任务推理准确率及个性化生成质量上均超越了现有的SOTA模型。实验数据表明,得益于DGS策略,模型在训练效率上实现了显著提升,且在无需复杂冷启动的情况下,即展现出极强的鲁棒性与泛化能力,验证了协作强化学习在多模态任务中的有效性。

🎯 应用场景

该研究在个性化内容创作、智能辅助设计、定制化多模态交互系统等领域具有广泛应用价值。通过提升模型对用户意图的深度理解与精准生成能力,Sync-R1可显著改善AI在复杂个性化场景下的交互体验,推动通用人工智能向更具深度与个性化的方向演进。

📄 摘要(原文)

Unified Multimodal Models (UMMs) excel in general tasks but struggle to bridge the gap between personalized understanding and generation. Prior works largely rely on implicit token-level alignment via supervised fine-tuning, which fails to fully capture the potential synergy between comprehension and creation. In this work, we propose Sync-R1, an end-to-end reinforcement learning framework that jointly optimizes personalized understanding and generation within a single, explicit reasoning loop. Through this unified feedback process, Sync-R1 enables personalized comprehension to guide content creation, while the resulting generation quality reciprocally refines understanding within an integrated reward landscape. To efficiently orchestrate this dual-task synergy, we introduce Sync-GRPO, a reinforcement learning method utilizing an ensemble reward system. Furthermore, we propose Dynamic Group Scaling (DGS), which adaptively filters low-potential trajectories to reduce gradient variance and accelerate convergence. To better reflect real-world complexity, we introduce UnifyBench++, featuring denser textual descriptions and richer user contexts. Experimental results demonstrate that Sync-R1 achieves state-of-the-art performance, showcasing superior cross-task reasoning and robust personalization without requiring complex cold-start procedures. The code and the UnifyBench++ dataset will be released at: https://github.com/arctanxarc/UniCTokens.