UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
作者: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao
分类: cs.CV, cs.AI
发布日期: 2026-01-06
💡 一句话要点
UniCorn:通过自生成监督提升统一多模态模型的生成能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 统一多模态模型 自监督学习 图像生成 文本生成 自博弈 认知模式重构 循环一致性 多模态融合
📋 核心要点
- 现有统一多模态模型在理解能力强,但生成能力不足,难以将理解转化为高质量的生成结果。
- UniCorn通过自博弈和认知模式重构,将多模态模型的理解能力提炼为显式的生成信号,实现自改进。
- 实验表明,UniCorn在多个图像生成基准上显著优于基线模型,并在多个指标上达到SOTA。
📝 摘要(中文)
统一多模态模型(UMMs)在跨模态理解方面取得了显著成功,但在利用内部知识进行高质量生成方面仍然存在显著差距。我们将这种差异形式化为传导性失语症,即模型能够准确解释多模态输入,但难以将这种理解转化为忠实且可控的合成。为了解决这个问题,我们提出了UniCorn,一个简单而优雅的自改进框架,无需外部数据或教师监督。通过将单个UMM划分为三个协作角色:提议者、解决者和评判者,UniCorn通过自博弈生成高质量的交互,并采用认知模式重构将潜在理解提炼为显式的生成信号。为了验证多模态一致性的恢复,我们引入了UniCycle,一个基于文本到图像到文本重建循环的循环一致性基准。大量实验表明,UniCorn在六个通用图像生成基准上实现了对基础模型的全面和实质性改进。值得注意的是,它在TIIF(73.8)、DPG(86.8)、CompBench(88.5)和UniCycle上实现了SOTA性能,同时在WISE上实现了+5.0的显著提升,在OneIG上实现了+6.5的提升。这些结果表明,我们的方法显著增强了T2I生成,同时保持了强大的理解能力,证明了完全自监督细化对于统一多模态智能的可扩展性。
🔬 方法详解
问题定义:论文旨在解决统一多模态模型(UMMs)在生成能力上的不足,即模型能够理解多模态输入,但难以生成高质量、忠实且可控的内容。现有方法依赖于大量外部数据或教师监督,成本高昂且可能引入偏差。
核心思路:UniCorn的核心思路是通过自生成监督来实现模型的自改进。它将一个UMM分解为三个角色:Proposer(提议者)、Solver(解决者)和Judge(评判者),通过这三个角色之间的自博弈来生成高质量的交互数据,并利用认知模式重构将模型的潜在理解提炼为显式的生成信号。
技术框架:UniCorn框架包含三个主要模块:Proposer模块负责根据输入生成候选的生成结果;Solver模块负责对Proposer生成的候选结果进行优化和改进;Judge模块负责评估Solver生成的最终结果,并提供反馈信号。这三个模块通过循环迭代的方式进行自博弈,不断提升模型的生成能力。同时,UniCorn还引入了认知模式重构,将模型内部的潜在理解转化为可用于指导生成的显式信号。
关键创新:UniCorn最重要的创新在于其完全自监督的训练方式,无需外部数据或教师监督。通过自博弈和认知模式重构,UniCorn能够有效地利用模型自身的知识来提升生成能力。此外,UniCorn提出的UniCycle循环一致性基准,为评估多模态生成模型的生成质量提供了一个新的视角。
关键设计:UniCorn的关键设计包括:1) Proposer、Solver和Judge三个模块的具体实现方式,例如可以使用不同的网络结构或训练目标;2) 自博弈的迭代次数和策略;3) 认知模式重构的具体方法,例如可以使用自编码器或对比学习;4) Judge模块的评估指标,例如可以使用CLIP score或FID score。
🖼️ 关键图片
📊 实验亮点
UniCorn在六个通用图像生成基准上实现了显著提升,并在TIIF、DPG、CompBench和UniCycle上达到了SOTA性能。具体而言,UniCorn在WISE上实现了+5.0的提升,在OneIG上实现了+6.5的提升。这些结果表明,UniCorn能够有效地提升T2I生成能力,同时保持强大的理解能力。
🎯 应用场景
UniCorn的潜在应用领域包括图像生成、文本生成、跨模态检索、多模态对话等。该研究的实际价值在于提供了一种无需外部数据或教师监督的自改进方法,可以降低多模态模型训练的成本,并提升模型的生成质量。未来,UniCorn可以应用于更广泛的多模态任务,并与其他自监督学习方法相结合,进一步提升模型的性能。
📄 摘要(原文)
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.