Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads
作者: Siqi Kou, Jiachun Jin, Zhihong Liu, Chang Liu, Ye Ma, Jian Jia, Quan Chen, Peng Jiang, Zhijie Deng
分类: cs.CV, cs.AI, cs.CL
发布日期: 2024-11-28 (更新: 2025-04-16)
💡 一句话要点
Orthus:基于模态特定头的自回归交错图像-文本生成模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自回归模型 多模态生成 图像文本交错 扩散模型 模态特定头
📋 核心要点
- 现有统一多模态模型在处理图像和文本时存在信息损失,且模态间关系建模复杂。
- Orthus采用自回归Transformer,利用模态特定头分别处理离散文本和连续图像特征。
- 实验表明,Orthus在图像生成、视觉问答和混合模态生成方面超越现有模型,性能显著提升。
📝 摘要(中文)
本文提出Orthus,一个自回归Transformer模型,擅长根据文本提示生成图像、基于视觉输入回答问题,甚至创作长篇图像-文本交错内容。与以往的统一多模态建模方法不同,Orthus在自回归建模原则下同时处理离散文本tokens和连续图像特征。对视觉信号的连续处理最大限度地减少了图像理解和生成的信息损失,而完全自回归的公式使得模态之间的相关性表征变得直接。Orthus利用这些优势的关键机制在于其模态特定头——一个常规语言建模(LM)头预测离散文本tokens,一个扩散头生成以backbone输出为条件的连续图像特征。我们设计了一种构建Orthus的有效策略——通过用软替代方案替换现有统一AR模型中的向量量化(VQ)操作,引入扩散头,并调整添加的模块以重建图像,我们可以轻松地创建一个Orthus-base模型(例如,在仅仅72个A100 GPU小时内)。Orthus-base可以进一步采用后训练来更好地建模交错的图像和文本。在实验上,Orthus超越了包括Show-o和Chameleon在内的竞争基线,在标准基准测试中取得了优异的成绩,使用7B参数实现了0.58的GenEval分数和1265.8的MME-P分数。Orthus还展示了卓越的混合模态生成能力,反映了处理复杂实际生成任务的潜力。
🔬 方法详解
问题定义:现有统一多模态模型通常采用离散化的方式处理图像,导致信息损失,并且在建模图像和文本之间的复杂关系时面临挑战。此外,训练成本也较高。
核心思路:Orthus的核心思路是在自回归框架下,同时处理离散的文本tokens和连续的图像特征。通过模态特定的头部,分别对文本和图像进行建模,从而避免了信息损失,并简化了模态间关系的建模。
技术框架:Orthus的整体架构是一个自回归Transformer模型,包含一个共享的backbone网络和两个模态特定的头部:语言建模(LM)头和扩散头。LM头用于预测离散的文本tokens,扩散头用于生成连续的图像特征。模型首先接收文本提示或图像输入,通过backbone提取特征,然后分别由LM头和扩散头生成文本和图像。
关键创新:Orthus的关键创新在于其模态特定的头部设计。LM头采用标准的语言建模方法,而扩散头则利用扩散模型生成图像。这种设计允许模型同时处理离散和连续的模态数据,并有效地建模模态间的关系。此外,通过替换VQ操作并引入扩散头,可以高效地构建Orthus模型。
关键设计:Orthus-base模型的构建采用了一种高效的策略,即通过替换现有统一AR模型中的向量量化(VQ)操作为软替代方案,并引入扩散头。扩散头的设计基于扩散模型,通过逐步去噪的方式生成图像。损失函数包括文本生成的交叉熵损失和图像重建的扩散损失。模型参数的训练采用Adam优化器。
🖼️ 关键图片
📊 实验亮点
Orthus在GenEval和MME-P等标准基准测试中取得了显著的性能提升。具体来说,使用7B参数的Orthus模型实现了0.58的GenEval分数和1265.8的MME-P分数,超越了包括Show-o和Chameleon在内的竞争基线。这些结果表明Orthus在多模态生成方面具有强大的能力。
🎯 应用场景
Orthus具有广泛的应用前景,包括图像生成、视觉问答、图像文本混合创作等。它可以应用于创意设计、内容生成、教育娱乐等领域,例如,根据用户提供的文本描述自动生成图像,或者根据图像内容回答用户提出的问题。未来,Orthus有望成为一种强大的多模态生成工具,为人们的生活和工作带来便利。
📄 摘要(原文)
We introduce Orthus, an autoregressive (AR) transformer that excels in generating images given textual prompts, answering questions based on visual inputs, and even crafting lengthy image-text interleaved contents. Unlike prior arts on unified multimodal modeling, Orthus simultaneously copes with discrete text tokens and continuous image features under the AR modeling principle. The continuous treatment of visual signals minimizes the information loss for both image understanding and generation while the fully AR formulation renders the characterization of the correlation between modalities straightforward. The key mechanism enabling Orthus to leverage these advantages lies in its modality-specific heads -- one regular language modeling (LM) head predicts discrete text tokens and one diffusion head generates continuous image features conditioning on the output of the backbone. We devise an efficient strategy for building Orthus -- by substituting the Vector Quantization (VQ) operation in the existing unified AR model with a soft alternative, introducing a diffusion head, and tuning the added modules to reconstruct images, we can create an Orthus-base model effortlessly (e.g., within mere 72 A100 GPU hours). Orthus-base can further embrace post-training to better model interleaved images and texts. Empirically, Orthus surpasses competing baselines including Show-o and Chameleon across standard benchmarks, achieving a GenEval score of 0.58 and an MME-P score of 1265.8 using 7B parameters. Orthus also shows exceptional mixed-modality generation capabilities, reflecting the potential for handling intricate practical generation tasks.