OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
作者: Han Li, Xinyu Peng, Yaoming Wang, Zelin Peng, Xin Chen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Wenrui Dai, Hongkai Xiong
分类: cs.CV
发布日期: 2025-09-03 (更新: 2025-10-07)
备注: technical report, project url:https://onecat-ai.github.io/
💡 一句话要点
OneCAT:提出纯Decoder自回归多模态统一模型,实现高效理解、生成和编辑
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 自回归模型 Decoder-only 混合专家网络 视觉语言模型 统一模型 图像生成 多尺度自回归
📋 核心要点
- 现有统一多模态模型依赖外部视觉模块(如ViT),推理效率低,尤其在高分辨率输入下。
- OneCAT采用纯Decoder架构和模态特定MoE,以单一自回归目标训练,无需外部视觉组件,支持动态分辨率。
- OneCAT引入多尺度视觉自回归机制,显著减少解码步骤,并在多模态生成、编辑和理解任务上超越现有开源模型。
📝 摘要(中文)
本文提出了一种名为OneCAT的统一多模态模型,该模型在一个新颖的纯Decoder-only Transformer架构中无缝集成了理解、生成和编辑功能。我们的框架独特地消除了推理期间对外部组件(如Vision Transformers (ViT) 或视觉tokenizer)的需求,从而显著提高了效率,尤其是在处理高分辨率输入时。这是通过一个模态特定的混合专家(MoE)结构实现的,该结构使用单一的自回归(AR)目标进行训练,并且原生支持动态分辨率。此外,我们首创了一种大型语言模型(LLM)中的多尺度视觉自回归机制,与基于扩散的方法相比,该机制大大减少了解码步骤,同时保持了最先进的性能。我们的研究结果表明,纯自回归建模作为统一多模态智能的充分而优雅的基础,具有强大的潜力。因此,OneCAT 树立了新的性能标准,在多模态生成、编辑和理解的基准测试中优于现有的开源统一多模态模型。
🔬 方法详解
问题定义:现有统一多模态模型通常依赖于额外的视觉编码器,例如ViT或视觉Tokenizers,这增加了模型的复杂性和计算成本,尤其是在处理高分辨率图像时。这些外部组件使得模型难以进行端到端的优化,并且限制了模型在不同模态之间的无缝交互。因此,如何设计一个更简洁、高效的统一多模态模型,成为了一个重要的挑战。
核心思路:OneCAT的核心思路是采用纯Decoder-only的自回归架构,并结合模态特定的混合专家(MoE)结构,从而避免使用外部视觉编码器。通过单一的自回归目标进行训练,OneCAT能够同时处理多模态输入,并执行理解、生成和编辑等任务。这种设计旨在简化模型结构,提高推理效率,并实现更好的多模态融合。
技术框架:OneCAT的整体架构是一个纯Decoder-only Transformer模型。该模型包含多个Transformer Decoder层,每一层都包含一个自注意力模块和一个前馈网络。为了处理不同模态的输入,OneCAT采用了模态特定的混合专家(MoE)结构。具体来说,对于每一种模态(例如,文本和图像),模型都维护一组专家网络,并根据输入选择合适的专家进行处理。这种MoE结构使得模型能够更好地适应不同模态的特性,并提高模型的容量。此外,OneCAT还引入了一种多尺度视觉自回归机制,用于高效地生成图像。
关键创新:OneCAT最重要的技术创新点在于其纯Decoder-only的自回归架构和模态特定的MoE结构。与现有方法相比,OneCAT无需外部视觉编码器,从而显著提高了推理效率。此外,OneCAT的多尺度视觉自回归机制能够以更少的解码步骤生成高质量的图像,从而进一步提高了模型的性能。这种纯自回归建模方法为统一多模态智能提供了一个新的方向。
关键设计:OneCAT的关键设计包括以下几个方面:1) 模态特定的MoE结构,用于处理不同模态的输入;2) 多尺度视觉自回归机制,用于高效地生成图像;3) 单一的自回归损失函数,用于训练整个模型。在训练过程中,OneCAT采用了数据并行和模型并行相结合的策略,以加速训练过程。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
OneCAT在多项多模态任务上取得了显著的性能提升。例如,在图像描述生成任务中,OneCAT的性能超越了现有的开源模型。此外,OneCAT的多尺度视觉自回归机制能够以更少的解码步骤生成高质量的图像,从而显著提高了生成效率。实验结果表明,OneCAT在多模态生成、编辑和理解方面都具有强大的竞争力。
🎯 应用场景
OneCAT具有广泛的应用前景,包括图像描述生成、视觉问答、图像编辑、视频生成等。该模型可以应用于智能客服、自动驾驶、医疗诊断等领域,为用户提供更智能、更便捷的服务。未来,OneCAT有望成为多模态人工智能领域的重要基石,推动相关技术的发展。
📄 摘要(原文)
We introduce OneCAT, a unified multimodal model that seamlessly integrates understanding, generation, and editing within a novel, pure decoder-only transformer architecture. Our framework uniquely eliminates the need for external components such as Vision Transformers (ViT) or vision tokenizer during inference, leading to significant efficiency gains, especially for high-resolution inputs. This is achieved through a modality-specific Mixture-of-Experts (MoE) structure trained with a single autoregressive (AR) objective, which also natively supports dynamic resolutions. Furthermore, we pioneer a multi-scale visual autoregressive mechanism within the Large Language Model (LLM) that drastically reduces decoding steps compared to diffusion-based methods while maintaining state-of-the-art performance. Our findings demonstrate the powerful potential of pure autoregressive modeling as a sufficient and elegant foundation for unified multimodal intelligence. As a result, OneCAT sets a new performance standard, outperforming existing open-source unified multimodal models across benchmarks for multimodal generation, editing, and understanding.