OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

作者: Han Li, Xinyu Peng, Yaoming Wang, Zelin Peng, Xin Chen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Wenrui Dai, Hongkai Xiong

分类: cs.CV

发布日期: 2025-09-03 (更新: 2025-10-07)

备注: technical report, project url:https://onecat-ai.github.io/

💡 一句话要点

OneCAT：提出纯Decoder自回归多模态统一模型，实现高效理解、生成和编辑

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 自回归模型 Decoder-only 混合专家网络 视觉语言模型 统一模型 图像生成 多尺度自回归

📋 核心要点

现有统一多模态模型依赖外部视觉模块（如ViT），推理效率低，尤其在高分辨率输入下。
OneCAT采用纯Decoder架构和模态特定MoE，以单一自回归目标训练，无需外部视觉组件，支持动态分辨率。
OneCAT引入多尺度视觉自回归机制，显著减少解码步骤，并在多模态生成、编辑和理解任务上超越现有开源模型。

📝 摘要（中文）

本文提出了一种名为OneCAT的统一多模态模型，该模型在一个新颖的纯Decoder-only Transformer架构中无缝集成了理解、生成和编辑功能。我们的框架独特地消除了推理期间对外部组件（如Vision Transformers (ViT) 或视觉tokenizer）的需求，从而显著提高了效率，尤其是在处理高分辨率输入时。这是通过一个模态特定的混合专家（MoE）结构实现的，该结构使用单一的自回归（AR）目标进行训练，并且原生支持动态分辨率。此外，我们首创了一种大型语言模型（LLM）中的多尺度视觉自回归机制，与基于扩散的方法相比，该机制大大减少了解码步骤，同时保持了最先进的性能。我们的研究结果表明，纯自回归建模作为统一多模态智能的充分而优雅的基础，具有强大的潜力。因此，OneCAT 树立了新的性能标准，在多模态生成、编辑和理解的基准测试中优于现有的开源统一多模态模型。

🔬 方法详解

问题定义：现有统一多模态模型通常依赖于额外的视觉编码器，例如ViT或视觉Tokenizers，这增加了模型的复杂性和计算成本，尤其是在处理高分辨率图像时。这些外部组件使得模型难以进行端到端的优化，并且限制了模型在不同模态之间的无缝交互。因此，如何设计一个更简洁、高效的统一多模态模型，成为了一个重要的挑战。

核心思路：OneCAT的核心思路是采用纯Decoder-only的自回归架构，并结合模态特定的混合专家（MoE）结构，从而避免使用外部视觉编码器。通过单一的自回归目标进行训练，OneCAT能够同时处理多模态输入，并执行理解、生成和编辑等任务。这种设计旨在简化模型结构，提高推理效率，并实现更好的多模态融合。

技术框架：OneCAT的整体架构是一个纯Decoder-only Transformer模型。该模型包含多个Transformer Decoder层，每一层都包含一个自注意力模块和一个前馈网络。为了处理不同模态的输入，OneCAT采用了模态特定的混合专家（MoE）结构。具体来说，对于每一种模态（例如，文本和图像），模型都维护一组专家网络，并根据输入选择合适的专家进行处理。这种MoE结构使得模型能够更好地适应不同模态的特性，并提高模型的容量。此外，OneCAT还引入了一种多尺度视觉自回归机制，用于高效地生成图像。

关键创新：OneCAT最重要的技术创新点在于其纯Decoder-only的自回归架构和模态特定的MoE结构。与现有方法相比，OneCAT无需外部视觉编码器，从而显著提高了推理效率。此外，OneCAT的多尺度视觉自回归机制能够以更少的解码步骤生成高质量的图像，从而进一步提高了模型的性能。这种纯自回归建模方法为统一多模态智能提供了一个新的方向。

关键设计：OneCAT的关键设计包括以下几个方面：1) 模态特定的MoE结构，用于处理不同模态的输入；2) 多尺度视觉自回归机制，用于高效地生成图像；3) 单一的自回归损失函数，用于训练整个模型。在训练过程中，OneCAT采用了数据并行和模型并行相结合的策略，以加速训练过程。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

OneCAT在多项多模态任务上取得了显著的性能提升。例如，在图像描述生成任务中，OneCAT的性能超越了现有的开源模型。此外，OneCAT的多尺度视觉自回归机制能够以更少的解码步骤生成高质量的图像，从而显著提高了生成效率。实验结果表明，OneCAT在多模态生成、编辑和理解方面都具有强大的竞争力。

🎯 应用场景

OneCAT具有广泛的应用前景，包括图像描述生成、视觉问答、图像编辑、视频生成等。该模型可以应用于智能客服、自动驾驶、医疗诊断等领域，为用户提供更智能、更便捷的服务。未来，OneCAT有望成为多模态人工智能领域的重要基石，推动相关技术的发展。

📄 摘要（原文）

We introduce OneCAT, a unified multimodal model that seamlessly integrates understanding, generation, and editing within a novel, pure decoder-only transformer architecture. Our framework uniquely eliminates the need for external components such as Vision Transformers (ViT) or vision tokenizer during inference, leading to significant efficiency gains, especially for high-resolution inputs. This is achieved through a modality-specific Mixture-of-Experts (MoE) structure trained with a single autoregressive (AR) objective, which also natively supports dynamic resolutions. Furthermore, we pioneer a multi-scale visual autoregressive mechanism within the Large Language Model (LLM) that drastically reduces decoding steps compared to diffusion-based methods while maintaining state-of-the-art performance. Our findings demonstrate the powerful potential of pure autoregressive modeling as a sufficient and elegant foundation for unified multimodal intelligence. As a result, OneCAT sets a new performance standard, outperforming existing open-source unified multimodal models across benchmarks for multimodal generation, editing, and understanding.

OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理