ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

📄 arXiv: 2606.11188v1 📥 PDF

作者: Junke Wang, Xiao Wang, Jiacheng Pan, Xuefeng Hu, Feng Li, Jingxiang Sun, Chaorui Deng, Zilong Chen, Yunpeng Chen, Kaibin Tian, Matthew Gwilliam, Hao Chen, Danhui Guan, Kun Xu, Weilin Huang, Zuxuan Wu, Haoqi Fan, Yu-Gang Jiang, Zhenheng Yang

分类: cs.CV

发布日期: 2026-06-09

备注: technical report

🔗 代码/项目: GITHUB


💡 一句话要点

提出ARM模型以统一图像理解、生成与编辑任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自回归模型 多模态学习 图像生成 视觉理解 强化学习

📋 核心要点

  1. 现有方法在图像理解、生成与编辑任务中缺乏统一的框架,导致任务间协同不足。
  2. ARM模型通过离散语义视觉标记器和自回归训练,统一处理图像相关任务,提升了模型的多模态能力。
  3. 实验结果显示,ARM在多个任务上性能显著提升,如WISE整体从0.50提高到0.56,GEdit-Bench-EN G_O从5.75提升至6.68。

📝 摘要(中文)

本文介绍了ARM,一个基于离散表示的自回归模型,旨在通过下一个标记预测框架统一图像理解、生成和编辑。ARM的构建基于三个努力:首先,训练一个离散语义视觉标记器,将图像映射为紧凑的标记序列。该标记器通过多重目标监督,促进语义可区分性、语言对齐和忠实重建,从而支持共享潜在空间中的多样化任务。其次,ARM在大规模文本和图像标记序列上训练了一个7B的自回归模型,发展了视觉-语言感知和生成能力。最后,为了进一步改善文本到图像生成和指令引导编辑的偏好对齐行为,ARM应用强化学习优化任务级目标,如视觉质量、指令遵循和编辑一致性。实验结果表明,强化学习显著提高了目标任务的性能,并在文本到图像生成和编辑之间引发了跨任务协同。

🔬 方法详解

问题定义:本文旨在解决现有多模态任务(如图像理解、生成和编辑)之间缺乏统一处理框架的问题。现有方法往往在任务间协同不足,导致性能不佳。

核心思路:ARM模型通过引入离散语义视觉标记器,将图像转化为紧凑的标记序列,并在此基础上训练自回归模型,从而实现对图像的理解、生成和编辑的统一处理。

技术框架:ARM的整体架构包括三个主要模块:离散语义视觉标记器、7B自回归模型和强化学习优化模块。标记器负责将图像转换为标记序列,自回归模型则在大规模数据上进行训练,最后通过强化学习优化任务目标。

关键创新:ARM的核心创新在于将离散表示与自回归建模相结合,形成了一个统一的多模态处理框架。这种设计与现有方法的本质区别在于其能够在共享潜在空间中同时处理多种任务。

关键设计:在模型设计中,采用了多重目标监督来训练标记器,确保语义可区分性和语言对齐。同时,强化学习用于优化视觉质量和指令遵循等任务级目标,显著提升了模型的实际应用效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARM模型在多个任务上表现出色,WISE整体得分从0.50提升至0.56,GEdit-Bench-EN G_O从5.75提升至6.68,显示出强化学习在任务优化中的显著效果。此外,模型在文本到图像生成与编辑之间实现了有效的跨任务协同。

🎯 应用场景

ARM模型在图像生成、编辑和理解等多模态任务中具有广泛的应用潜力。其统一的处理框架能够为智能助手、内容创作和虚拟现实等领域提供更高效的解决方案。未来,ARM可能推动多模态智能系统的进一步发展,提升人机交互的自然性与智能化水平。

📄 摘要(原文)

This paper introduces ARM, a discrete representation-based AutoRegressive Model that unifies image understanding, generation, and editing within a next-token prediction framework. ARM is built on three efforts: first, we train a discrete semantic visual tokenizer that maps images into compact token sequences. Our tokenizer is supervised with multiple objectives that jointly promote semantic discriminability, language alignment and faithful reconstruction, thereby supporting diverse tasks in a shared latent space. With this, we train a 7B autoregressive model over large-scale text and image token sequences, seamlessly developing vision-language perception and generation capabilities. Finally, to further improve preference-aligned behavior for text-to-image generation and instruction-guided editing, ARM applies reinforcement learning (RL) to optimize task-level objectives such as visual quality, instruction adherence, and edit consistency. Surprisingly, the results show that RL not only substantially improves performance on the target tasks (e.g., raising WISE overall from 0.50 to 0.56, GEdit-Bench-EN G_O from 5.75 to 6.68), but also induces cross-task synergy between text-to-image generation and editing. Collectively, these findings highlight autoregressive modeling, when paired with strong representations and preference optimization, as a scalable foundation for multimodal intelligence. Code: https://github.com/wdrink/ARM.