Autoregressive Models in Vision: A Survey
作者: Jing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong
分类: cs.CV, cs.CL
发布日期: 2024-11-08 (更新: 2025-05-31)
备注: The paper is accepted by TMLR
🔗 代码/项目: GITHUB
💡 一句话要点
综述视觉自回归模型:探索像素、令牌和尺度等多层次表示的生成建模方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自回归模型 计算机视觉 生成模型 图像生成 视频生成 3D生成 多模态生成 序列建模
📋 核心要点
- 现有视觉生成模型在处理视觉数据的复杂性和层次性方面存在挑战,尤其是在如何有效建模像素、令牌和尺度等多层次表示上。
- 该综述旨在全面梳理视觉自回归模型的研究进展,通过对不同表示策略的模型进行分类,为研究人员提供清晰的框架和深入的理解。
- 该综述不仅涵盖了图像、视频和3D生成等传统应用,还探讨了自回归模型在新兴领域如具身AI和3D医疗AI中的应用潜力。
📝 摘要(中文)
自回归建模在自然语言处理(NLP)领域取得了巨大成功。最近,自回归模型已成为计算机视觉领域的重要研究方向,它们在生成高质量视觉内容方面表现出色。在NLP中,自回归模型通常处理子词级别的tokens。然而,在计算机视觉中,表示策略可以在不同的层次上变化,例如像素级、令牌级或尺度级,这反映了视觉数据与语言的顺序结构相比,具有多样性和层次性。本综述全面考察了应用于视觉的自回归模型文献。为了提高来自不同研究背景的研究人员的可读性,我们首先介绍视觉中的初步序列表示和建模。接下来,我们根据表示策略将视觉自回归模型的基本框架分为三个子类别,包括基于像素、基于令牌和基于尺度的模型。然后,我们探讨了自回归模型与其他生成模型之间的相互联系。此外,我们对计算机视觉中的自回归模型进行了多方面的分类,包括图像生成、视频生成、3D生成和多模态生成。我们还详细阐述了它们在不同领域的应用,包括具身人工智能和3D医疗人工智能等新兴领域,并提供了约250篇相关参考文献。最后,我们强调了视觉自回归模型目前面临的挑战,并提出了潜在的研究方向建议。我们还建立了一个Github仓库来组织本综述中包含的论文:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey。
🔬 方法详解
问题定义:现有视觉生成模型难以有效处理视觉数据的复杂性和层次性,尤其是在像素级、令牌级和尺度级等不同表示层面上。传统方法可能无法充分捕捉视觉数据的长程依赖关系和上下文信息,导致生成质量受限。
核心思路:该综述的核心思路是对现有的视觉自回归模型进行系统性的分类和总结,根据其采用的表示策略(像素级、令牌级、尺度级)进行划分,并探讨它们与其他生成模型的联系。通过这种方式,可以帮助研究人员更好地理解不同模型的优缺点,并为未来的研究提供指导。
技术框架:该综述首先介绍了视觉中的序列表示和建模基础。然后,将视觉自回归模型分为三个主要类别:基于像素的模型、基于令牌的模型和基于尺度的模型。接下来,探讨了自回归模型与其他生成模型(如GANs、VAEs)的联系。最后,对自回归模型在图像生成、视频生成、3D生成和多模态生成等领域的应用进行了综述。
关键创新:该综述的关键创新在于其对视觉自回归模型的全面分类和总结,特别是根据表示策略进行划分,这有助于研究人员更好地理解不同模型的特点和适用场景。此外,该综述还探讨了自回归模型在新兴领域的应用,如具身AI和3D医疗AI,为未来的研究提供了新的方向。
关键设计:该综述并没有提出新的模型或算法,而是对现有文献进行了整理和分析。关键的设计在于其分类框架,即根据像素级、令牌级和尺度级表示策略对自回归模型进行划分。此外,该综述还关注了自回归模型与其他生成模型的联系,以及它们在不同领域的应用。
🖼️ 关键图片
📊 实验亮点
该综述整理了约250篇相关参考文献,全面覆盖了视觉自回归模型的研究进展。通过对不同表示策略的模型进行分类,为研究人员提供了一个清晰的框架,方便他们了解不同模型的优缺点和适用场景。此外,该综述还探讨了自回归模型在新兴领域的应用,为未来的研究提供了新的方向。
🎯 应用场景
该研究综述对计算机视觉领域的多个应用场景具有重要意义,包括图像生成、视频生成、3D内容生成以及多模态内容生成。此外,它还在新兴领域如具身AI和3D医疗AI中具有潜在的应用价值,能够推动这些领域的发展。
📄 摘要(原文)
Autoregressive modeling has been a huge success in the field of natural language processing (NLP). Recently, autoregressive models have emerged as a significant area of focus in computer vision, where they excel in producing high-quality visual content. Autoregressive models in NLP typically operate on subword tokens. However, the representation strategy in computer vision can vary in different levels, i.e., pixel-level, token-level, or scale-level, reflecting the diverse and hierarchical nature of visual data compared to the sequential structure of language. This survey comprehensively examines the literature on autoregressive models applied to vision. To improve readability for researchers from diverse research backgrounds, we start with preliminary sequence representation and modeling in vision. Next, we divide the fundamental frameworks of visual autoregressive models into three general sub-categories, including pixel-based, token-based, and scale-based models based on the representation strategy. We then explore the interconnections between autoregressive models and other generative models. Furthermore, we present a multifaceted categorization of autoregressive models in computer vision, including image generation, video generation, 3D generation, and multimodal generation. We also elaborate on their applications in diverse domains, including emerging domains such as embodied AI and 3D medical AI, with about 250 related references. Finally, we highlight the current challenges to autoregressive models in vision with suggestions about potential research directions. We have also set up a Github repository to organize the papers included in this survey at: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.