Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

作者: Jindong Li, Yali Fu, Jiahong Liu, Linxiao Cao, Wei Ji, Menglin Yang, Irwin King, Ming-Hsuan Yang

分类: cs.CL, cs.AI

发布日期: 2025-07-21

🔗 代码/项目: GITHUB

💡 一句话要点

综述：多模态LLM的离散Token化方法，聚焦向量量化及其在LLM中的应用。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 离散Token化 向量量化 码本学习 多模态融合 表征学习

📋 核心要点

现有方法难以有效处理连续多模态数据，将其转换为LLM可处理的离散表示，影响了多模态LLM的性能。
本文核心在于系统性地分析和分类离散Token化方法，特别是向量量化（VQ）技术，并探讨其在LLM中的应用。
通过对8种VQ变体的分析，揭示了量化策略对LLM对齐、推理和生成性能的影响，并指出了未来研究方向。

📝 摘要（中文）

大型语言模型（LLM）的快速发展对将连续多模态数据转换为适合语言处理的离散表示提出了更高的要求。离散Token化，特别是向量量化（VQ），因其计算效率和与LLM架构的兼容性而备受关注。然而，目前缺乏对基于LLM系统的VQ技术进行系统性研究的全面综述。本文填补了这一空白，首次对为LLM设计的离散Token化方法进行了结构化的分类和分析。我们对8种具有代表性的VQ变体进行了分类，涵盖了经典和现代范式，并分析了它们的算法原理、训练动态以及与LLM流水线的集成挑战。除了算法层面的研究，我们还讨论了现有研究在没有LLM的经典应用、基于LLM的单模态系统和基于LLM的多模态系统中的应用，强调了量化策略如何影响对齐、推理和生成性能。此外，我们还指出了关键挑战，包括码本崩溃、不稳定的梯度估计和模态特定的编码约束。最后，我们讨论了新兴的研究方向，如动态和任务自适应量化、统一的Token化框架以及受生物学启发的码本学习。本综述弥合了传统向量量化和现代LLM应用之间的差距，为开发高效且通用的多模态系统奠定了基础。

🔬 方法详解

问题定义：目前多模态LLM需要处理各种连续模态的数据，例如图像、音频等。直接将这些连续数据输入LLM会导致计算效率低下，且与LLM的离散token处理方式不兼容。因此，如何有效地将连续多模态数据转换为离散表示，成为了一个关键问题。现有方法在处理复杂多模态数据时，容易出现信息损失、码本崩溃等问题，影响LLM的性能。

核心思路：本文的核心思路是深入研究和分类现有的离散Token化方法，特别是向量量化（VQ）技术，并分析其在多模态LLM中的应用。通过对不同VQ变体的算法原理、训练动态和集成挑战进行分析，旨在为研究人员提供一个全面的参考框架，从而更好地选择和改进离散Token化方法，以提升多模态LLM的性能。

技术框架：本文的整体框架包括三个主要部分：首先，对离散Token化方法进行分类，重点关注向量量化（VQ）及其变体。其次，分析这些VQ方法在不同场景下的应用，包括没有LLM的经典应用、基于LLM的单模态系统和基于LLM的多模态系统。最后，讨论了当前面临的挑战，并展望了未来的研究方向。

关键创新：本文最重要的创新点在于首次对为LLM设计的离散Token化方法进行了结构化的分类和分析。之前的研究往往侧重于特定的VQ方法或应用场景，而本文提供了一个更全面的视角，将不同的VQ变体放在LLM的背景下进行比较和分析，从而揭示了它们各自的优缺点和适用范围。

关键设计：本文的关键设计在于对8种具有代表性的VQ变体进行了详细的分析，包括它们的算法原理、训练动态以及与LLM流水线的集成挑战。此外，本文还讨论了现有研究在不同场景下的应用，并指出了关键挑战，如码本崩溃、不稳定的梯度估计和模态特定的编码约束。这些分析为研究人员提供了宝贵的参考信息，有助于他们更好地理解和应用离散Token化方法。

🖼️ 关键图片

📊 实验亮点

该综述分析了8种代表性的向量量化（VQ）变体，并讨论了它们在不同场景下的应用，包括无LLM的经典应用、基于LLM的单模态和多模态系统。研究强调了量化策略对LLM对齐、推理和生成性能的影响，并指出了码本崩溃和梯度不稳定等关键挑战。

🎯 应用场景

该研究成果可广泛应用于多模态信息处理领域，例如图像/视频描述、语音识别、多模态对话系统等。通过更有效地将多模态数据转换为LLM可处理的离散表示，可以提升LLM在这些任务中的性能，并促进更智能、更自然的人机交互。

📄 摘要（原文）

The rapid advancement of large language models (LLMs) has intensified the need for effective mechanisms to transform continuous multimodal data into discrete representations suitable for language-based processing. Discrete tokenization, with vector quantization (VQ) as a central approach, offers both computational efficiency and compatibility with LLM architectures. Despite its growing importance, there is a lack of a comprehensive survey that systematically examines VQ techniques in the context of LLM-based systems. This work fills this gap by presenting the first structured taxonomy and analysis of discrete tokenization methods designed for LLMs. We categorize 8 representative VQ variants that span classical and modern paradigms and analyze their algorithmic principles, training dynamics, and integration challenges with LLM pipelines. Beyond algorithm-level investigation, we discuss existing research in terms of classical applications without LLMs, LLM-based single-modality systems, and LLM-based multimodal systems, highlighting how quantization strategies influence alignment, reasoning, and generation performance. In addition, we identify key challenges including codebook collapse, unstable gradient estimation, and modality-specific encoding constraints. Finally, we discuss emerging research directions such as dynamic and task-adaptive quantization, unified tokenization frameworks, and biologically inspired codebook learning. This survey bridges the gap between traditional vector quantization and modern LLM applications, serving as a foundational reference for the development of efficient and generalizable multimodal systems. A continuously updated version is available at: https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey.

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理