Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy

📄 arXiv: 2502.05177v3 📥 PDF

作者: Yunhang Shen, Chaoyou Fu, Shaoqi Dong, Xiong Wang, Yi-Fan Zhang, Peixian Chen, Mengdan Zhang, Haoyu Cao, Ke Li, Shaohui Lin, Xiawu Zheng, Yan Zhang, Yiyi Zhou, Ran He, Caifeng Shan, Rongrong Ji, Xing Sun

分类: cs.CV

发布日期: 2025-02-07 (更新: 2025-10-28)

备注: https://github.com/VITA-MLLM/Long-VITA


💡 一句话要点

Long-VITA:一种支持百万token长上下文的多模态模型,兼顾短上下文精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长上下文建模 多模态学习 视觉语言理解 大模型 上下文并行 分布式推理 logits掩码 长视频理解

📋 核心要点

  1. 现有长上下文多模态模型难以兼顾长序列处理能力和短上下文任务精度,限制了其通用性和实用性。
  2. Long-VITA通过多阶段训练策略,从语言模型出发,逐步对齐视觉-语言模态,并进行长序列微调,提升模型性能。
  3. 实验表明,Long-VITA在多个多模态基准测试中取得了领先成果,同时实现了2倍预填充加速和4倍上下文长度扩展。

📝 摘要(中文)

本文介绍了一种简单而有效的大型多模态模型Long-VITA,用于长上下文视觉-语言理解任务。它擅长并发处理和分析图像、视频和文本等多模态数据,支持超过4K帧或1M tokens的输入,同时在短上下文多模态任务上也能实现先进的性能。我们提出了一种有效的多模态训练方案,该方案从大型语言模型开始,然后进行视觉-语言对齐、通用知识学习,以及两个连续阶段的长序列微调。我们进一步实现了上下文并行分布式推理和logits掩码语言建模头,以在模型推理期间将Long-VITA扩展到图像和文本的无限长输入。在训练数据方面,Long-VITA仅基于来自公共数据集的17M样本构建,并展示了在各种多模态基准测试上的最先进性能,与最近使用内部数据的尖端模型相比。Long-VITA完全开源且可复现。通过利用我们的推理设计,Long-VITA模型在单个具有8个GPU的节点中实现了显着的2倍预填充加速和4倍上下文长度扩展。我们希望Long-VITA可以作为有竞争力的基线,并为开源社区在推进长上下文多模态理解方面提供有价值的见解。

🔬 方法详解

问题定义:现有的大型多模态模型在处理长上下文(例如,长视频或长文档)时,往往难以保持在短上下文任务上的精度。这意味着模型在扩展到更长的输入序列时,可能会牺牲其在传统多模态任务上的性能。此外,如何高效地处理和推理超长序列也是一个挑战,尤其是在资源有限的情况下。

核心思路:Long-VITA的核心思路是通过一个精心设计的多阶段训练方案,逐步提升模型在长上下文和短上下文任务上的性能。该方案从一个强大的语言模型开始,然后逐步引入视觉信息,并进行长序列微调。此外,通过上下文并行分布式推理和logits掩码语言建模头,实现了高效的长序列处理。

技术框架:Long-VITA的整体框架包括以下几个主要阶段:1) 基于大型语言模型初始化;2) 视觉-语言对齐,将视觉信息融入模型;3) 通用知识学习,提升模型的多模态理解能力;4) 两个连续阶段的长序列微调,专门针对长上下文任务进行优化。在推理阶段,采用上下文并行分布式推理和logits掩码语言建模头来处理超长输入。

关键创新:Long-VITA的关键创新在于其多阶段训练策略和高效的推理机制。多阶段训练策略允许模型逐步学习不同模态的信息,并针对长上下文任务进行优化,从而在长上下文和短上下文任务上都取得良好的性能。上下文并行分布式推理和logits掩码语言建模头则实现了高效的长序列处理,使得模型能够处理超长输入。

关键设计:在训练阶段,采用了混合数据集,包括图像、视频和文本数据,以提升模型的通用性。在长序列微调阶段,使用了特定的损失函数来优化模型在长上下文任务上的性能。在推理阶段,上下文并行分布式推理将输入序列分成多个上下文块,并行处理,从而加速推理过程。logits掩码语言建模头则通过掩盖部分logits,来减少计算量,并提升推理效率。

📊 实验亮点

Long-VITA在多个多模态基准测试中取得了最先进的性能,超越了许多使用内部数据的模型。此外,Long-VITA通过其推理设计,在单个具有8个GPU的节点中实现了2倍的预填充加速和4倍的上下文长度扩展。这些结果表明,Long-VITA在长上下文多模态理解方面具有显著的优势。

🎯 应用场景

Long-VITA在视频理解、文档分析、多模态对话等领域具有广泛的应用前景。例如,可以用于分析长篇电影,理解剧情发展和人物关系;可以用于处理长篇文档,提取关键信息和总结内容;还可以用于构建更智能的多模态对话系统,能够理解用户的意图并提供更准确的回复。该研究的开源特性将促进长上下文多模态理解领域的发展。

📄 摘要(原文)

We introduce Long-VITA, a simple yet effective large multi-modal model for long-context visual-language understanding tasks. It is adept at concurrently processing and analyzing modalities of image, video, and text over 4K frames or 1M tokens while delivering advanced performances on short-context multi-modal tasks. We propose an effective multi-modal training schema that starts with large language models and proceeds through vision-language alignment, general knowledge learning, and two sequential stages of long-sequence fine-tuning. We further implement context-parallelism distributed inference and logits-masked language modeling head to scale Long-VITA to infinitely long inputs of images and texts during model inference. Regarding training data, Long-VITA is built on a mix of 17M samples from public datasets only and demonstrates state-of-the-art performance on various multi-modal benchmarks, compared against recent cutting-edge models with internal data. Long-VITA is fully open-source and reproducible.. By leveraging our inference designs, Long-VITA models achieve a remarkable 2x prefill speedup and 4x context length extension in a single node with 8 GPUs. We hope Long-VITA can serve as a competitive baseline and offer valuable insights for the open-source community in advancing long-context multi-modal understanding.