Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
作者: Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu, Ji Luo, Shen Yan, Shuai Peng, Sihang Yuan, Chaoyi Huang, Yi Lin, Yangqiu Song
分类: cs.CV
发布日期: 2026-05-13
备注: work in progress
💡 一句话要点
提出MMProLong,通过高效的长上下文持续预训练提升视觉语言模型在长文档理解等任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文建模 视觉语言模型 持续预训练 长文档理解 视频分析
📋 核心要点
- 现有视觉语言模型在处理长上下文时面临数据混合和训练方法不足的挑战,限制了其在长文档和视频理解等任务中的应用。
- 论文提出一种长上下文持续预训练方法,通过平衡数据分布和优化数据混合策略,有效提升模型在长上下文任务中的性能。
- 实验结果表明,提出的MMProLong模型在长文档VQA任务上提升了7.1%,并在更长的256K和512K上下文中保持了良好的泛化能力。
📝 摘要(中文)
长上下文建模正成为现代大型视觉语言模型(LVLMs)的核心能力,使其能够在长文档理解、视频分析以及智能体工作流程中的多轮工具使用中进行持续的上下文管理。然而,实际的训练方法尚未得到充分探索,尤其是在设计和平衡长上下文数据混合方面。本文对LVLMs的长上下文持续预训练进行了系统研究,将一个7B模型从32K上下文扩展到128K上下文,并对长文档数据进行了广泛的消融实验。首先,表明长文档VQA比OCR转录更有效。在此基础上,消融实验进一步得出三个关键发现:i) 对于序列长度分布,平衡数据优于以目标长度为中心的数据(例如,128K),表明长上下文能力需要跨各种长度和位置的通用关键信息检索;ii) 检索仍然是主要的瓶颈,有利于检索密集型混合,并辅以适度的推理数据以实现任务多样性;iii) 纯长文档VQA在很大程度上保留了短上下文能力,表明指令格式化的长数据减少了对短数据混合的需求。基于这些发现,引入了MMProLong,通过从Qwen2.5-VL-7B进行长上下文持续预训练获得,仅使用了5B token的预算。MMProLong将长文档VQA分数提高了7.1%,并在超出其128K训练窗口的256K和512K上下文中保持了强大的性能,而无需额外的训练。它进一步推广到基于网页的多模态needle检索、长上下文视觉文本压缩和长视频理解,而无需特定于任务的监督。总的来说,这项研究建立了一个实用的LongPT配方,并为推进长上下文视觉语言模型奠定了经验基础。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型在处理长文档、长视频等长上下文信息时,由于训练数据和方法不足导致的性能瓶颈问题。现有方法通常依赖于OCR转录或针对特定长度的数据进行训练,忽略了长上下文信息检索的通用性和效率,并且缺乏对不同类型数据混合策略的系统研究。
核心思路:论文的核心思路是通过长上下文持续预训练,使模型能够更好地理解和利用长上下文信息。关键在于设计有效的数据混合策略,平衡不同长度的序列数据,并侧重于检索密集型数据,同时辅以适量的推理数据,从而提升模型在各种长上下文任务中的泛化能力。
技术框架:论文提出的MMProLong模型基于Qwen2.5-VL-7B进行长上下文持续预训练。训练过程主要包括以下几个阶段:1) 数据准备:构建包含长文档VQA、网页数据、长视频数据等多种类型的数据集,并对数据进行清洗和预处理。2) 数据混合:设计平衡的数据混合策略,包括不同长度序列的比例和不同任务类型的比例。3) 模型训练:使用长上下文持续预训练方法,在大量数据上对模型进行训练,优化模型参数。4) 模型评估:在长文档VQA、网页检索、视觉文本压缩和长视频理解等任务上评估模型性能。
关键创新:论文的关键创新在于:1) 提出了长文档VQA比OCR转录更有效的观点,并验证了其在长上下文建模中的优势。2) 发现平衡的数据分布优于以目标长度为中心的数据,表明长上下文能力需要跨各种长度和位置的通用关键信息检索。3) 提出检索密集型数据混合策略,并验证了其在提升模型性能方面的有效性。
关键设计:论文的关键设计包括:1) 使用指令格式化的长数据,减少了对短数据混合的需求。2) 设计了平衡的数据混合策略,包括不同长度序列的比例和不同任务类型的比例。3) 使用了5B token的训练预算,在保证模型性能的同时,降低了训练成本。
🖼️ 关键图片
📊 实验亮点
MMProLong模型在长文档VQA任务上取得了显著的性能提升,相较于基线模型,VQA分数提高了7.1%。更重要的是,该模型在超出其128K训练窗口的256K和512K上下文中仍然保持了强大的性能,无需额外的训练,展示了良好的泛化能力。此外,该模型还成功应用于网页检索、视觉文本压缩和长视频理解等任务,证明了其在不同领域的适用性。
🎯 应用场景
该研究成果可广泛应用于长文档理解、视频分析、智能客服、智能问答等领域。例如,可以利用该模型分析长篇法律文件、医学报告,提取关键信息;也可以应用于视频监控,分析长时间的视频流,检测异常事件。此外,该模型还可以用于构建更强大的智能助手,能够处理更复杂的任务,提供更精准的服务。
📄 摘要(原文)
Long-context modeling is becoming a core capability of modern large vision-language models (LVLMs), enabling sustained context management across long-document understanding, video analysis, and multi-turn tool use in agentic workflows. Yet practical training recipes remain insufficiently explored, particularly for designing and balancing long-context data mixtures. In this work, we present a systematic study of long-context continued pre-training for LVLMs, extending a 7B model from 32K to 128K context with extensive ablations on long-document data. We first show that long-document VQA is substantially more effective than OCR transcription. Building on this observation, our ablations further yield three key findings: i) for sequence-length distribution, balanced data outperforms target-length-focused data (e.g., 128K), suggesting that long-context ability requires generalizable key-information retrieval across various lengths and positions; ii) retrieval remains the primary bottleneck, favoring retrieval-heavy mixtures with modest reasoning data for task diversity; and iii) pure long-document VQA largely preserves short-context capabilities, suggesting that instruction-formatted long data reduces the need for short-data mixing. Based on these findings, we introduce MMProLong, obtained by long-context continued pre-training from Qwen2.5-VL-7B with only a 5B-token budget. MMProLong improves long-document VQA scores by 7.1% and maintains strong performance at 256K and 512K contexts beyond its 128K training window, without additional training. It further generalizes to webpage-based multimodal needle retrieval, long-context vision-text compression, and long-video understanding without task-specific supervision. Overall, our study establishes a practical LongPT recipe and an empirical foundation for advancing long-context vision-language models.