Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
作者: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu
分类: cs.CV
发布日期: 2025-04-21
💡 一句话要点
Eagle 2.5:通过长上下文后训练提升前沿视觉-语言模型性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文理解 视觉-语言模型 多模态学习 视频理解 高分辨率图像 自动降级采样 图像区域保持 Eagle-Video-110K
📋 核心要点
- 现有视觉-语言模型在处理长视频和高分辨率图像时面临上下文理解和细节保留的挑战。
- Eagle 2.5通过自动降级采样和图像区域保持等技术,在长上下文训练中保持上下文完整性和视觉细节。
- Eagle 2.5在长上下文多模态基准测试中取得了显著提升,性能与顶级商业模型和大型开源模型相当。
📝 摘要(中文)
本文介绍了Eagle 2.5,一系列用于长上下文多模态学习的前沿视觉-语言模型(VLMs)。该工作旨在解决长视频理解和高分辨率图像理解中的挑战,并为此引入了一个通用的框架。提出的训练框架包含自动降级采样和图像区域保持两种技术,以保持上下文完整性和视觉细节。该框架还包括针对长上下文数据训练的诸多效率优化。此外,我们提出了Eagle-Video-110K,一个整合了故事级别和片段级别标注的新型数据集,以促进长视频理解。Eagle 2.5在长上下文多模态基准测试中表现出显著的改进,为现有VLMs的局限性提供了强大的解决方案。值得注意的是,我们最好的模型Eagle 2.5-8B在具有512个输入帧的Video-MME上实现了72.4%的准确率,与GPT-4o等顶级商业模型以及Qwen2.5-VL-72B和InternVL2.5-78B等大规模开源模型的结果相匹配。
🔬 方法详解
问题定义:现有视觉-语言模型在处理长视频理解和高分辨率图像理解任务时,面临着两个主要的痛点。一是难以有效利用长上下文信息,导致对视频内容或图像细节的理解不足。二是训练长上下文模型的计算成本高昂,阻碍了模型的进一步发展。
核心思路:Eagle 2.5的核心思路是通过一种高效的长上下文后训练框架,提升视觉-语言模型在长视频和高分辨率图像上的理解能力。该框架通过自动降级采样和图像区域保持等技术,在训练过程中更好地保留上下文信息和视觉细节,从而提高模型的性能。
技术框架:Eagle 2.5的整体框架包括数据准备、模型训练和评估三个主要阶段。在数据准备阶段,论文提出了Eagle-Video-110K数据集,用于长视频理解的训练。在模型训练阶段,采用了自动降级采样和图像区域保持等技术,并进行了效率优化。在评估阶段,在多个长上下文多模态基准测试上评估了模型的性能。
关键创新:Eagle 2.5的关键创新在于其提出的自动降级采样和图像区域保持两种技术。自动降级采样通过模拟真实场景中的图像质量下降,提高模型的鲁棒性。图像区域保持则确保在降采样过程中,重要的视觉细节得以保留。此外,Eagle-Video-110K数据集的构建也为长视频理解提供了新的资源。
关键设计:自动降级采样的具体实现方式未知,但其目标是模拟真实世界中可能出现的图像质量退化情况。图像区域保持的具体实现方式也未知,但其目标是在图像降采样过程中,尽可能保留重要的视觉信息。此外,论文还进行了多项效率优化,以降低长上下文训练的计算成本,具体优化方法未知。
🖼️ 关键图片
📊 实验亮点
Eagle 2.5-8B模型在Video-MME基准测试中,使用512个输入帧的情况下,达到了72.4%的准确率。这一结果与GPT-4o等顶级商业模型以及Qwen2.5-VL-72B和InternVL2.5-78B等大规模开源模型的结果相匹配,表明Eagle 2.5在长上下文多模态理解方面具有强大的竞争力。
🎯 应用场景
Eagle 2.5在视频监控、自动驾驶、医学影像分析等领域具有广泛的应用前景。它可以用于提升视频监控系统对异常事件的检测能力,帮助自动驾驶系统更好地理解周围环境,以及辅助医生进行医学影像诊断。该研究的未来影响在于推动视觉-语言模型在长上下文理解方面的发展,并促进多模态人工智能技术的应用。
📄 摘要(原文)
We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.