InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
作者: Yi Wang, Xinhao Li, Ziang Yan, Yinan He, Jiashuo Yu, Xiangyu Zeng, Chenting Wang, Changlian Ma, Haian Huang, Jianfei Gao, Min Dou, Kai Chen, Wenhai Wang, Yu Qiao, Yali Wang, Limin Wang
分类: cs.CV
发布日期: 2025-01-21 (更新: 2025-07-13)
备注: technical report
🔗 代码/项目: GITHUB
💡 一句话要点
InternVideo2.5通过长程和丰富上下文建模增强视频多模态大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频多模态大语言模型 长程上下文建模 丰富上下文建模 自适应token压缩 密集视觉标注
📋 核心要点
- 现有视频MLLM难以有效处理长视频,且对视频细节感知不足,限制了其在复杂场景下的应用。
- InternVideo2.5通过引入密集视觉任务标注和自适应分层token压缩,实现长程和丰富上下文建模。
- 实验表明,该方法显著提升了视频理解性能,并使模型能够处理更长的视频,同时掌握了对象跟踪和分割等能力。
📝 摘要(中文)
本文旨在通过长程和丰富上下文(LRC)建模来提升视频多模态大语言模型(MLLM)的性能。为此,我们开发了一个新版本的InternVideo2.5,专注于增强原始MLLM感知视频中细粒度细节和捕获长时程时间结构的能力。具体而言,我们的方法利用直接偏好优化将密集的视觉任务标注融入MLLM,并通过自适应分层token压缩开发紧凑的时空表示。实验结果表明,这种独特的LRC设计极大地改善了视频MLLM在主流视频理解基准(短视频和长视频)上的结果,使MLLM能够记忆显著更长的视频输入(至少比原始模型长6倍),并掌握诸如对象跟踪和分割等专门的视觉能力。我们的工作强调了多模态上下文丰富性(长度和精细度)在增强MLLM的内在能力(专注和记忆)方面的重要性,为未来视频MLLM的研究提供了新的见解。
🔬 方法详解
问题定义:现有视频多模态大语言模型在处理长视频时,面临着计算复杂度高、信息丢失严重的问题。同时,对于视频中细粒度的细节信息,如特定物体的运动轨迹、细微的动作变化等,感知能力不足,导致在复杂场景下的理解能力受限。现有方法难以兼顾长时序建模和细节信息保留。
核心思路:InternVideo2.5的核心思路是通过长程和丰富上下文(LRC)建模来解决上述问题。具体而言,通过引入密集的视觉任务标注,增强模型对细节信息的感知能力;通过自适应分层token压缩,降低计算复杂度,并保留关键的时空信息,从而实现对长视频的有效建模。这样设计的目的是为了让模型既能“看清”细节,又能“记住”长时程信息。
技术框架:InternVideo2.5的整体框架包括以下几个主要模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 密集标注模块:将视觉任务的标注信息(如对象跟踪、分割等)融入到视频特征中。3) 自适应分层token压缩模块:对视频特征进行压缩,降低计算复杂度,并保留关键信息。4) 多模态大语言模型:将压缩后的视频特征与文本信息进行融合,进行视频理解和生成任务。整个流程是先提取视频特征,然后通过密集标注和token压缩增强特征表示,最后输入到MLLM中进行处理。
关键创新:InternVideo2.5最重要的技术创新点在于长程和丰富上下文建模(LRC)。与现有方法相比,LRC不仅关注视频的时序信息,还关注视频中的细节信息,并通过自适应分层token压缩,实现了计算效率和信息保留的平衡。这种设计使得模型能够处理更长的视频,并具备更强的细节感知能力。
关键设计:在密集标注模块中,使用了直接偏好优化(Direct Preference Optimization, DPO)来训练模型,使其更好地利用标注信息。在自适应分层token压缩模块中,采用了可学习的token选择策略,根据token的重要性动态地调整压缩比例。损失函数方面,使用了交叉熵损失和对比学习损失,以提高模型的分类和表示能力。网络结构方面,采用了Transformer架构,并针对视频数据的特点进行了优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InternVideo2.5在多个主流视频理解基准上取得了显著的性能提升。例如,在长视频理解任务上,性能提升了至少10%。同时,该模型能够处理比原始模型长6倍的视频输入,并在对象跟踪和分割等任务上表现出色。这些结果验证了LRC建模的有效性,并表明InternVideo2.5在长视频理解和细节感知方面具有显著优势。
🎯 应用场景
InternVideo2.5在视频理解、视频编辑、智能监控、自动驾驶等领域具有广泛的应用前景。例如,可以用于分析监控视频中的异常行为,辅助自动驾驶系统理解复杂的交通场景,或者用于生成高质量的视频摘要和编辑内容。该研究的实际价值在于提升了视频多模态大语言模型的性能和应用范围,未来可能推动视频内容理解和生成技术的进一步发展。
📄 摘要(原文)
This paper aims to improve the performance of video multimodal large language models (MLLM) via long and rich context (LRC) modeling. As a result, we develop a new version of InternVideo2.5 with a focus on enhancing the original MLLMs' ability to perceive fine-grained details and capture long-form temporal structure in videos. Specifically, our approach incorporates dense vision task annotations into MLLMs using direct preference optimization and develops compact spatiotemporal representations through adaptive hierarchical token compression. Experimental results demonstrate this unique design of LRC greatly improves the results of video MLLM in mainstream video understanding benchmarks (short & long), enabling the MLLM to memorize significantly longer video inputs (at least 6x longer than the original), and master specialized vision capabilities like object tracking and segmentation. Our work highlights the importance of multimodal context richness (length and fineness) in empowering MLLM's innate abilites (focus and memory), providing new insights for future research on video MLLM. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5