GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation
作者: Lang Lin, Xueyang Yu, Ziqi Pang, Yu-Xiong Wang
分类: cs.CV
发布日期: 2025-04-10
备注: CVPR 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GLUS:统一全局-局部推理的MLLM用于视频分割,实现RefVOS新SOTA
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指代视频对象分割 多模态大语言模型 全局-局部推理 对象对比学习 自精炼 视频分割 MLLM
📋 核心要点
- 现有基于MLLM的RefVOS方法难以兼顾全局指代理解和局部视频对象跟踪,通常需要外部模块辅助。
- GLUS框架将全局上下文帧和局部查询帧统一到单个MLLM中,实现全局-局部推理的融合。
- 通过对象对比学习和自精炼框架,GLUS提高了信息效率,并在MeViS和Ref-Youtube-VOS上取得SOTA。
📝 摘要(中文)
本文提出了一种新颖的框架,利用多模态大型语言模型(MLLM)进行指代视频对象分割(RefVOS)。以往基于MLLM的方法通常在“Ref”和“VOS”之间挣扎:它们要么专注于理解一些关键帧(全局推理),要么专注于在连续帧上跟踪对象(局部推理),并且依赖于外部VOS或帧选择器来缓解另一方面的挑战。然而,我们的框架GLUS表明,全局和局部一致性可以统一到一个单一的视频分割MLLM中:一组稀疏的“上下文帧”提供全局信息,而连续的“查询帧”流进行局部对象跟踪。通过联合训练MLLM和一个预训练的VOS记忆库来同时消化短程和远程时间信息,进一步支持了这一点。为了提高MLLM有限上下文窗口内的信息效率,我们引入了对象对比学习来区分困难的假阳性对象,并引入了一个自精炼框架来识别关键帧并执行传播。通过集体整合这些见解,我们的GLUS提供了一个简单而有效的基线,在MeViS和Ref-Youtube-VOS基准测试中实现了MLLM的最新技术水平。我们的项目页面位于https://glus-video.github.io/。
🔬 方法详解
问题定义:现有的基于多模态大语言模型(MLLM)的指代视频对象分割(RefVOS)方法,难以同时处理好全局的指代理解和局部的视频对象跟踪。一些方法侧重于理解关键帧的指代信息,而另一些方法则侧重于在连续帧中跟踪对象。这导致了性能瓶颈,并且通常需要额外的模块(如VOS或帧选择器)来弥补另一方面的不足。
核心思路:GLUS的核心思路是将全局推理和局部推理统一到一个单一的MLLM中。通过引入“上下文帧”和“查询帧”的概念,让MLLM能够同时利用全局的指代信息和局部的运动信息。上下文帧提供全局的指代信息,而查询帧则用于局部对象跟踪。这种设计使得模型能够更好地理解视频内容,并提高分割的准确性。
技术框架:GLUS框架包含以下几个主要模块:1) 上下文帧编码器:用于提取上下文帧的视觉特征。2) 查询帧编码器:用于提取查询帧的视觉特征。3) MLLM:用于融合视觉特征和文本指代信息,并生成分割掩码。4) VOS记忆库:用于存储视频对象的信息,并辅助对象跟踪。5) 对象对比学习模块:用于区分困难的假阳性对象。6) 自精炼框架:用于识别关键帧并进行分割结果的传播。整体流程是,首先对上下文帧和查询帧进行编码,然后将视觉特征和文本指代信息输入到MLLM中,MLLM生成初始的分割掩码。接着,利用VOS记忆库、对象对比学习模块和自精炼框架对分割结果进行优化。
关键创新:GLUS的关键创新在于将全局推理和局部推理统一到一个单一的MLLM中,避免了对外部模块的依赖。此外,对象对比学习和自精炼框架有效地提高了信息效率,使得模型能够在有限的上下文窗口内处理更多的信息。
关键设计:在对象对比学习中,采用了InfoNCE损失函数来区分正样本和负样本。正样本是与指代对象相关的帧,负样本是包含相似对象的帧。在自精炼框架中,使用了一个置信度阈值来选择关键帧。只有置信度高于阈值的帧才会被用于分割结果的传播。VOS记忆库使用预训练的VOS模型来初始化,并在训练过程中进行微调。
🖼️ 关键图片
📊 实验亮点
GLUS在MeViS和Ref-Youtube-VOS基准测试中取得了显著的性能提升,达到了新的SOTA。具体来说,在MeViS数据集上,GLUS的J&F指标超过了之前的最佳方法X-Mem 2.6%。在Ref-Youtube-VOS数据集上,GLUS也取得了类似的性能提升,证明了其有效性和泛化能力。
🎯 应用场景
GLUS框架在视频编辑、自动驾驶、机器人导航等领域具有广泛的应用前景。例如,在视频编辑中,可以利用GLUS快速准确地分割出视频中的特定对象,从而方便进行特效添加、对象替换等操作。在自动驾驶中,可以利用GLUS识别和跟踪道路上的行人、车辆等目标,提高驾驶安全性。在机器人导航中,可以利用GLUS识别和跟踪环境中的物体,帮助机器人更好地理解周围环境。
📄 摘要(原文)
This paper proposes a novel framework utilizing multi-modal large language models (MLLMs) for referring video object segmentation (RefVOS). Previous MLLM-based methods commonly struggle with the dilemma between "Ref" and "VOS": they either specialize in understanding a few key frames (global reasoning) or tracking objects on continuous frames (local reasoning), and rely on external VOS or frame selectors to mitigate the other end of the challenge. However, our framework GLUS shows that global and local consistency can be unified into a single video segmentation MLLM: a set of sparse "context frames" provides global information, while a stream of continuous "query frames" conducts local object tracking. This is further supported by jointly training the MLLM with a pre-trained VOS memory bank to simultaneously digest short-range and long-range temporal information. To improve the information efficiency within the limited context window of MLLMs, we introduce object contrastive learning to distinguish hard false-positive objects and a self-refined framework to identify crucial frames and perform propagation. By collectively integrating these insights, our GLUS delivers a simple yet effective baseline, achieving new state-of-the-art for MLLMs on the MeViS and Ref-Youtube-VOS benchmark. Our project page is at https://glus-video.github.io/.