Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation
作者: Jingnan Luo, Mingqi Gao, Jun Liu, Bin-Bin Gao, Feng Zheng
分类: cs.CV
发布日期: 2026-03-23
🔗 代码/项目: GITHUB
💡 一句话要点
提出TrajSeg,通过双向文本-轨迹对齐增强MLLM在视频推理分割中的轨迹感知能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理分割 多模态大语言模型 文本-轨迹对齐 双向学习 轨迹感知
📋 核心要点
- 现有视频推理分割方法依赖单向隐式文本-轨迹对齐,难以应对剧烈视频动态。
- TrajSeg引入双向文本-轨迹对齐,增强MLLM对轨迹的感知能力,提升对应关系。
- TrajSeg通过帧级内容集成和统一掩码解码器,实现端到端训练,性能优于现有方法。
📝 摘要(中文)
多模态大型语言模型(MLLM)的繁荣激发了对视频推理分割的需求,其目标是根据人类指令分割视频对象。以往的研究依赖于单向和隐式的文本-轨迹对齐,在面对严重的视频动态时难以进行轨迹感知。本文提出了TrajSeg,一个构建在MLLM之上的简单而统一的框架。具体而言,我们引入了双向文本-轨迹对齐,其中MLLM接受以grounding为目的(文本到轨迹)和以captioning为目的(轨迹到文本)的指令。通过这种方式,MLLM可以从增强的对应关系中受益,并更好地感知视频中的对象轨迹。轨迹到掩码的生成通过帧级内容集成(FCI)模块和统一的掩码解码器实现。前者将MLLM解析的轨迹级token适配到帧特定的信息。后者将所有帧的分割统一到一个结构中,使提出的框架能够被简化和端到端训练。在指代和推理视频分割数据集上的大量实验证明了TrajSeg的有效性,其在所有指标上都优于所有视频推理分割方法。
🔬 方法详解
问题定义:视频推理分割旨在根据文本指令分割视频中的目标对象。现有方法主要依赖于单向和隐式的文本-轨迹对齐,即通过文本信息来指导轨迹的生成或选择。这种方式在视频动态变化剧烈时,难以准确捕捉和理解目标的运动轨迹,导致分割效果不佳。现有方法缺乏有效的轨迹感知能力,无法充分利用视频中的时序信息。
核心思路:TrajSeg的核心思路是引入双向文本-轨迹对齐机制,让MLLM能够同时从文本到轨迹(grounding-intended)和从轨迹到文本(captioning-intended)两个方向进行学习。通过这种双向交互,MLLM可以更全面地理解文本指令和视频内容之间的对应关系,从而更准确地感知和推理目标的运动轨迹。这种设计旨在增强MLLM的轨迹感知能力,提高视频推理分割的准确性。
技术框架:TrajSeg的整体框架包括以下几个主要模块:1) 双向文本-轨迹对齐模块:MLLM接收文本指令和视频帧,通过grounding-intended和captioning-intended两种方式进行学习。2) 帧级内容集成(FCI)模块:将MLLM解析的轨迹级token适配到每一帧的特定信息,实现轨迹信息和帧级特征的融合。3) 统一掩码解码器:将所有帧的分割任务统一到一个解码器中,生成最终的分割掩码。整个框架是端到端可训练的。
关键创新:TrajSeg最关键的创新点在于双向文本-轨迹对齐机制。与以往的单向对齐方法不同,TrajSeg通过同时学习文本到轨迹和轨迹到文本的映射关系,显著增强了MLLM对视频中目标轨迹的感知能力。这种双向交互使得MLLM能够更准确地理解文本指令和视频内容之间的对应关系,从而提高分割的准确性。
关键设计:FCI模块的设计至关重要,它将轨迹级别的token信息与每一帧的视觉特征进行融合,使得模型能够感知到每一帧的特定内容,从而生成更准确的分割掩码。统一掩码解码器的设计简化了框架结构,使得整个模型可以进行端到端训练,避免了复杂的中间步骤。具体的损失函数和网络结构细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
TrajSeg在指代和推理视频分割数据集上取得了显著的性能提升,在所有指标上都优于现有的视频推理分割方法。具体的性能数据和对比基线未在摘要中提及,属于未知信息。但摘要明确指出TrajSeg在所有指标上都超越了现有方法,证明了其有效性。
🎯 应用场景
TrajSeg在视频监控、自动驾驶、视频编辑等领域具有广泛的应用前景。例如,在视频监控中,可以根据文本指令自动分割和跟踪特定目标;在自动驾驶中,可以辅助车辆理解周围环境,识别和分割行人、车辆等目标;在视频编辑中,可以实现智能抠图和特效添加等功能。该研究有助于提升计算机视觉系统对视频内容的理解和处理能力。
📄 摘要(原文)
The prosperity of Multimodal Large Language Models (MLLMs) has stimulated the demand for video reasoning segmentation, which aims to segment video objects based on human instructions. Previous studies rely on unidirectional and implicit text-trajectory alignment, which struggles with trajectory perception when faced with severe video dynamics. In this work, we propose TrajSeg, a simple and unified framework built upon MLLMs. Concretely, we introduce bidirectional text-trajectory alignment, where MLLMs accept grounding-intended (text-to-trajectory) and captioning-intended (trajectory-to-text) instructions. This way, MLLMs can benefit from enhanced correspondence and better perceive object trajectories in videos. The mask generation from trajectories is achieved via a frame-level content integration (FCI) module and a unified mask decoder. The former adapts the MLLM-parsed trajectory-level token to frame-specific information. The latter unifies segmentation for all frames into a single structure, enabling the proposed framework to be simplified and end-to-end trainable. Extensive experiments on referring and reasoning video segmentation datasets demonstrate the effectiveness of TrajSeg, which outperforms all video reasoning segmentation methods on all metrics. The code will be publicly available at https://github.com/haodi19/TrajSeg.