BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning

📄 arXiv: 2604.11136v1 📥 PDF

作者: Zekun Qian, Ruize Han, Wei Feng

分类: cs.CV, cs.AI

发布日期: 2026-04-13


💡 一句话要点

BoxTuning:通过直接注入目标框信息微调多模态模型,提升视频问答性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频问答 多模态学习 视觉提示 目标定位 时空推理 大语言模型 模型微调

📋 核心要点

  1. 现有MLLM对视频帧进行整体编码,缺乏显式的细粒度目标定位机制,限制了视频问答的性能。
  2. BoxTuning将目标时空信息直接注入视觉模态,通过渲染彩色边界框和轨迹作为视觉提示,降低token成本并保留时间分辨率。
  3. 实验表明,BoxTuning在空间定位任务上超越现有方法,并在推理任务上保持了竞争力,验证了视觉提示的有效性。

📝 摘要(中文)

本文提出BoxTuning方法,旨在解决现有多模态大语言模型(MLLMs)在视频问答中缺乏细粒度目标定位的问题。现有方法将边界框坐标序列化为文本token,但这种文本-坐标范式存在模态不匹配的问题,导致token成本高昂,迫使时间维度上进行激进的降采样。BoxTuning通过将目标时空信息直接注入视觉模态来解决这个问题,将彩色边界框和轨迹渲染到视频帧上作为视觉提示,仅保留简洁的颜色-目标图例作为文本。这种方法显著降低了token成本(87-93%),并保留了完整的时间分辨率。轨迹进一步编码了帧间运动方向和速度。在五个视频问答基准测试(CLEVRER, Perception Test, STAR, NExT-QA, IntentQA)上的实验结果表明,BoxTuning在空间定位任务上优于文本-坐标基线,并几乎消除了在以推理为中心的任务上观察到的精度下降,证明了视觉提示是向视频MLLM传递目标信息的更自然和有效的方式。

🔬 方法详解

问题定义:现有的视频问答模型,特别是基于多模态大语言模型(MLLMs)的模型,在理解视频中目标的空间和时间关系方面存在不足。将边界框坐标序列化为文本token的方法,虽然能够提供目标信息,但引入了模态不匹配问题,增加了token数量,导致需要对视频进行时间上的降采样,丢失了细粒度的动态信息。

核心思路:BoxTuning的核心思路是将目标的空间和时间信息直接编码到视觉模态中,而不是将其转换为文本。通过在视频帧上渲染彩色边界框和轨迹,将目标的位置和运动信息以视觉提示的方式传递给模型。同时,使用简洁的颜色-目标图例作为文本输入,降低了token成本,并保留了原始视频的时间分辨率。

技术框架:BoxTuning的整体框架包括以下几个步骤:1) 目标检测:使用现有的目标检测器检测视频帧中的目标。2) 视觉提示生成:根据检测到的目标,在视频帧上渲染彩色边界框和轨迹。轨迹用于编码目标的运动方向和速度。3) 文本提示生成:生成一个颜色-目标图例,将每个颜色与对应的目标类别关联起来。4) 多模态模型微调:将带有视觉提示的视频帧和文本提示输入到多模态大语言模型中进行微调。

关键创新:BoxTuning的关键创新在于将目标信息直接注入视觉模态,避免了文本-坐标范式的模态不匹配问题。通过视觉提示,模型可以直接从图像中学习目标的空间和时间关系,而无需依赖于文本坐标的解析。此外,轨迹的使用能够有效地编码目标的运动信息,弥补了文本-坐标方法在时间分辨率上的损失。

关键设计:在视觉提示生成方面,颜色的选择需要保证区分度,避免混淆不同的目标。轨迹的长度和颜色可以根据目标的运动速度进行调整,以更好地反映目标的动态信息。在多模态模型微调方面,可以使用标准的交叉熵损失函数或对比学习损失函数来优化模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BoxTuning在五个视频问答基准测试上取得了显著的成果。在空间定位任务上,BoxTuning超越了文本-坐标基线。在以推理为中心的任务上,BoxTuning几乎消除了精度下降。例如,在CLEVRER数据集上,BoxTuning相比于文本坐标方法取得了显著的性能提升。实验结果表明,BoxTuning能够有效地提高模型对视频中目标空间和时间关系的理解能力。

🎯 应用场景

BoxTuning具有广泛的应用前景,例如智能监控、自动驾驶、视频编辑和机器人导航等领域。通过提高模型对视频中目标空间和时间关系的理解能力,可以实现更精确的目标跟踪、行为识别和场景理解,从而提升相关应用的智能化水平。该方法还可以应用于视频内容分析和检索,帮助用户更快速地找到感兴趣的视频片段。

📄 摘要(原文)

Object-level spatial-temporal understanding is essential for video question answering, yet existing multimodal large language models (MLLMs) encode frames holistically and lack explicit mechanisms for fine-grained object grounding. Recent work addresses this by serializing bounding box coordinates as text tokens, but this text-coordinate paradigm suffers from a fundamental modality mismatch: object information is inherently visual, yet encoding it as text incurs a high token cost that forces aggressive temporal downsampling. We propose BoxTuning, which resolves this mismatch by injecting object spatial-temporal information directly into the visual modality. Colored bounding boxes and trajectory trails are rendered onto video frames as visual prompts, with only a concise color-to-object legend retained as text. This reduces the token cost significantly, achieving 87-93% text token reduction in practice. It also preserves full temporal resolution, where the trajectory trails further encode inter-frame motion direction and speed within each keyframe, recovering fine-grained dynamics that text-coordinate methods are forced to discard. Experimental results on five video QA benchmarks (CLEVRER, Perception Test, STAR, NExT-QA, IntentQA) show that BoxTuning surpasses text-coordinate baselines on spatially oriented tasks and nearly eliminates the accuracy degradation observed on reasoning-centric tasks, establishing visual prompting as a more natural and efficient paradigm for conveying object information to video MLLMs.