CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks

📄 arXiv: 2507.13609v1 📥 PDF

作者: Yanan Wang, Julio Vizcarra, Zhi Li, Hao Niu, Mori Kurokawa

分类: cs.CV, cs.CL

发布日期: 2025-07-18


💡 一句话要点

提出CoTasks框架,增强VideoLLM在细粒度视频理解上的思维链推理能力

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 思维链 指令微调 时空推理 视频大语言模型

📋 核心要点

  1. 现有VideoLLM缺乏在细粒度对象级别视频理解上的思维链推理能力,限制了其在复杂视频问题上的表现。
  2. CoTasks框架将复杂视频问题分解为帧定位、实体跟踪、时空关系提取等基础任务,构建思维链式的推理过程。
  3. 实验表明,CoTasks显著提升了模型在NeXT-QA数据集上的推理性能,尤其是在因果、时间和描述性问题上。

📝 摘要(中文)

本文提出CoTasks:基于思维链的视频指令微调任务框架,旨在提升视频大语言模型(VideoLLM)在细粒度对象级别视频理解上的思维链(CoT)推理能力。现有指令微调模型通常基于高层视频-文本对训练,缺乏结构化标注,难以进行组合式的逐步推理。CoTasks将复杂视频问题分解为四个实体级别的基础任务:帧定位、实体跟踪、时空关系提取。通过将这些中间CoT风格的推理步骤嵌入输入,CoTasks使模型能够显式地执行以对象为中心的时空推理。在NeXT-QA基准测试上的实验表明,CoTasks显著提高了推理性能:LLaVA-video-7B的平均GPT-4评估得分提高了+3.3,Qwen2.5-VL-3B提高了+17.4,在因果、时间和描述子类别中均有大幅提升。这些结果证明了CoTasks作为一种结构化的CoT风格监督框架,在提高组合式视频推理方面的有效性。

🔬 方法详解

问题定义:现有VideoLLM在处理需要细粒度时空推理的复杂视频问题时表现不佳。它们通常依赖于高层视频-文本对进行训练,缺乏对视频中对象及其关系的显式建模和推理能力。这导致模型难以进行组合式的、逐步的推理,从而影响了其对视频内容的深入理解。现有方法的痛点在于缺乏结构化的标注和有效的训练策略,以引导模型学习对象级别的时空推理能力。

核心思路:CoTasks的核心思路是将复杂的视频问题分解为一系列更简单、更基础的实体级别任务,例如帧定位、实体跟踪和时空关系提取。通过显式地将这些中间推理步骤嵌入到模型的输入中,CoTasks引导模型逐步地进行推理,从而模拟人类的思维链过程。这种分解和显式建模的方法有助于模型更好地理解视频内容,并提高其推理的准确性和可靠性。

技术框架:CoTasks框架主要包含以下几个关键模块:1) 问题分解模块:将复杂的视频问题分解为一系列基础任务,例如帧定位、实体跟踪、时空关系提取等。2) 数据构建模块:基于现有的视频数据集(例如NeXT-QA、STAR),构建包含中间推理步骤的训练数据。这些数据包括视频帧、对象标注、时空关系描述等。3) 模型训练模块:使用构建好的训练数据,对VideoLLM进行微调。在训练过程中,模型需要预测每个中间推理步骤的输出,并最终回答原始的视频问题。

关键创新:CoTasks最重要的技术创新点在于其结构化的CoT风格监督框架。与传统的端到端训练方法不同,CoTasks通过显式地建模中间推理步骤,引导模型学习对象级别的时空推理能力。这种方法使得模型能够更好地理解视频内容,并提高其推理的准确性和可靠性。与现有方法的本质区别在于,CoTasks不是直接训练模型回答复杂问题,而是训练模型逐步地进行推理,从而模拟人类的思维链过程。

关键设计:CoTasks的关键设计包括:1) 任务分解策略:如何将复杂的视频问题分解为一系列基础任务。2) 数据构建方法:如何基于现有的视频数据集,构建包含中间推理步骤的训练数据。3) 模型训练策略:如何有效地利用构建好的训练数据,对VideoLLM进行微调。论文中使用了现有的数据集,并根据数据集的特性设计了相应的任务分解策略。例如,对于NeXT-QA数据集,论文将其分解为帧定位、实体跟踪、时空关系提取等任务。在模型训练方面,论文使用了交叉熵损失函数来训练模型预测每个中间推理步骤的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在NeXT-QA基准测试上,CoTasks显著提高了推理性能。LLaVA-video-7B的平均GPT-4评估得分提高了+3.3,Qwen2.5-VL-3B提高了+17.4。尤其是在因果、时间和描述子类别中,Qwen2.5-VL-3B分别获得了+14.6、+10.9和+48.1的显著提升。这些结果表明,CoTasks作为一种结构化的CoT风格监督框架,能够有效地提高组合式视频推理能力。

🎯 应用场景

CoTasks框架可应用于各种需要视频理解和推理的场景,例如智能监控、自动驾驶、视频搜索和机器人导航。通过提高VideoLLM在细粒度视频理解上的能力,CoTasks可以帮助机器更好地理解周围环境,并做出更明智的决策。未来,CoTasks可以进一步扩展到更复杂的视频推理任务,例如视频故事理解和视频生成。

📄 摘要(原文)

Despite recent progress in video large language models (VideoLLMs), a key open challenge remains: how to equip models with chain-of-thought (CoT) reasoning abilities grounded in fine-grained object-level video understanding. Existing instruction-tuned models, such as the Qwen and LLaVA series, are trained on high-level video-text pairs, often lacking structured annotations necessary for compositional, step-by-step reasoning. We propose CoTasks: Chain-of-Thought based Video Instruction Tuning Tasks, a new framework that decomposes complex video questions of existing datasets (e.g., NeXT-QA, STAR) into four entity-level foundational tasks: frame localization, entity tracking, spatial and temporal relation extraction. By embedding these intermediate CoT-style reasoning steps into the input, CoTasks enables models to explicitly perform object-centric spatiotemporal reasoning. Experiments on the NeXT-QA benchmark show that CoTasks significantly enhance inference performance: LLaVA-video-7B improves by +3.3 points in average GPT-4 evaluation score, and Qwen2.5-VL-3B gains +17.4, with large boosts in causal (+14.6), temporal (+10.9), and descriptive (+48.1) subcategories. These results demonstrate the effectiveness of CoTasks as a structured CoT-style supervision framework for improving compositional video reasoning.