VTI-CoT: Visual-Textual Interleaved Chain of Thought for Video Reasoning

📄 arXiv: 2606.05736v1 📥 PDF

作者: Shufan Zhang, Ziyue Lin, Bairun Wang, Lei Jin, Xuanding Ding, Xinzhu Ma, Kunlin Yang

分类: cs.CV

发布日期: 2026-06-04

备注: 25 pages, 7 figures


💡 一句话要点

提出VTI-CoT以解决视频推理中的视觉信息缺失问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频推理 链式思维 视觉信息 多模态学习 OCR技术 自动化注释 推理准确性

📋 核心要点

  1. 现有基于链式思维的视频推理方法主要依赖文本信息,忽视了重要的视觉信息,导致推理准确性不足。
  2. VTI-CoT框架将文本推理步骤与对应的视觉帧交错结合,充分利用视觉信息以增强推理能力。
  3. 实验结果显示,VTI-CoT在同参数规模的模型中达到了最先进的性能,并显著提升了训练效率。

📝 摘要(中文)

视频推理旨在理解视频中的复杂时间事件和因果关系。近期,链式思维(CoT)被引入以提高推理准确性。然而,现有基于CoT的视频推理方法主要依赖文本信息进行逻辑推导,忽视了推理过程中关键的视觉信息。受人类认知机制的启发,我们提出了VTI-CoT,一个视觉-文本交错的CoT框架。VTI-CoT将文本推理步骤与相应的视觉帧相结合。针对现有数据集中视觉-文本交错CoT的稀缺性,我们开发了一种自动化注释管道,以构建高质量的多模态CoT数据。此外,长视频推理需要处理越来越长的CoT令牌序列,这严重阻碍了训练的收敛性和效率。为此,我们采用基于光学字符识别(OCR)的压缩技术,将CoT监督信号压缩到一个单一画布上。实验结果表明,VTI-CoT在同参数规模的模型中实现了最先进的性能,同时显著提高了训练效率。

🔬 方法详解

问题定义:本论文旨在解决现有视频推理方法中对视觉信息的忽视,导致推理准确性不足的问题。现有方法主要依赖文本信息进行逻辑推导,未能有效利用视频中的视觉信息。

核心思路:VTI-CoT框架的核心思路是将文本推理步骤与相应的视觉帧交错结合,模拟人类在推理过程中对视觉信息的回顾,从而提升推理的准确性和效率。

技术框架:VTI-CoT的整体架构包括多个模块:首先是自动化注释管道,用于构建高质量的多模态CoT数据;其次是视觉-文本交错的推理过程,最后是基于OCR的信号压缩技术,以提高训练效率。

关键创新:VTI-CoT的主要创新在于视觉-文本交错的推理方式,突破了传统方法仅依赖文本信息的局限,能够更全面地利用视频信息进行推理。

关键设计:在关键设计方面,采用了OCR技术对CoT信号进行压缩,减少了长序列对训练收敛性的影响,同时确保了信息的完整性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VTI-CoT在同参数规模的模型中实现了最先进的性能,相较于基线模型,推理准确率提升了显著的幅度,且训练效率得到了显著改善,展示了其在视频推理任务中的优越性。

🎯 应用场景

该研究的潜在应用领域包括视频监控、自动驾驶、智能助手等,能够帮助系统更好地理解和推理复杂的时间事件,从而提升决策能力和响应速度。未来,VTI-CoT有望在多模态学习和人机交互等领域发挥重要作用。

📄 摘要(原文)

Video reasoning aims to understand complex temporal events and causal relationships within videos. Recently, Chain-of-Thought (CoT) has been introduced to this field to enhance reasoning accuracy. However, existing CoT-based video reasoning methods primarily rely on text-only information for logical deduction, overlooking critical visual information during the inference process. Inspired by the human cognitive mechanism of reviewing visual segments during inference, we propose VTI-CoT, a Visual-Textual Interleaved CoT framework. VTI-CoT integrates textual reasoning steps with corresponding visual frames. Given the scarcity of visual-textual interleaved CoT in existing datasets, we develop an automated annotation pipeline to construct high-quality multimodal CoT data. Further, reasoning over long-form videos entails increasingly long CoT token sequences, which severely hinders training convergence and efficiency. To address this, we employ Optical Character Recognition (OCR)-based compression techniques to compress CoT supervision signals into a single canvas. Experimental results demonstrate that VTI-CoT achieves state-of-the-art performance among models of the same parameter scale while significantly improving training efficiency.