VTI-CoT: Visual-Textual Interleaved Chain of Thought for Video Reasoning

作者: Shufan Zhang, Ziyue Lin, Bairun Wang, Lei Jin, Xuanding Ding, Xinzhu Ma, Kunlin Yang

分类: cs.CV

发布日期: 2026-06-04

备注: 25 pages, 7 figures

💡 一句话要点

提出VTI-CoT以解决视频推理中的视觉信息缺失问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频推理 链式思维 视觉信息 多模态学习 OCR技术 自动化注释 推理准确性

📋 核心要点

现有基于链式思维的视频推理方法主要依赖文本信息，忽视了重要的视觉信息，导致推理准确性不足。
VTI-CoT框架将文本推理步骤与对应的视觉帧交错结合，充分利用视觉信息以增强推理能力。
实验结果显示，VTI-CoT在同参数规模的模型中达到了最先进的性能，并显著提升了训练效率。

📝 摘要（中文）

视频推理旨在理解视频中的复杂时间事件和因果关系。近期，链式思维（CoT）被引入以提高推理准确性。然而，现有基于CoT的视频推理方法主要依赖文本信息进行逻辑推导，忽视了推理过程中关键的视觉信息。受人类认知机制的启发，我们提出了VTI-CoT，一个视觉-文本交错的CoT框架。VTI-CoT将文本推理步骤与相应的视觉帧相结合。针对现有数据集中视觉-文本交错CoT的稀缺性，我们开发了一种自动化注释管道，以构建高质量的多模态CoT数据。此外，长视频推理需要处理越来越长的CoT令牌序列，这严重阻碍了训练的收敛性和效率。为此，我们采用基于光学字符识别（OCR）的压缩技术，将CoT监督信号压缩到一个单一画布上。实验结果表明，VTI-CoT在同参数规模的模型中实现了最先进的性能，同时显著提高了训练效率。

🔬 方法详解

问题定义：本论文旨在解决现有视频推理方法中对视觉信息的忽视，导致推理准确性不足的问题。现有方法主要依赖文本信息进行逻辑推导，未能有效利用视频中的视觉信息。

核心思路：VTI-CoT框架的核心思路是将文本推理步骤与相应的视觉帧交错结合，模拟人类在推理过程中对视觉信息的回顾，从而提升推理的准确性和效率。

技术框架：VTI-CoT的整体架构包括多个模块：首先是自动化注释管道，用于构建高质量的多模态CoT数据；其次是视觉-文本交错的推理过程，最后是基于OCR的信号压缩技术，以提高训练效率。

关键创新：VTI-CoT的主要创新在于视觉-文本交错的推理方式，突破了传统方法仅依赖文本信息的局限，能够更全面地利用视频信息进行推理。

关键设计：在关键设计方面，采用了OCR技术对CoT信号进行压缩，减少了长序列对训练收敛性的影响，同时确保了信息的完整性和有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VTI-CoT在同参数规模的模型中实现了最先进的性能，相较于基线模型，推理准确率提升了显著的幅度，且训练效率得到了显著改善，展示了其在视频推理任务中的优越性。

🎯 应用场景

该研究的潜在应用领域包括视频监控、自动驾驶、智能助手等，能够帮助系统更好地理解和推理复杂的时间事件，从而提升决策能力和响应速度。未来，VTI-CoT有望在多模态学习和人机交互等领域发挥重要作用。

📄 摘要（原文）

Video reasoning aims to understand complex temporal events and causal relationships within videos. Recently, Chain-of-Thought (CoT) has been introduced to this field to enhance reasoning accuracy. However, existing CoT-based video reasoning methods primarily rely on text-only information for logical deduction, overlooking critical visual information during the inference process. Inspired by the human cognitive mechanism of reviewing visual segments during inference, we propose VTI-CoT, a Visual-Textual Interleaved CoT framework. VTI-CoT integrates textual reasoning steps with corresponding visual frames. Given the scarcity of visual-textual interleaved CoT in existing datasets, we develop an automated annotation pipeline to construct high-quality multimodal CoT data. Further, reasoning over long-form videos entails increasingly long CoT token sequences, which severely hinders training convergence and efficiency. To address this, we employ Optical Character Recognition (OCR)-based compression techniques to compress CoT supervision signals into a single canvas. Experimental results demonstrate that VTI-CoT achieves state-of-the-art performance among models of the same parameter scale while significantly improving training efficiency.

VTI-CoT: Visual-Textual Interleaved Chain of Thought for Video Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理