RCoT-Seg: Reinforced Chain-of-Thought for Video Reasoning and Segmentation

📄 arXiv: 2605.07334v1 📥 PDF

作者: Junwei Wen, Deshui Miao, Guangming Lu, Xin Li, Wenjie Pei

分类: cs.CV

发布日期: 2026-05-08

备注: 21 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出RCoT-Seg框架,通过强化思维链实现视频推理与目标分割的解耦与优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频推理分割 思维链 强化学习 多模态大模型 关键帧选择 时空一致性

📋 核心要点

  1. 现有VRS方法依赖启发式采样或辅助模型,导致关键帧选择偏差,难以处理复杂多目标场景下的时间逻辑推理。
  2. 提出RCoT-Seg框架,将任务解耦为时间视频推理(TVR)与关键帧目标感知(KTP),通过强化学习优化关键帧选择。
  3. 实验表明,该方法显著提升了视频理解的准确性与跨帧一致性,在多项基准测试中达到了领先水平。

📝 摘要(中文)

视频推理分割(VRS)旨在根据隐含人类意图和时间逻辑的指令对视频中的目标进行分割。现有的基于多模态大语言模型(MLLM)的方法通常在通过简单采样或辅助模型选择帧后,利用[SEG]标记预测掩码。然而,有限的监督和基于帧语言相似度的启发式规则往往导致关键帧选择范围狭窄,削弱了对视频整体时间逻辑的理解,并在复杂多目标场景中导致定位脆弱。为此,本文提出了RCoT-Seg,这是一个视频思维链框架,将VRS分解为时间视频推理(TVR)和关键帧目标感知(KTP)两个阶段,明确将时间推理与空间感知分离。在TVR阶段,通过经CoT语料库初始化并由GRPO强化学习算法优化的智能体关键帧选择模块,实现关键帧的生成与自评估重选。在KTP阶段,利用SAM2进行高分辨率分割并进行跨帧掩码传播。实验结果表明,RCoT-Seg在性能上优于现有主流方法。

🔬 方法详解

问题定义:VRS任务的核心挑战在于如何从长视频中精准定位与人类指令意图高度相关的关键帧,并克服现有方法中因采样策略单一导致的对复杂时间逻辑理解不足的问题。

核心思路:论文提出将任务解耦,通过“视频思维链”显式分离时间推理与空间感知。利用强化学习(GRPO)训练智能体,使其具备自主评估和选择关键帧的能力,从而替代传统的启发式采样。

技术框架:框架分为两个阶段:TVR阶段利用智能体进行关键帧推理与自评估选择;KTP阶段基于选定帧进行高分辨率分割,并结合SAM2进行掩码传播,确保时空一致性。

关键创新:引入了基于GRPO(Group Relative Policy Optimization)的强化学习策略来优化关键帧选择过程,并结合CoT(思维链)机制增强了模型对视频时间动态的逻辑推理能力。

关键设计:采用了任务对齐的奖励函数(Task-aligned rewards)来指导智能体学习,并利用SAM2作为空间感知引擎,实现了从单帧定位到全视频分割的稳健迁移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RCoT-Seg在多个VRS基准测试中表现优异,显著超越了现有的MLLM基线方法。实验数据表明,通过引入强化学习优化的关键帧选择策略,模型在复杂多目标场景下的定位精度和时空一致性均有显著提升,证明了将时间推理与空间感知解耦设计的有效性。

🎯 应用场景

该技术在智能视频监控、自动驾驶场景理解、人机交互视频分析以及影视内容自动剪辑等领域具有广泛应用价值。通过精准的时间逻辑推理,它能有效提升系统在复杂动态环境中对特定目标行为的识别与追踪能力,为视频理解任务提供更具鲁棒性的解决方案。

📄 摘要(原文)

Video Reasoning Segmentation (VRS) aims to segment target objects in videos based on implicit instructions that convey human intent and temporal logic. Existing MLLM-based methods predict masks with a [SEG] token after selecting frames via simple sampling or an auxiliary MLLM, where limited supervision and frame-language similarity rules often yield narrow-scope keyframe choices that weaken holistic temporal understanding and lead to brittle localization in complex multi-object scenes. To address these issues, we introduce RCoT-Seg, a video-of-thought framework that factorizes VRS into temporal video reasoning (TVR) and keyframe target perception (KTP), explicitly separating temporal reasoning from spatial perception. Specifically, in the TVR stage, an agentic keyframe selection module, initialized with a curated CoT-start corpus and refined by GRPO under task-aligned rewards, is proposed to generate and reselect the keyframe through self-evaluation, strengthening moment localization and temporal reasoning. In the KTP stage, RCoT-Seg performs high-resolution segmentation on the selected frame and propagates masks with SAM2-based methods across the sequence, replacing heuristic sampling and external selectors while improving spatial precision and inter-frame consistency. Extensive experimental results demonstrate that the proposed RCoT-Seg achieves favorable performance against the state-of-the-art methods. The code and models will be publicly released at https://github.com/Victor-wjw/RCoT-Seg.