CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating

作者: Jiyuan Wang, Huan Ouyang, Jiuzhou Lin, Chunyu Lin, Dewen Fan, Boheng Zhang, Haonan Fan, Fei Zuo, Jia Sun, Huaiqing Wang, Honglie Wang, Yiyang Fan, Zhenlong Yuan, Zijun Li, Yongrui Heng, Guosheng Lin, Fan Yang, Tingting Gao

分类: cs.CV, cs.AI

发布日期: 2026-05-12

备注: 27 pages, 10 figures

💡 一句话要点

提出基于视觉-语言模型的CaC框架，用于提升视频异常检测的准确性和可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 视觉-语言模型 时空聚焦 强化学习 奖励塑造 思维链推理 异常定位

📋 核心要点

现有视频异常检测方法缺乏对异常时空位置的精确定位和解释能力。
CaC通过全局时间扫描和细粒度空间定位，结合时空思维链推理，实现更准确的异常判断。
实验表明，CaC在细粒度异常检测上提升显著，并能有效减少生成视频中的异常。

📝 摘要（中文）

本文提出了一种名为“Concentrate and Concentrate (CaC)”的基于视觉-语言模型由粗到精的异常奖励模型。在推理过程中，它首先进行全局时间扫描以锚定异常时间窗口，然后在局部区间内执行细粒度的空间定位，最后通过结构化的时空思维链推理得出可靠的判断。为了使模型具备这些能力，我们构建了第一个大规模生成的视频异常数据集，其中包含逐帧边界框注释、时间异常窗口和细粒度的属性标签。基于该数据集，我们设计了一个三阶段渐进式训练范例。该模型最初通过单帧和多帧监督微调学习空间和时间锚定，然后通过基于双轮组相对策略优化（GRPO）的强化学习策略进行优化。除了传统的准确性奖励之外，我们还引入了时间和空间IoU奖励来监督中间定位过程，有效地引导模型进行更扎实和可解释的时空推理。大量实验表明，CaC可以稳定地集中在细微的异常上，在细粒度异常基准测试中实现了25.7%的准确性提升，并且当用作奖励信号时，CaC可减少生成的视频异常11.7%，同时提高整体视频质量。

🔬 方法详解

问题定义：现有视频异常检测方法通常难以精确定位异常发生的时空位置，并且缺乏对异常原因的解释能力。这限制了模型的可信度和实际应用价值。此外，缺乏大规模、带有精细标注（如逐帧边界框）的异常视频数据集，也阻碍了相关研究的进展。

核心思路：CaC的核心思路是采用一种由粗到精的时空聚焦机制。首先，通过全局时间扫描快速定位包含异常的时间窗口；然后，在这些时间窗口内进行细粒度的空间定位，找出具体的异常区域。最后，利用结构化的时空思维链推理，对异常进行判断和解释。这种分层聚焦的方式能够有效提高检测精度和可解释性。

技术框架：CaC的整体框架包含三个主要阶段：1) 时空锚定：通过单帧和多帧监督微调，学习空间和时间上的异常定位能力。2) 强化学习优化：利用基于双轮组相对策略优化（GRPO）的强化学习策略，进一步提升模型的性能。3) 奖励塑造：除了传统的准确性奖励，还引入了时间和空间IoU奖励，以监督中间定位过程。整个流程旨在引导模型进行更扎实和可解释的时空推理。

关键创新：CaC的关键创新在于其分层时空聚焦机制和奖励塑造策略。与传统的端到端异常检测方法不同，CaC显式地建模了异常的时空定位过程，并通过IoU奖励来监督中间步骤，从而提高了模型的可解释性和鲁棒性。此外，构建了大规模的带有精细标注的异常视频数据集，为模型的训练和评估提供了有力支持。

关键设计：在时空锚定阶段，使用了视觉-语言模型作为基础架构，并针对异常检测任务进行了微调。在强化学习阶段，采用了双轮组相对策略优化（GRPO）算法，以提高训练的稳定性和效率。时间和空间IoU奖励的设计，旨在引导模型关注异常区域的定位精度。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

CaC在细粒度异常基准测试中实现了25.7%的准确性提升。当用作奖励信号时，CaC可减少生成的视频异常11.7%，同时提高整体视频质量。这些实验结果表明，CaC能够有效地集中在细微的异常上，并显著提升视频异常检测的性能。

🎯 应用场景

CaC在视频监控、自动驾驶、医疗影像分析等领域具有广泛的应用前景。它可以用于检测异常事件、识别危险行为、辅助疾病诊断等。通过提供准确的异常定位和解释，CaC能够提高相关系统的智能化水平和可靠性，具有重要的实际应用价值。

📄 摘要（原文）

In this paper, we propose Concentrate and Concentrate (CaC), a coarse-to-fine anomaly reward model based on Vision-Language Models. During inference, it first conducts a global temporal scan to anchor anomalous time windows, then performs fine-grained spatial grounding within the localized interval, and finally derives robust judgments via structured spatiotemporal Chain-of-Thought reasoning. To equip the model with these capabilities, we construct the first large-scale generated video anomaly dataset with per-frame bounding-box annotations, temporal anomaly windows, and fine-grained attribution labels. Building on this dataset, we design a three-stage progressive training paradigm. The model initially learns spatial and temporal anchoring through single- and multi-frame supervised fine-tuning, and then is optimized by a reinforcement learning strategy based on two-turn Group Relative Policy Optimization (GRPO). Beyond conventional accuracy rewards, we introduce Temporal and Spatial IoU rewards to supervise the intermediate localization process, effectively guiding the model toward more grounded and interpretable spatiotemporal reasoning. Extensive experiments demonstrate that CaC can stably concentrate on subtle anomalies, achieving a 25.7% accuracy improvement on fine-grained anomaly benchmarks and, when used as a reward signal, CaC reduces generated-video anomalies by 11.7% while improving overall video quality.

CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理