VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization
作者: Junhao Cheng, Liang Hou, Tianxiong Zhong, Xin Tao, Pengfei Wan, Kun Gai, Jing Liao
分类: cs.CV
发布日期: 2026-06-01
备注: Project Page: https://VLM-as-Teacher.github.io/
💡 一句话要点
提出基于VLM教师的自适应测试时优化方法,提升视频推理能力
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频推理 视觉语言模型 测试时优化 视频生成模型 知识蒸馏 自适应学习
📋 核心要点
- 现有视频推理方法依赖VGM生成视频,但VGM难以理解任务规则,导致逻辑错误。
- 论文提出将VLM作为教师,提取任务规则并生成奖励,通过测试时优化指导VGM。
- 实验表明,该方法在视频推理基准上显著优于现有方法,提升了16.7个百分点。
📝 摘要(中文)
本文提出了一种新的“视频推理”范式,利用视频生成模型(VGMs)生成时间上连贯的视觉轨迹来完成推理任务。尽管最先进的VGMs在视觉质量方面表现出色,但它们通常难以理解和遵循特定任务的规则,导致各种推理场景中出现逻辑错误。现有方法尝试利用视觉-语言模型(VLMs)作为问题预解决器,为VGM生成或改进文本指导。然而,文本描述无法捕捉复杂的时空细节,即使有有效的计划,VGMs也常常难以忠实地执行细粒度或长尾指令。本文将VLMs的角色转变为“教师”,利用其强大的感知能力来评估过程约束的满足情况和最终目标的实现情况,提取任务特定规则以制定可微分的奖励,通过测试时在线优化轻量级LoRA模块来指导VGM推理器。在符号(VBVR-Bench)和通用(RULER-Bench)视频推理基准上的评估表明,该方法产生了16.7个百分点的平均性能提升,大大优于VLM-as-Solver范式(+0.4个百分点)和Best-of-N缩放(+2.2个百分点)。
🔬 方法详解
问题定义:现有基于视频生成模型(VGM)的视频推理方法,虽然在视觉质量上表现良好,但难以理解和遵循特定任务的规则,导致在复杂推理场景中出现逻辑错误。现有方法尝试使用视觉-语言模型(VLM)生成文本指导,但文本难以捕捉细粒度的时空信息,VGM难以准确执行。
核心思路:将VLM的角色从问题解决者转变为教师,利用VLM强大的感知能力来评估VGM生成的视频是否满足任务规则和最终目标。通过VLM提取任务特定的规则,并将其转化为可微分的奖励信号,用于指导VGM在测试时进行在线优化。
技术框架:整体框架包含一个VGM Reasoner和一个VLM Teacher。VGM Reasoner负责生成视频轨迹,VLM Teacher负责评估生成的视频并提供奖励信号。通过测试时优化,VGM Reasoner根据VLM Teacher的反馈不断调整自身参数,以生成更符合任务要求的视频。具体来说,使用一个轻量级的LoRA模块来调整VGM,降低计算成本。
关键创新:核心创新在于将VLM的角色从问题解决者转变为教师,利用VLM的感知能力来指导VGM的推理过程。与现有方法相比,该方法不需要VLM直接生成解决方案,而是通过奖励信号来引导VGM学习任务规则,从而提高了推理的泛化能力。
关键设计:VLM Teacher通过分析视频帧和任务描述,提取任务相关的规则,并将其转化为可微分的奖励函数。奖励函数的设计需要仔细考虑,以确保能够准确反映任务的要求。使用LoRA(Low-Rank Adaptation)来微调VGM,LoRA通过学习低秩矩阵来更新VGM的权重,从而减少了需要训练的参数量,提高了训练效率。具体损失函数未知,但应包含对过程约束满足和最终目标达成的奖励项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在VBVR-Bench和RULER-Bench两个视频推理基准上取得了显著的性能提升,平均性能提升了16.7个百分点,大幅优于VLM-as-Solver范式(+0.4个百分点)和Best-of-N缩放(+2.2个百分点)。这表明将VLM作为测试时教师是一种很有前途的视频推理范式。
🎯 应用场景
该研究成果可应用于机器人导航、智能监控、游戏AI等领域。例如,在机器人导航中,VLM教师可以指导机器人学习复杂的导航规则,使其能够安全有效地到达目的地。在智能监控中,VLM教师可以帮助识别异常行为,提高监控系统的智能化水平。该方法有望推动视频理解和推理技术的发展,实现更智能化的应用。
📄 摘要(原文)
The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/