Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

作者: Yolo Y. Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Junhua Huang, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu

分类: cs.CV

发布日期: 2025-10-06 (更新: 2025-11-25)

备注: Version v1.1

🔗 代码/项目: GITHUB

💡 一句话要点

首个Video-LMM后训练综述：深入探讨基于大型多模态模型的视频推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频理解 大型多模态模型 后训练 监督微调 强化学习 测试时缩放 时空推理 多模态融合

📋 核心要点

现有Video-LMM后训练方法分散，缺乏系统性研究，阻碍了模型推理能力的提升。
本文对Video-LMM后训练方法进行全面综述，涵盖监督微调、强化学习和测试时缩放三大支柱。
通过分析现有方法，总结设计原则和评估协议，并指出奖励设计、可扩展性等关键挑战。

📝 摘要（中文）

视频理解是计算机视觉领域最具挑战性的前沿方向，它要求模型能够推理复杂的时空关系、长期依赖和多模态证据。近年来，涌现出的视频大型多模态模型（Video-LMMs）集成了视觉编码器和强大的基于解码器的语言模型，在视频理解任务中展现出了卓越的能力。然而，将这些模型从基本的感知系统转变为复杂的推理引擎的关键阶段——后训练，在文献中仍然是分散的。本综述首次全面考察了Video-LMMs的后训练方法，涵盖了三个基本支柱：基于思维链的监督微调（SFT）、基于可验证目标的强化学习（RL）以及通过增强推理计算实现的测试时缩放（TTS）。我们提出了一个结构化的分类法，阐明了这些技术的作用、相互联系和特定于视频的调整，解决了诸如时间定位、时空 grounding、长视频效率和多模态证据集成等独特挑战。通过对代表性方法的系统分析，我们综合了关键的设计原则、见解和评估协议，同时识别了奖励设计、可扩展性和成本-性能优化方面的关键开放挑战。我们进一步整理了必要的基准、数据集和指标，以促进对后训练有效性的严格评估。本综述旨在为研究人员和从业人员提供一个统一的框架，以提升Video-LMM的能力。

🔬 方法详解

问题定义：Video-LMMs虽然在视频理解任务中表现出潜力，但如何有效地进行后训练，使其具备更强的推理能力，仍然是一个挑战。现有的后训练方法较为分散，缺乏统一的框架和深入的分析，难以指导研究人员和从业者进行模型优化。此外，视频理解任务本身也带来了独特的挑战，例如时间定位、时空 grounding、长视频处理和多模态信息融合等。

核心思路：本文的核心思路是对现有的Video-LMM后训练方法进行系统性的梳理和分析，将其归纳为三个基本支柱：监督微调（SFT）、强化学习（RL）和测试时缩放（TTS）。通过对每个支柱下的代表性方法进行深入研究，总结出关键的设计原则、见解和评估协议，并识别出当前研究的瓶颈和未来的发展方向。

技术框架：本文的框架主要围绕Video-LMM后训练的三个支柱展开。首先，介绍基于思维链的监督微调（SFT），通过人工标注或模型生成的方式，为模型提供推理过程的中间步骤，从而提高模型的推理能力。其次，探讨基于可验证目标的强化学习（RL），通过设计合适的奖励函数，引导模型学习符合人类期望的行为。最后，研究测试时缩放（TTS）技术，通过增加计算资源或采用更高效的推理算法，提高模型在实际应用中的性能。

关键创新：本文的主要创新在于对Video-LMM后训练方法进行了首次全面的综述，并提出了一个结构化的分类法，将现有方法归纳为三个基本支柱。此外，本文还对每个支柱下的代表性方法进行了深入分析，总结出关键的设计原则、见解和评估协议，为研究人员和从业者提供了有价值的参考。

关键设计：本文重点关注后训练方法的设计，例如SFT中思维链的构建、RL中奖励函数的设计以及TTS中计算资源的分配等。此外，本文还强调了视频理解任务的特殊性，例如时间定位、时空 grounding、长视频处理和多模态信息融合等，并针对这些挑战提出了相应的解决方案。

🖼️ 关键图片

📊 实验亮点

本文对Video-LMM后训练方法进行了系统性的分析和总结，为研究人员和从业者提供了一个统一的框架。通过对代表性方法的深入研究，本文总结出关键的设计原则、见解和评估协议，并识别出奖励设计、可扩展性和成本-性能优化等关键开放挑战。此外，本文还整理了必要的基准、数据集和指标，为后续研究提供了有力的支持。

🎯 应用场景

该研究成果可广泛应用于智能监控、自动驾驶、视频搜索、智能客服等领域。通过提升Video-LMM的推理能力，可以实现更精准的事件检测、更安全的驾驶辅助、更高效的视频检索和更智能的客户服务。未来，该研究有望推动视频理解技术的发展，为人们的生活带来更多便利。

📄 摘要（原文）

Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理