Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging
作者: Zihang Fu, Haonan Wang, Jian Kang, Kenji Kawaguchi, Jiaying Wu
分类: cs.CV, cs.CL
发布日期: 2026-04-13
💡 一句话要点
提出MERIT,通过层选择模型融合恢复视频语言模型中的时间推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频语言模型 时间推理 模型融合 层选择 免训练
📋 核心要点
- 现有视频语言模型在多模态适配后,时间推理能力显著下降,视觉对齐损害了对连续事件的理解。
- MERIT通过在VLM和纯文本LLM之间进行层选择模型融合,在不重新训练的情况下恢复时间推理能力。
- 实验表明,MERIT在多个视频基准测试中,一致性地提升了时间推理能力,同时保持或提升了时间感知能力。
📝 摘要(中文)
多模态适配赋予大型语言模型(LLMs)感知能力,但通常会削弱其从纯语言预训练中继承的推理能力。这种权衡在视频语言模型(VLMs)中尤为明显,视觉对齐会损害对连续事件的时间推理(TR)。我们提出了MERIT,这是一个免训练、任务驱动的模型融合框架,用于恢复VLMs中的TR。MERIT通过在VLM及其配对的纯文本骨干网络之间搜索层级的自注意力融合方案,使用一个目标来改进TR,同时惩罚时间感知(TP)的退化。在三个具有代表性的VLM和多个具有挑战性的视频基准测试中,MERIT始终如一地改进了TR,保持或改进了TP,并且推广到搜索集之外的四个不同的基准测试。它也优于统一的完整模型融合和随机层选择,表明有效的恢复取决于选择正确的层。干预性掩蔽和帧级归因进一步表明,所选层对于推理异常重要,并将模型决策转移到时间上和因果相关的证据。这些结果表明,有针对性的、感知感知的模型融合可以有效地恢复VLM中的TR,而无需重新训练。
🔬 方法详解
问题定义:视频语言模型(VLMs)在融合视觉信息后,其固有的时间推理(TR)能力会受到损害。现有方法通常采用端到端训练,但这种方式难以在提升视觉感知的同时,保持甚至恢复模型原有的时间推理能力。因此,如何有效地在VLM中恢复TR能力,同时避免对时间感知(TP)产生负面影响,是一个关键问题。
核心思路:MERIT的核心思路是利用模型融合,将纯文本LLM中强大的时间推理能力迁移到VLM中。不同于传统的全模型融合,MERIT采用层选择的方式,只融合对TR有益的特定层,避免对TP产生负面影响。通过任务驱动的方式,自动搜索最佳的层融合方案,从而在TR和TP之间取得平衡。
技术框架:MERIT框架主要包含以下几个步骤:1) 选择一个预训练的VLM和一个对应的纯文本LLM;2) 定义一个搜索空间,即VLM和LLM之间哪些层可以进行融合;3) 设计一个目标函数,该函数同时考虑TR的提升和TP的保持;4) 使用搜索算法(如网格搜索)在搜索空间中寻找最佳的层融合方案;5) 将找到的最佳层融合方案应用到VLM中,得到最终的模型。
关键创新:MERIT的关键创新在于层选择的模型融合策略。它不同于传统的全模型融合,而是通过选择性地融合VLM和LLM的特定层,来实现TR能力的恢复。这种方法能够更精确地控制融合过程,避免对TP产生负面影响。此外,MERIT采用任务驱动的搜索方式,能够自动找到最佳的层融合方案,无需人工干预。
关键设计:MERIT的关键设计包括:1) 层选择策略:允许选择VLM和LLM的不同层进行融合;2) 目标函数:同时考虑TR的提升和TP的保持,通过加权的方式平衡两者;3) 搜索算法:采用网格搜索等算法在搜索空间中寻找最佳的层融合方案;4) 自注意力融合:在选定的层之间,融合自注意力机制,从而将LLM的时间推理能力迁移到VLM中。
🖼️ 关键图片
📊 实验亮点
MERIT在多个具有挑战性的视频基准测试中取得了显著的性能提升。例如,在某些基准测试中,MERIT将时间推理能力提高了10%以上,同时保持或提升了时间感知能力。此外,MERIT还优于统一的完整模型融合和随机层选择,证明了层选择策略的有效性。更重要的是,MERIT具有良好的泛化能力,能够推广到搜索集之外的基准测试。
🎯 应用场景
MERIT具有广泛的应用前景,可用于提升各种视频理解任务的性能,例如视频问答、视频摘要、动作识别等。通过恢复VLM的时间推理能力,可以使模型更好地理解视频中的事件序列和因果关系,从而提高其在复杂场景下的表现。此外,MERIT的免训练特性使其易于部署和应用,无需额外的训练成本。
📄 摘要(原文)
Multimodal adaptation equips large language models (LLMs) with perceptual capabilities, but often weakens the reasoning ability inherited from language-only pretraining. This trade-off is especially pronounced in video-language models (VLMs), where visual alignment can impair temporal reasoning (TR) over sequential events. We propose MERIT, a training-free, task-driven model merging framework for restoring TR in VLMs. MERIT searches over layer-wise self-attention merging recipes between a VLM and its paired text-only backbone using an objective that improves TR while penalizing degradation in temporal perception (TP). Across three representative VLMs and multiple challenging video benchmarks, MERIT consistently improves TR, preserves or improves TP, and generalizes beyond the search set to four distinct benchmarks. It also outperforms uniform full-model merging and random layer selection, showing that effective recovery depends on selecting the right layers. Interventional masking and frame-level attribution further show that the selected layers are disproportionately important for reasoning and shift model decisions toward temporally and causally relevant evidence. These results show that targeted, perception-aware model merging can effectively restore TR in VLMs without retraining.