Enhancing Visual Token Representations for Video Large Language Models via Training-Free Spatial-Temporal Pooling and Gridding

作者: Bingjun Luo, Tony Wang, Hanqi Chen, Xinpeng Ding

分类: cs.AI, cs.CV

发布日期: 2026-05-21

备注: Accepted by ICLR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出ST-GridPool，一种免训练的视觉token增强方法，提升视频大语言模型性能。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 视觉token增强 时空池化 免训练方法 金字塔时间网格化

📋 核心要点

现有视频LLM压缩视觉token时，简单池化或插值忽略了视觉token的时空动态。
ST-GridPool通过金字塔时间网格化（PTG）和基于范数的空间池化（NSP）增强视觉token。
实验表明，ST-GridPool无需重新训练即可提升视频LLM性能，提供高效即插即用方案。

📝 摘要（中文）

多模态大语言模型（MLLMs）的最新进展显著推动了视频理解任务，但如何在有效压缩视觉token的同时保持时空交互仍然面临挑战。现有方法，如LLaVA系列，采用简单的池化或插值技术，忽略了视觉token的复杂动态。为了弥补这一差距，我们提出ST-GridPool，一种专为视频LLM设计的全新免训练视觉token增强方法。我们的方法集成了金字塔时间网格化（PTG），通过分层时间网格化捕获多粒度时空交互，以及基于范数的空间池化（NSP），通过利用token范数和语义丰富度之间的相关性来保留高信息视觉区域。在各种基准上的大量实验表明，ST-GridPool始终如一地增强视频LLM的性能，而无需昂贵的再训练。我们的方法为改进视觉token表示提供了一种高效且即插即用的解决方案。代码已开源。

🔬 方法详解

问题定义：视频大语言模型在处理视频数据时，需要将视频帧转换为视觉token。现有的方法，例如直接的pooling或者插值，在压缩视觉token的同时，会丢失重要的时空信息，导致模型性能下降。这些方法无法有效地捕捉视频中物体随时间变化的关系，以及不同空间位置之间的关联性。

核心思路：论文的核心思路是通过设计一种免训练的视觉token增强方法，在不增加模型训练负担的前提下，提升视觉token的质量。该方法通过金字塔时间网格化（PTG）来捕捉多粒度的时间信息，并利用基于范数的空间池化（NSP）来保留重要的空间信息。这样可以在压缩token的同时，尽可能地保留视频中的时空动态。

技术框架：ST-GridPool方法主要包含两个模块：金字塔时间网格化（PTG）和基于范数的空间池化（NSP）。首先，PTG模块将视频帧在时间维度上进行分层网格化，提取不同时间尺度的特征。然后，NSP模块根据token的范数来确定其重要性，并保留重要的空间区域。最后，将PTG和NSP的输出进行融合，得到增强后的视觉token。整个过程无需训练，可以即插即用。

关键创新：该方法最大的创新点在于提出了一种免训练的视觉token增强方案。与需要大量训练数据和计算资源的微调方法不同，ST-GridPool可以直接应用于现有的视频LLM，无需修改模型结构或重新训练。此外，PTG和NSP模块的设计也充分考虑了视频数据的时空特性，能够有效地捕捉视频中的动态信息。

关键设计：PTG模块采用多层级的网格划分，每一层级对应不同的时间尺度。NSP模块使用token的L2范数作为其重要性的度量，范数越大，表示该token包含的信息越丰富。在具体实现中，可以通过调整网格的数量和范数的阈值来控制信息保留的程度。损失函数方面，由于该方法是免训练的，因此不需要额外的损失函数。

🖼️ 关键图片

📊 实验亮点

ST-GridPool在多个视频理解基准测试中取得了显著的性能提升，而无需进行任何模型微调。实验结果表明，该方法能够有效地增强视觉token的表示能力，从而提高视频LLM的性能。具体的性能数据和对比基线可以在论文中找到。

🎯 应用场景

该研究成果可广泛应用于各种需要视频理解的多模态大语言模型中，例如视频问答、视频摘要、视频内容生成等。通过提升视觉token的质量，可以提高模型在这些任务上的性能，从而实现更智能、更高效的视频处理。此外，该方法无需训练的特性使其易于部署和应用，具有很高的实际价值。

📄 摘要（原文）

Recent advances in Multimodal Large Language Models (MLLMs) have significantly advanced video understanding tasks, yet challenges remain in efficiently compressing visual tokens while preserving spatiotemporal interactions. Existing methods, such as LLaVA family, utilize simplistic pooling or interpolation techniques that overlook the intricate dynamics of visual tokens. To bridge this gap, we propose ST-GridPool, a novel training-free visual token enhancement method designed specifically for Video LLMs. Our approach integrates Pyramid Temporal Gridding (PTG), which captures multi-grained spatiotemporal interactions through hierarchical temporal gridding, and Norm-based Spatial Pooling (NSP), which preserves high-information visual regions by leveraging the correlation between token norms and semantic richness. Extensive experiments on various benchmarks demonstrate that ST-GridPool consistently enhances performance of Video LLMs without requiring costly retraining. Our method offers an efficient and plug-and-play solution for improving visual token representations. Our code is available in https://github.com/bingjunluo/ST-GridPool.

Enhancing Visual Token Representations for Video Large Language Models via Training-Free Spatial-Temporal Pooling and Gridding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理