Positional Preservation Embedding for Multimodal Large Language Models

📄 arXiv: 2510.22936v1 📥 PDF

作者: Mouxiao Huang, Borui Jiang, Dehua Zheng, Hailin Hu, Kai Han, Xinghao Chen

分类: cs.CV

发布日期: 2025-10-27


💡 一句话要点

提出位置保持嵌入PPE,提升多模态大语言模型视觉token压缩效率与性能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉token压缩 位置编码 时空结构保持 视觉语言理解

📋 核心要点

  1. 现有MLLM的token合并方法忽略位置关系,导致空间布局和时间连续性受损。
  2. 提出位置保持嵌入PPE,在token压缩时显式编码3D位置信息,保持时空结构。
  3. PPE在多个视觉-语言基准测试中提升2%-5%,验证了位置信息对MLLM的重要性。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉-语言任务上表现出色,但由于冗余的视觉tokens,效率通常较低。现有的token合并方法虽然减少了序列长度,但常常忽略位置关系,从而破坏了空间布局和时间连续性。本文提出了一种新的编码算子,称为位置保持嵌入(PPE),其主要特点是在视觉token压缩过程中保持时空结构。PPE显式地引入了token维度中3D位置的解耦编码,使每个压缩后的token能够封装来自多个原始token的不同位置信息。此外,我们证明了PPE可以有效地支持级联聚类——一种渐进式的token压缩策略,从而带来更好的性能保持。PPE是一种无参数且通用的算子,可以无缝集成到现有的token合并方法中,无需任何调整。应用于最先进的token合并框架,PPE在多个视觉-语言基准测试中实现了2%~5%的一致性改进,包括MMBench(通用视觉理解)、TextVQA(布局理解)和VideoMME(时间理解)。这些结果表明,保持位置线索对于高效和有效的MLLM推理至关重要。

🔬 方法详解

问题定义:多模态大语言模型在处理视觉信息时,通常需要将图像或视频转换为一系列视觉tokens。然而,这些tokens中存在大量冗余,导致计算效率低下。现有的token合并方法旨在减少tokens数量,但往往忽略了tokens之间的位置关系,破坏了图像的空间布局和视频的时间连续性,从而影响模型的性能。

核心思路:论文的核心思路是在token合并的过程中,显式地保留和利用tokens的位置信息。通过将位置信息编码到压缩后的token中,使得模型在处理压缩后的tokens时仍然能够感知原始图像或视频的空间和时间结构。这样可以在减少计算量的同时,保持模型的性能。

技术框架:PPE可以无缝集成到现有的token合并框架中。整体流程如下:首先,将图像或视频转换为视觉tokens。然后,使用现有的token合并方法对tokens进行压缩。在压缩过程中,PPE会显式地编码每个原始token的3D位置信息,并将这些位置信息嵌入到压缩后的token中。最后,将压缩后的tokens输入到MLLM中进行处理。PPE支持级联聚类,即多次迭代地进行token压缩,从而进一步提高效率。

关键创新:PPE最重要的创新点在于显式地编码和保留了tokens的位置信息。与现有的token合并方法相比,PPE能够更好地保持图像的空间布局和视频的时间连续性。此外,PPE是一种无参数的算子,可以很容易地集成到现有的框架中,无需任何调整。

关键设计:PPE的关键设计在于3D位置的解耦编码。对于每个原始token,PPE会将其在图像或视频中的3D位置(x, y, t)分别编码成三个独立的向量。然后,将这些向量与原始token的特征向量进行融合,得到包含位置信息的token表示。在token合并的过程中,PPE会将多个原始token的位置信息进行聚合,并将聚合后的位置信息嵌入到压缩后的token中。具体的位置编码方式和融合方式可以根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PPE在MMBench、TextVQA和VideoMME等多个视觉-语言基准测试中实现了2%~5%的一致性改进。例如,在MMBench上,PPE将模型的准确率从X%提高到Y%。这些结果表明,保持位置线索对于高效和有效的MLLM推理至关重要,PPE能够有效地提升MLLM的性能。

🎯 应用场景

该研究成果可广泛应用于需要处理视觉信息的MLLM应用中,例如图像描述、视觉问答、视频理解等。通过提高MLLM的效率和性能,可以降低计算成本,并提升用户体验。未来,该方法有望应用于自动驾驶、机器人导航等领域,实现更智能、更高效的视觉感知。

📄 摘要(原文)

Multimodal large language models (MLLMs) have achieved strong performance on vision-language tasks, yet often suffer from inefficiencies due to redundant visual tokens. Existing token merging methods reduce sequence length but frequently disrupt spatial layouts and temporal continuity by disregarding positional relationships. In this work, we propose a novel encoding operator dubbed as \textbf{P}ositional \textbf{P}reservation \textbf{E}mbedding (\textbf{PPE}), which has the main hallmark of preservation of spatiotemporal structure during visual token compression. PPE explicitly introduces the disentangled encoding of 3D positions in the token dimension, enabling each compressed token to encapsulate different positions from multiple original tokens. Furthermore, we show that PPE can effectively support cascade clustering -- a progressive token compression strategy that leads to better performance retention. PPE is a parameter-free and generic operator that can be seamlessly integrated into existing token merging methods without any adjustments. Applied to state-of-the-art token merging framework, PPE achieves consistent improvements of $2\%\sim5\%$ across multiple vision-language benchmarks, including MMBench (general vision understanding), TextVQA (layout understanding) and VideoMME (temporal understanding). These results demonstrate that preserving positional cues is critical for efficient and effective MLLM reasoning.