POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs

📄 arXiv: 2604.11627v1 📥 PDF

作者: Haicheng Wang, Yuan Liu, Yikun Liu, Zhemeng Yu, Zhongyin Zhao, Yangxiu You, Zilin Yu, Le Tian, Xiao Zhou, Jie Zhou, Weidi Xie, Yanfeng Wang

分类: cs.CV

发布日期: 2026-04-13


💡 一句话要点

POINTS-Long:提出双模态视觉推理MLLM,解决长视频和流媒体场景下的视觉token扩展性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 长视频理解 视觉推理 动态token缩放 流式视觉理解

📋 核心要点

  1. 现有MLLM在长视频等场景中面临视觉token序列过长导致的可扩展性瓶颈。
  2. POINTS-Long采用双模态视觉感知,动态调整视觉token数量,平衡效率与精度。
  3. 实验表明,在保证较高准确率的同时,显著减少了视觉token的使用量,并支持流式视觉理解。

📝 摘要(中文)

多模态大型语言模型(MLLM)最近在跨模态理解和生成方面表现出了卓越的能力。然而,视觉token序列的快速增长——尤其是在长视频和流媒体场景中——对它们的可扩展性和实际部署提出了重大挑战。因此,我们引入了POINTS-Long,这是一种原生的双模态MLLM,具有受人类视觉系统启发的动态视觉token缩放功能。该模型支持两种互补的感知模式:聚焦模式和待机模式,使用户能够在推理过程中动态地权衡效率和准确性。在细粒度的视觉任务中,聚焦模式保持最佳性能,而在长格式的通用视觉理解中,待机模式仅使用1/40-1/10的视觉token即可保持原始准确率的97.7-99.7%。此外,POINTS-Long通过动态可分离的KV-cache设计,原生支持流式视觉理解,从而能够高效地维护超长视觉记忆。我们的工作为未来MLLM的设计提供了新的见解,并为自适应和高效的长格式视觉理解奠定了基础。

🔬 方法详解

问题定义:现有MLLM在处理长视频和流媒体等场景时,由于视觉token序列过长,导致计算和存储成本显著增加,限制了其可扩展性和实际应用。现有的方法难以在效率和精度之间取得平衡,无法满足长时序视觉理解的需求。

核心思路:POINTS-Long的核心思路是模拟人类视觉系统,采用双模态感知机制:聚焦模式和待机模式。聚焦模式用于处理需要高精度的细粒度视觉任务,而待机模式则通过减少视觉token的数量,降低计算成本,适用于长时序的通用视觉理解。通过动态切换两种模式,实现效率和精度的自适应平衡。

技术框架:POINTS-Long的整体架构包含视觉编码器、双模态适配器和语言模型。视觉编码器将输入图像或视频帧转换为视觉token序列。双模态适配器将视觉token与文本token对齐,并输入到语言模型中进行推理。关键在于双模态适配器,它实现了聚焦模式和待机模式的切换,并动态调整视觉token的数量。此外,该模型还采用了动态可分离的KV-cache设计,以支持流式视觉理解。

关键创新:POINTS-Long的关键创新在于其双模态视觉感知机制和动态视觉token缩放策略。与传统的固定数量视觉token的方法不同,POINTS-Long可以根据任务需求动态调整视觉token的数量,从而在效率和精度之间取得更好的平衡。此外,动态可分离的KV-cache设计使得模型能够高效地处理超长视觉序列,支持流式视觉理解。

关键设计:在待机模式下,POINTS-Long采用了一种基于重要性采样的视觉token选择策略,选择最具代表性的视觉token进行处理。具体而言,可以通过计算每个视觉token的注意力权重或梯度来评估其重要性。此外,动态可分离的KV-cache设计允许模型在处理新的视觉帧时,只更新相关的KV-cache部分,而无需重新计算整个序列,从而显著提高了效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在长格式的通用视觉理解任务中,POINTS-Long的待机模式仅使用1/40-1/10的视觉token即可保持原始准确率的97.7-99.7%。此外,该模型在流式视觉理解任务中表现出色,能够高效地处理超长视觉序列,并实现实时推理。这些结果表明,POINTS-Long在效率和精度之间取得了良好的平衡。

🎯 应用场景

POINTS-Long在长视频分析、智能监控、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于高效地理解长时序的视觉信息,例如视频内容摘要、异常事件检测、场景理解等。通过降低计算成本,POINTS-Long可以部署在资源受限的设备上,实现边缘计算和实时推理。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable capabilities in cross-modal understanding and generation. However, the rapid growth of visual token sequences--especially in long-video and streaming scenarios--poses a major challenge to their scalability and real-world deployment. Thus, we introduce POINTS-Long, a native dual-mode MLLM featuring dynamic visual token scaling inspired by the human visual system. The model supports two complementary perception modes: focus mode and standby mode, enabling users to dynamically trade off efficiency and accuracy during inference. On fine-grained visual tasks, the focus mode retains the optimal performance, while on long-form general visual understanding, the standby mode retains 97.7-99.7% of the original accuracy using only 1/40-1/10th of the visual tokens. Moreover, POINTS-Long natively supports streaming visual understanding via a dynamically detachable KV-cache design, allowing efficient maintenance of ultra-long visual memory. Our work provides new insights into the design of future MLLMs and lays the foundation for adaptive and efficient long-form visual understanding.