POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs

作者: Haicheng Wang, Yuan Liu, Yikun Liu, Zhemeng Yu, Zhongyin Zhao, Yangxiu You, Zilin Yu, Le Tian, Xiao Zhou, Jie Zhou, Weidi Xie, Yanfeng Wang

分类: cs.CV

发布日期: 2026-04-13

💡 一句话要点

POINTS-Long：提出双模态视觉推理MLLM，解决长视频和流媒体场景下的视觉token扩展性问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 长视频理解 视觉推理 动态token缩放 流式视觉理解

📋 核心要点

现有MLLM在长视频等场景中面临视觉token序列过长导致的可扩展性瓶颈。
POINTS-Long采用双模态视觉感知，动态调整视觉token数量，平衡效率与精度。
实验表明，在保证较高准确率的同时，显著减少了视觉token的使用量，并支持流式视觉理解。

📝 摘要（中文）

多模态大型语言模型(MLLM)最近在跨模态理解和生成方面表现出了卓越的能力。然而，视觉token序列的快速增长——尤其是在长视频和流媒体场景中——对它们的可扩展性和实际部署提出了重大挑战。因此，我们引入了POINTS-Long，这是一种原生的双模态MLLM，具有受人类视觉系统启发的动态视觉token缩放功能。该模型支持两种互补的感知模式：聚焦模式和待机模式，使用户能够在推理过程中动态地权衡效率和准确性。在细粒度的视觉任务中，聚焦模式保持最佳性能，而在长格式的通用视觉理解中，待机模式仅使用1/40-1/10的视觉token即可保持原始准确率的97.7-99.7%。此外，POINTS-Long通过动态可分离的KV-cache设计，原生支持流式视觉理解，从而能够高效地维护超长视觉记忆。我们的工作为未来MLLM的设计提供了新的见解，并为自适应和高效的长格式视觉理解奠定了基础。

🔬 方法详解

问题定义：现有MLLM在处理长视频和流媒体等场景时，由于视觉token序列过长，导致计算和存储成本显著增加，限制了其可扩展性和实际应用。现有的方法难以在效率和精度之间取得平衡，无法满足长时序视觉理解的需求。

核心思路：POINTS-Long的核心思路是模拟人类视觉系统，采用双模态感知机制：聚焦模式和待机模式。聚焦模式用于处理需要高精度的细粒度视觉任务，而待机模式则通过减少视觉token的数量，降低计算成本，适用于长时序的通用视觉理解。通过动态切换两种模式，实现效率和精度的自适应平衡。

技术框架：POINTS-Long的整体架构包含视觉编码器、双模态适配器和语言模型。视觉编码器将输入图像或视频帧转换为视觉token序列。双模态适配器将视觉token与文本token对齐，并输入到语言模型中进行推理。关键在于双模态适配器，它实现了聚焦模式和待机模式的切换，并动态调整视觉token的数量。此外，该模型还采用了动态可分离的KV-cache设计，以支持流式视觉理解。

关键创新：POINTS-Long的关键创新在于其双模态视觉感知机制和动态视觉token缩放策略。与传统的固定数量视觉token的方法不同，POINTS-Long可以根据任务需求动态调整视觉token的数量，从而在效率和精度之间取得更好的平衡。此外，动态可分离的KV-cache设计使得模型能够高效地处理超长视觉序列，支持流式视觉理解。

关键设计：在待机模式下，POINTS-Long采用了一种基于重要性采样的视觉token选择策略，选择最具代表性的视觉token进行处理。具体而言，可以通过计算每个视觉token的注意力权重或梯度来评估其重要性。此外，动态可分离的KV-cache设计允许模型在处理新的视觉帧时，只更新相关的KV-cache部分，而无需重新计算整个序列，从而显著提高了效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在长格式的通用视觉理解任务中，POINTS-Long的待机模式仅使用1/40-1/10的视觉token即可保持原始准确率的97.7-99.7%。此外，该模型在流式视觉理解任务中表现出色，能够高效地处理超长视觉序列，并实现实时推理。这些结果表明，POINTS-Long在效率和精度之间取得了良好的平衡。

🎯 应用场景

POINTS-Long在长视频分析、智能监控、自动驾驶、机器人导航等领域具有广泛的应用前景。它可以用于高效地理解长时序的视觉信息，例如视频内容摘要、异常事件检测、场景理解等。通过降低计算成本，POINTS-Long可以部署在资源受限的设备上，实现边缘计算和实时推理。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable capabilities in cross-modal understanding and generation. However, the rapid growth of visual token sequences--especially in long-video and streaming scenarios--poses a major challenge to their scalability and real-world deployment. Thus, we introduce POINTS-Long, a native dual-mode MLLM featuring dynamic visual token scaling inspired by the human visual system. The model supports two complementary perception modes: focus mode and standby mode, enabling users to dynamically trade off efficiency and accuracy during inference. On fine-grained visual tasks, the focus mode retains the optimal performance, while on long-form general visual understanding, the standby mode retains 97.7-99.7% of the original accuracy using only 1/40-1/10th of the visual tokens. Moreover, POINTS-Long natively supports streaming visual understanding via a dynamically detachable KV-cache design, allowing efficient maintenance of ultra-long visual memory. Our work provides new insights into the design of future MLLMs and lays the foundation for adaptive and efficient long-form visual understanding.

POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理