DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

📄 arXiv: 2602.14134v1 📥 PDF

作者: Yi Li, Hongze Shen, Lexiang Tang, Xin Li, Xinpeng Ding, Yinsong Liu, Deqiang Jiang, Xing Sun, Xiaomeng Li

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-02-15

备注: 25 pages, 9 figures


💡 一句话要点

DenseMLLM:无需定制解码器的标准多模态LLM用于密集预测任务

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 密集预测 语义分割 深度估计 大型语言模型 视觉Token监督 通用模型

📋 核心要点

  1. 现有MLLM在密集预测任务中需要复杂的任务特定解码器,增加了模型复杂性,限制了通用性。
  2. DenseMLLM通过新颖的视觉token监督策略,使标准MLLM无需额外解码器即可执行密集预测。
  3. 实验表明,DenseMLLM在多种密集预测和视觉-语言任务上表现出色,证明了其有效性。

📝 摘要(中文)

多模态大型语言模型(MLLM)在高层次视觉理解方面表现出卓越的能力。然而,将这些模型扩展到细粒度的密集预测任务(如语义分割和深度估计)通常需要集成复杂的、特定于任务的解码器和其他定制。这种架构碎片化增加了模型复杂性,并且偏离了MLLM的通用设计,最终限制了它们的实用性。本文挑战了这种范式,使标准MLLM能够执行密集预测,而无需额外的特定于任务的解码器。提出的模型称为DenseMLLM,它基于标准架构,并采用了一种新颖的视觉token监督策略,用于处理多个标签和任务。尽管设计极简,但我们的模型在各种密集预测和视觉-语言基准测试中都取得了极具竞争力的性能,表明标准的、通用的MLLM可以有效地支持密集感知,而无需架构专业化。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在执行密集预测任务(如语义分割和深度估计)时,通常需要复杂的、特定于任务的解码器的问题。现有方法的痛点在于架构的碎片化,增加了模型复杂性,并且偏离了MLLM的通用设计,限制了其在实际应用中的灵活性和效率。

核心思路:论文的核心思路是利用标准MLLM的现有架构,通过一种新颖的视觉token监督策略,使其能够直接进行密集预测,而无需额外的任务特定解码器。这种方法旨在保持MLLM的通用性,同时扩展其在密集感知任务中的能力。

技术框架:DenseMLLM基于标准MLLM架构,主要包括视觉编码器、语言模型和视觉token监督模块。视觉编码器负责提取图像特征,语言模型负责处理视觉特征和文本信息,视觉token监督模块则负责将语言模型的输出映射到像素级别的密集预测结果。整体流程是:输入图像经过视觉编码器得到视觉特征,与文本提示一起输入到语言模型中,语言模型输出的特征经过视觉token监督模块,得到最终的密集预测结果。

关键创新:最重要的技术创新点在于提出的视觉token监督策略。该策略允许模型在训练过程中学习将语言模型的输出与图像的像素级别标签对齐,从而实现密集预测。与现有方法相比,DenseMLLM避免了引入额外的任务特定解码器,保持了模型的通用性。

关键设计:视觉token监督策略的关键设计包括:(1) 使用多个标签和任务进行训练,提高模型的泛化能力;(2) 设计合适的损失函数,鼓励语言模型的输出与像素级别标签对齐;(3) 优化视觉编码器和语言模型的参数,以提高特征提取和信息处理的效率。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。

📊 实验亮点

DenseMLLM在多个密集预测和视觉-语言基准测试中取得了极具竞争力的性能,证明了其有效性。具体性能数据和对比基线在论文中进行了详细描述(未知)。该模型在保持标准MLLM架构的同时,实现了对密集感知任务的有效支持,避免了引入额外的任务特定解码器,具有重要的实际意义。

🎯 应用场景

DenseMLLM具有广泛的应用前景,包括自动驾驶、机器人导航、医学图像分析、遥感图像处理等领域。通过利用标准的、通用的MLLM进行密集预测,可以降低模型部署和维护的成本,提高系统的灵活性和可扩展性。该研究的未来影响在于推动多模态学习和密集感知技术的发展,促进人工智能在各个领域的应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending these models to fine-grained dense prediction tasks, such as semantic segmentation and depth estimation, typically necessitates the incorporation of complex, task-specific decoders and other customizations. This architectural fragmentation increases model complexity and deviates from the generalist design of MLLMs, ultimately limiting their practicality. In this work, we challenge this paradigm by accommodating standard MLLMs to perform dense predictions without requiring additional task-specific decoders. The proposed model is called DenseMLLM, grounded in the standard architecture with a novel vision token supervision strategy for multiple labels and tasks. Despite its minimalist design, our model achieves highly competitive performance across a wide range of dense prediction and vision-language benchmarks, demonstrating that a standard, general-purpose MLLM can effectively support dense perception without architectural specialization.