DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
作者: Run Luo, Yunshui Li, Longze Chen, Wanwei He, Ting-En Lin, Ziqiang Liu, Lei Zhang, Zikai Song, Xiaobo Xia, Tongliang Liu, Min Yang, Binyuan Hui
分类: cs.CV, cs.CL
发布日期: 2024-05-24 (更新: 2025-03-08)
备注: 25 pages. arXiv admin note: text overlap with arXiv:2401.10208 by other authors
💡 一句话要点
DEEM:利用扩散模型为大语言模型提供视觉感知能力,提升其鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 大语言模型 多模态学习 视觉感知 鲁棒性
📋 核心要点
- 现有LMM依赖于图像编码器提取任务相关特征,忽略了图像细节,导致其在分布外数据上表现不佳,容易产生视觉幻觉。
- DEEM利用扩散模型的生成反馈来对齐图像编码器的语义分布,增强模型对分布外数据的鲁棒性,减少视觉幻觉,无需额外训练模块。
- 在RobustVQA、POPE和MMVP等基准测试中,DEEM显著提升了LMM的视觉感知性能,且参数量和数据需求更少。
📝 摘要(中文)
大型语言模型(LLM)的发展显著推动了大型多模态模型(LMM)的出现。虽然LMM通过促进多模态理解和生成之间的协同作用取得了巨大成功,但它们在面对分布外数据时常常面临挑战,例如难以区分方向、数量、颜色、结构等。这主要是因为它们依赖于经过训练的图像编码器,将图像编码为与任务相关的特征,这可能导致它们忽略不相关的细节。深入研究扩散模型对图像的建模能力自然会引出一个问题:扩散模型能否作为大型语言模型进行图像感知的眼睛?在本文中,我们提出了一种简单但有效的方法DEEM,它利用扩散模型的生成反馈来对齐图像编码器的语义分布。这解决了以前仅依赖于像CLIP-ViT这样的图像编码器的方法的缺点,从而增强了模型对分布外样本的鲁棒性,并减少了视觉幻觉。重要的是,这是在不需要额外的训练模块和更少的训练参数的情况下实现的。我们在我们新构建的RobustVQA基准以及其他众所周知的基准POPE和MMVP上广泛评估了DEEM,用于视觉幻觉和感知。特别是,DEEM在很大程度上提高了LMM的视觉感知性能(例如,在RobustVQA上提高了4%,在MMVP上提高了6.5%,在POPE上提高了12.8%)。与最先进的交错内容生成模型相比,DEEM表现出更强的鲁棒性和更强的缓解模型幻觉的能力,同时使用更少的训练参数,更少的预训练数据(10%)和更小的基本模型大小。
🔬 方法详解
问题定义:现有的大型多模态模型(LMMs)在处理分布外(out-of-distribution)图像数据时,视觉感知能力不足,容易产生视觉幻觉。这是因为LMMs依赖的图像编码器通常只关注与特定任务相关的特征,忽略了图像中其他重要的细节信息,导致模型无法准确理解图像内容。
核心思路:DEEM的核心思路是利用扩散模型强大的图像生成能力,为图像编码器提供额外的语义信息。通过让扩散模型生成与原始图像相似但略有不同的图像,并利用这些图像来调整图像编码器的语义分布,从而增强编码器对图像细节的感知能力,提高模型对分布外数据的鲁棒性。
技术框架:DEEM的整体框架包括以下几个主要步骤:1) 使用图像编码器(如CLIP-ViT)提取原始图像的特征;2) 使用扩散模型基于原始图像生成多个变体图像;3) 使用图像编码器提取变体图像的特征;4) 利用扩散模型生成的反馈信号(即原始图像和变体图像之间的差异)来对齐图像编码器的语义分布,从而优化图像编码器。
关键创新:DEEM的关键创新在于利用扩散模型的生成反馈来指导图像编码器的训练。与传统的训练方法不同,DEEM不直接依赖于人工标注的数据,而是通过自监督的方式学习图像的语义信息。这种方法可以有效地提高模型对分布外数据的泛化能力,并减少视觉幻觉的产生。
关键设计:DEEM的关键设计包括:1) 使用预训练的扩散模型,避免从头开始训练扩散模型;2) 设计合适的损失函数,用于衡量原始图像和变体图像之间的语义差异,并指导图像编码器的训练;3) 使用少量的训练参数,避免过度拟合训练数据。
🖼️ 关键图片
📊 实验亮点
DEEM在RobustVQA、MMVP和POPE等基准测试中取得了显著的性能提升。例如,在RobustVQA上提高了4%,在MMVP上提高了6.5%,在POPE上提高了12.8%。此外,DEEM相较于现有方法,使用了更少的训练参数和预训练数据,同时模型尺寸也更小,表明其具有更高的效率和实用性。
🎯 应用场景
DEEM技术可应用于各种需要鲁棒视觉感知能力的多模态任务,例如视觉问答、图像描述、机器人导航等。该方法能够提升模型在复杂、噪声环境下的表现,减少错误判断,提高系统的可靠性和安全性。未来,DEEM有望在自动驾驶、医疗诊断等领域发挥重要作用。
📄 摘要(原文)
The development of large language models (LLMs) has significantly advanced the emergence of large multimodal models (LMMs). While LMMs have achieved tremendous success by promoting the synergy between multimodal comprehension and creation, they often face challenges when confronted with out-of-distribution data, such as which can hardly distinguish orientation, quantity, color, structure, etc. This is primarily due to their reliance on image encoders trained to encode images into task-relevant features, which may lead them to disregard irrelevant details. Delving into the modeling capabilities of diffusion models for images naturally prompts the question: Can diffusion models serve as the eyes of large language models for image perception? In this paper, we propose DEEM, a simple but effective approach that utilizes the generative feedback of diffusion models to align the semantic distributions of the image encoder. This addresses the drawbacks of previous methods that solely relied on image encoders like CLIP-ViT, thereby enhancing the model's resilience against out-of-distribution samples and reducing visual hallucinations. Importantly, this is achieved without requiring additional training modules and with fewer training parameters. We extensively evaluated DEEM on both our newly constructed RobustVQA benchmark and other well-known benchmarks, POPE and MMVP, for visual hallucination and perception. In particular, DEEM improves LMM's visual perception performance to a large extent (e.g., 4% higher on RobustVQA, 6.5% higher on MMVP and 12.8 % higher on POPE ). Compared to the state-of-the-art interleaved content generation models, DEEM exhibits enhanced robustness and a superior capacity to alleviate model hallucinations while utilizing fewer trainable parameters, less pre-training data (10%), and a smaller base model size.