TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning
作者: Aritra Bhowmik, Mohammad Mahdi Derakhshani, Dennis Koelma, Yuki M. Asano, Martin R. Oswald, Cees G. M. Snoek
分类: cs.CV
发布日期: 2024-10-14 (更新: 2025-03-20)
💡 一句话要点
提出TWIST & SCOUT框架,通过无遗忘调优提升MLLM的视觉定位能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉定位 无遗忘学习 双专家模型 合成数据 具身智能 空间感知
📋 核心要点
- 现有MLLM缺乏足够的空间感知能力,且需要大量的空间监督,限制了其在具身多模态AI系统中的应用。
- 提出TWIST & SCOUT框架,通过TWIST模块和SCOUT数据集,在不遗忘原有能力的前提下,提升MLLM的视觉定位能力。
- 在多个视觉定位相关任务上进行了评估,实验结果表明该方法能够有效提升性能,并保留了预训练的图像理解能力。
📝 摘要(中文)
本文提出TWIST & SCOUT框架,旨在赋予预训练多模态大语言模型(MLLM)视觉定位能力,同时避免遗忘其现有的图像和语言理解技能。为此,我们提出了TWIST,一个双专家逐步调优模块,它使用一个在图像理解任务上预训练的冻结模块和一个可学习的视觉定位模块来修改语言模型的解码器。这使得MLLM能够保留先前学习的知识和技能,同时获得缺失的能力。为了有效地微调模型,我们生成了一个高质量的合成数据集,称为SCOUT,它模拟了人类在视觉定位中的推理过程。该数据集提供了丰富的监督信号,描述了逐步的多模态推理过程,从而简化了视觉定位的任务。我们在几个标准基准数据集上评估了我们的方法,包括基于定位的图像描述、零样本定位和视觉定位任务。我们的方法在所有任务中始终如一地提供强大的性能,同时保留了预训练的图像理解能力。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLM)在空间感知方面存在不足,尤其是在视觉定位任务中表现不佳。主要痛点在于,缺乏足够的空间监督数据,以及在学习视觉定位能力时容易遗忘已有的图像和语言理解能力。
核心思路:核心思路是在不破坏原有知识的基础上,为MLLM增加视觉定位能力。通过引入双专家模块,一个负责保持原有图像理解能力,另一个专门学习视觉定位,从而实现知识的增量学习。同时,利用合成数据提供高质量的监督信号,简化学习过程。
技术框架:TWIST & SCOUT框架包含两个主要组成部分:TWIST模块和SCOUT数据集。TWIST模块是一个双专家逐步调优模块,它位于语言模型的解码器部分。SCOUT数据集是一个合成数据集,用于微调模型,包含丰富的视觉定位推理过程的监督信息。整体流程是:首先使用SCOUT数据集微调带有TWIST模块的MLLM,然后评估其在各种视觉定位任务上的性能。
关键创新:关键创新在于TWIST模块的设计,它允许模型在学习新的视觉定位能力的同时,保留已有的图像和语言理解能力。另一个创新点是SCOUT数据集,它通过模拟人类的推理过程,提供了高质量的监督信号,简化了视觉定位的学习任务。
关键设计:TWIST模块包含一个冻结的图像理解专家和一个可学习的视觉定位专家。冻结的图像理解专家在图像理解任务上预训练,负责保持原有知识。可学习的视觉定位专家负责学习新的视觉定位能力。SCOUT数据集包含逐步的多模态推理过程的描述,例如“首先找到桌子,然后在桌子上找到杯子”。损失函数的设计旨在鼓励模型学习逐步推理的过程,并准确地定位目标物体。
🖼️ 关键图片
📊 实验亮点
该方法在多个视觉定位相关任务上取得了显著的性能提升。例如,在基于定位的图像描述任务中,该方法能够生成更准确的描述,并更好地定位图像中的物体。在零样本定位任务中,该方法能够有效地定位未见过的物体。实验结果表明,该方法不仅能够提升视觉定位能力,而且能够保留预训练的图像理解能力。
🎯 应用场景
该研究成果可应用于机器人导航、智能助手、增强现实等领域。例如,机器人可以利用视觉定位能力在复杂环境中进行导航,智能助手可以根据用户的视觉指令进行操作,增强现实应用可以更准确地将虚拟物体与现实世界对齐。未来,该方法有望进一步提升具身智能系统的空间感知能力。
📄 摘要(原文)
Spatial awareness is key to enable embodied multimodal AI systems. Yet, without vast amounts of spatial supervision, current Multimodal Large Language Models (MLLMs) struggle at this task. In this paper, we introduce TWIST & SCOUT, a framework that equips pre-trained MLLMs with visual grounding ability without forgetting their existing image and language understanding skills. To this end, we propose TWIST, a twin-expert stepwise tuning module that modifies the decoder of the language model using one frozen module pre-trained on image understanding tasks and another learnable one for visual grounding tasks. This allows the MLLM to retain previously learned knowledge and skills, while acquiring what is missing. To fine-tune the model effectively, we generate a high-quality synthetic dataset we call SCOUT, which mimics human reasoning in visual grounding. This dataset provides rich supervision signals, describing a step-by-step multimodal reasoning process, thereby simplifying the task of visual grounding. We evaluate our approach on several standard benchmark datasets, encompassing grounded image captioning, zero-shot localization, and visual grounding tasks. Our method consistently delivers strong performance across all tasks, while retaining the pre-trained image understanding capabilities.