Controlling Multimodal LLMs via Reward-guided Decoding

📄 arXiv: 2508.11616v1 📥 PDF

作者: Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-08-15

备注: Published at ICCV 2025


💡 一句话要点

提出奖励引导解码方法以提升多模态大语言模型的可控性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 奖励引导解码 视觉定位 对象幻觉 可控性 图像描述生成 智能助手

📋 核心要点

  1. 现有的多模态大语言模型在适应用户需求时缺乏灵活性,尤其在视觉定位任务中容易出现对象幻觉现象。
  2. 本文提出了一种奖励引导解码方法,通过构建视觉定位的奖励模型来引导MLLM的解码过程,从而实现对输出的精度和召回率的控制。
  3. 实验结果表明,该方法在标准对象幻觉基准上显著提升了模型的可控性,并且在性能上优于现有的幻觉缓解技术。

📝 摘要(中文)

随着多模态大语言模型(MLLMs)的广泛应用,适应不同用户需求变得愈发重要。本文研究了通过控制解码来适应MLLMs,提出了首个奖励引导解码方法,并展示了其在改善视觉定位方面的应用。该方法构建了视觉定位的奖励模型,并利用这些模型指导MLLM的解码过程。具体而言,我们构建了两个独立的奖励模型,以控制模型输出中的对象精度和召回率。该方法实现了MLLM推理过程的即时可控性,用户可以动态调整解码过程中的奖励函数相对重要性,以及控制解码过程中的搜索广度。我们在标准对象幻觉基准上评估了该方法,结果显示其在可控性上显著优于现有的幻觉缓解方法。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型在视觉定位任务中出现的对象幻觉问题,现有方法在用户需求适应性和输出控制上存在不足。

核心思路:提出奖励引导解码方法,通过构建奖励模型来动态调整解码过程中的对象精度与召回率,以满足不同用户的需求。

技术框架:整体架构包括两个主要模块:奖励模型和解码控制模块。奖励模型用于评估输出的对象精度和召回率,解码控制模块则根据用户的需求调整解码过程。

关键创新:最重要的创新在于首次将奖励引导机制应用于多模态大语言模型的解码过程,实现了对推理过程的即时可控性,与传统方法相比,提供了更高的灵活性和适应性。

关键设计:在设计中,采用了两个独立的奖励模型,分别控制对象精度和召回率,并通过动态调整奖励函数的权重来实现用户对解码过程的控制。

📊 实验亮点

实验结果显示,提出的方法在标准对象幻觉基准上显著提高了模型的可控性,相较于现有方法,模型在对象精度和召回率上均有明显提升,具体性能数据未提供,但提升幅度显著。

🎯 应用场景

该研究的潜在应用领域包括图像描述生成、视觉问答系统以及其他需要视觉信息与语言生成结合的任务。通过提升多模态大语言模型的可控性,可以更好地满足用户的个性化需求,推动智能助手和自动化内容生成的进步。

📄 摘要(原文)

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model's output. Our approach enables on-the-fly controllability of an MLLM's inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.