Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

作者: Huatian Zhang, Zhendong Mao, Lei Zhang, Yongdong Zhang

分类: cs.LG, cs.CL, cs.CV

发布日期: 2026-05-06

💡 一句话要点

提出UE-DPO，通过不确定性引导探索，提升多模态大语言模型视觉对齐能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 直接偏好优化 不确定性感知 视觉对齐 幻觉缓解

📋 核心要点

现有方法依赖模型自身视觉敏感度进行训练，易产生自引用偏差，忽略关键细节。
UE-DPO通过token级别认知不确定性引导模型探索，主动纠正视觉对齐中的缺陷。
实验证明UE-DPO的有效性和鲁棒性，能够提升多模态大语言模型的视觉理解能力。

📝 摘要（中文）

直接偏好优化(DPO)已被证明是缓解多模态大语言模型(MLLM)幻觉问题的有效方法，它通过学习偏好对来实现。DPO的关键挑战之一在于如何将序列级别的偏好转化为视觉保真度的细粒度监督。为了保护容易产生幻觉的视觉相关token，现有方法通常根据模型自评估的视觉敏感度信号来分配训练重点。然而，这种由仍在训练中的模型估计的敏感度会引入自引用偏差：强化已经学得很好的视觉线索，而忽略难以察觉但至关重要的细节，从而限制了更深层次的对齐。在这项工作中，我们提出了一种用于MLLM的不确定性感知探索性直接偏好优化(UE-DPO)方法，该方法使模型能够发现其认知缺陷，并在token级别认知不确定性的指导下，主动探索自我纠正。具体来说，我们首先量化模型在给定图像中未能对token预测进行grounding的不确定性。然后，基于不确定性感知的探索强度，我们鼓励在首选样本中对视觉缺陷token施加更大的学习压力，并减轻对非首选样本中有益知识的过度惩罚。此外，我们为我们的方法提供了理论依据，并且大量的实验证明了其有效性和鲁棒性。

🔬 方法详解

问题定义：多模态大语言模型(MLLM)在生成文本时，容易出现与图像内容不符的“幻觉”现象。现有方法，如基于DPO的方法，试图通过偏好学习来解决这个问题，但它们依赖于模型自身的视觉敏感度评估来指导训练，这会导致模型过度关注已经掌握的视觉线索，而忽略那些难以感知但至关重要的细节，从而限制了模型视觉理解能力的进一步提升。

核心思路：UE-DPO的核心思路是利用模型自身预测的不确定性来引导训练过程，鼓励模型主动探索和纠正视觉理解上的不足。具体来说，UE-DPO通过量化模型在预测每个token时对图像信息的依赖程度的不确定性，来判断哪些token是模型“不确定”的，即模型在视觉理解上存在缺陷的地方。然后，UE-DPO会根据这种不确定性，调整训练的强度，对“不确定”的token施加更大的学习压力，从而促使模型更加关注这些容易出错的地方，并进行自我纠正。

技术框架：UE-DPO方法主要包含以下几个阶段：1) 不确定性量化：计算模型在预测每个token时的不确定性，衡量模型对图像信息的依赖程度。2) 探索强度计算：基于token级别的不确定性，计算一个探索强度，用于指导后续的训练过程。3) 偏好优化：利用DPO框架，根据探索强度调整损失函数，对“不确定”的token施加更大的学习压力。

关键创新：UE-DPO的关键创新在于引入了不确定性感知的探索机制。与现有方法依赖模型自身的视觉敏感度评估不同，UE-DPO利用模型预测的不确定性来引导训练，能够更有效地发现模型在视觉理解上的不足，并促使模型主动探索和纠正这些不足。这种基于不确定性的探索机制能够避免自引用偏差，提升模型的泛化能力。

关键设计：UE-DPO的关键设计包括：1) 不确定性量化方法：论文中具体使用了何种方法来量化token级别的不确定性？（论文中提到是模型未能对token预测进行grounding的程度，具体实现未知）。2) 探索强度函数：如何将不确定性转化为探索强度？探索强度与学习压力之间存在怎样的关系？（具体函数形式未知）。3) 损失函数调整：如何在DPO框架下，根据探索强度调整损失函数，对不同token施加不同的学习压力？（具体公式未知）

🖼️ 关键图片

📊 实验亮点

论文通过大量实验验证了UE-DPO的有效性和鲁棒性，具体性能数据未知，但强调了该方法能够提升多模态大语言模型的视觉理解能力，并且能够避免自引用偏差。与现有方法相比，UE-DPO在视觉对齐方面取得了显著的提升。

🎯 应用场景

UE-DPO方法可应用于各种需要视觉理解的多模态大语言模型，例如图像描述生成、视觉问答、视觉推理等。通过提升模型对图像内容的理解能力，可以提高这些应用在实际场景中的准确性和可靠性，例如在自动驾驶中，模型需要准确理解摄像头捕捉到的图像信息，才能做出正确的决策。

📄 摘要（原文）

Direct Preference Optimization (DPO) has proven to be an effective solution for mitigating hallucination in Multimodal Large Language Models (MLLMs) by learning from preference pairs. One of its key challenges lies in how to transfer the sequence-level preference into fine-grained supervision on visual fidelity. To safeguard vision-related tokens that are prone to hallucination, existing methods typically allocate training emphasis according to the model's self-assessed visual sensitivity signals. However, such sensitivity, estimated by a model still under training, introduces self-referential bias: reinforcing already well-learned visual cues while neglecting hard-to-perceive but critical details, thereby limiting deeper alignment. In this work, we propose an Uncertainty-aware Exploratory Direct Preference Optimization (UE-DPO) method for MLLMs, which enables the model to uncover its cognitive deficiencies and actively explore for self-correction, guided by token-level epistemic uncertainty. Specifically, we first quantify the uncertainty from the model's failure to ground token predictions in the given image. Then, based on an uncertainty-aware exploration intensity, we encourage more learning pressure on visually deficient tokens in preferred samples, and alleviate the over-penalization of beneficial knowledge in dispreferred samples. Further, we provide a theoretical justification for our method, and extensive experiments demonstrate its effectiveness and robustness.

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理