Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs

作者: Xudong Li, Mengdan Zhang, Peixian Chen, Xiawu Zheng, Yan Zhang, Jingyuan Zheng, Yunhang Shen, Ke Li, Chaoyou Fu, Xing Sun, Rongrong Ji

分类: cs.CV

发布日期: 2025-05-28

💡 一句话要点

提出Context-to-Cue DPO，解决多图MLLM中的幻觉问题，提升多模态理解能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 多图理解 幻觉抑制 直接偏好优化 上下文建模

📋 核心要点

现有MLLM在多图理解中易产生幻觉，源于跨模态错位和对整体上下文建模的不足。
CcDPO通过多层次偏好优化，从全局上下文到局部细节，增强MLLM对多图的理解能力。
实验表明，CcDPO能有效减少幻觉，并在单图和多图任务中取得一致的性能提升。

📝 摘要（中文）

多模态大型语言模型(MLLM)在单图任务中表现出色，但由于跨模态错位，在多图理解方面存在困难，导致幻觉（上下文遗漏、混淆和误解）。现有方法使用直接偏好优化(DPO)，将优化限制在输入序列中的单个图像参考，忽略了整体上下文建模。我们提出了Context-to-Cue直接偏好优化(CcDPO)，这是一个多层次偏好优化框架，通过从序列上下文到局部细节的视觉线索缩放，增强多图设置中每个图像的感知。它包括：(i)上下文级别优化：重新评估MLLM多图上下文理解的认知偏差，并整合一系列低成本的全局序列偏好以减轻偏差。(ii)针点级别优化：通过区域目标视觉提示和多模态偏好监督，将注意力引导到细粒度的视觉细节。为了支持可扩展的优化，我们还构建了MultiScope-42k，一个具有高质量多层次偏好对的自动生成数据集。实验表明，CcDPO显著减少了幻觉，并在通用单图和多图任务中产生了一致的性能提升。

🔬 方法详解

问题定义：论文旨在解决多图场景下，多模态大型语言模型（MLLMs）由于跨模态错位而产生的幻觉问题，包括上下文遗漏、混淆和误解。现有方法如直接偏好优化（DPO）通常只关注单个图像，忽略了多图之间的上下文关系，导致模型无法准确理解整体场景。

核心思路：论文的核心思路是提出Context-to-Cue直接偏好优化（CcDPO），通过多层次的偏好优化，使模型能够从全局上下文逐步聚焦到局部细节，从而更准确地理解多图信息。这种“由粗到精”的策略旨在弥补现有方法在上下文建模方面的不足，减少幻觉的产生。

技术框架：CcDPO包含两个主要模块：上下文级别优化和针点级别优化。上下文级别优化通过重新评估MLLM的认知偏差，并整合全局序列偏好来减轻偏差。针点级别优化则通过区域目标视觉提示和多模态偏好监督，引导模型关注细粒度的视觉细节。为了支持大规模优化，论文还构建了一个名为MultiScope-42k的自动生成数据集，包含高质量的多层次偏好对。

关键创新：CcDPO的关键创新在于其多层次的偏好优化框架，它不仅考虑了全局上下文信息，还关注了局部细节。这种从上下文到线索的“缩放”策略，使得模型能够更全面、更准确地理解多图信息，从而有效减少幻觉。与现有方法相比，CcDPO更注重多图之间的关系和细粒度的视觉信息。

关键设计：在上下文级别优化中，论文设计了一系列低成本的全局序列偏好，用于减轻MLLM的认知偏差。在针点级别优化中，论文使用了区域目标视觉提示，引导模型关注特定的视觉区域。此外，MultiScope-42k数据集的构建也至关重要，它提供了高质量的多层次偏好对，为CcDPO的训练提供了充足的数据支持。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CcDPO能够显著减少MLLM在多图理解中的幻觉，并在通用单图和多图任务中取得一致的性能提升。具体的性能数据和对比基线需要在论文中查找（未知），但摘要中明确指出CcDPO取得了显著的性能增益，证明了其有效性。

🎯 应用场景

该研究成果可广泛应用于需要多图理解的场景，如医学影像诊断、遥感图像分析、多图叙事生成、智能监控等。通过减少MLLM在多图理解中的幻觉，可以提高相关应用的准确性和可靠性，具有重要的实际价值和广阔的应用前景。未来，该方法有望进一步推广到更多多模态任务中。

📄 摘要（原文）

Multi-modal Large Language Models (MLLMs) excel at single-image tasks but struggle with multi-image understanding due to cross-modal misalignment, leading to hallucinations (context omission, conflation, and misinterpretation). Existing methods using Direct Preference Optimization (DPO) constrain optimization to a solitary image reference within the input sequence, neglecting holistic context modeling. We propose Context-to-Cue Direct Preference Optimization (CcDPO), a multi-level preference optimization framework that enhances per-image perception in multi-image settings by zooming into visual clues -- from sequential context to local details. It features: (i) Context-Level Optimization : Re-evaluates cognitive biases underlying MLLMs' multi-image context comprehension and integrates a spectrum of low-cost global sequence preferences for bias mitigation. (ii) Needle-Level Optimization : Directs attention to fine-grained visual details through region-targeted visual prompts and multimodal preference supervision. To support scalable optimization, we also construct MultiScope-42k, an automatically generated dataset with high-quality multi-level preference pairs. Experiments show that CcDPO significantly reduces hallucinations and yields consistent performance gains across general single- and multi-image tasks.

Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理