Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs
作者: Xudong Li, Mengdan Zhang, Peixian Chen, Xiawu Zheng, Yan Zhang, Jingyuan Zheng, Yunhang Shen, Ke Li, Chaoyou Fu, Xing Sun, Rongrong Ji
分类: cs.CV
发布日期: 2025-05-28
💡 一句话要点
提出Context-to-Cue DPO,解决多图MLLM中的幻觉问题,提升多模态理解能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 多图理解 幻觉抑制 直接偏好优化 上下文建模
📋 核心要点
- 现有MLLM在多图理解中易产生幻觉,源于跨模态错位和对整体上下文建模的不足。
- CcDPO通过多层次偏好优化,从全局上下文到局部细节,增强MLLM对多图的理解能力。
- 实验表明,CcDPO能有效减少幻觉,并在单图和多图任务中取得一致的性能提升。
📝 摘要(中文)
多模态大型语言模型(MLLM)在单图任务中表现出色,但由于跨模态错位,在多图理解方面存在困难,导致幻觉(上下文遗漏、混淆和误解)。现有方法使用直接偏好优化(DPO),将优化限制在输入序列中的单个图像参考,忽略了整体上下文建模。我们提出了Context-to-Cue直接偏好优化(CcDPO),这是一个多层次偏好优化框架,通过从序列上下文到局部细节的视觉线索缩放,增强多图设置中每个图像的感知。它包括:(i)上下文级别优化:重新评估MLLM多图上下文理解的认知偏差,并整合一系列低成本的全局序列偏好以减轻偏差。(ii)针点级别优化:通过区域目标视觉提示和多模态偏好监督,将注意力引导到细粒度的视觉细节。为了支持可扩展的优化,我们还构建了MultiScope-42k,一个具有高质量多层次偏好对的自动生成数据集。实验表明,CcDPO显著减少了幻觉,并在通用单图和多图任务中产生了一致的性能提升。
🔬 方法详解
问题定义:论文旨在解决多图场景下,多模态大型语言模型(MLLMs)由于跨模态错位而产生的幻觉问题,包括上下文遗漏、混淆和误解。现有方法如直接偏好优化(DPO)通常只关注单个图像,忽略了多图之间的上下文关系,导致模型无法准确理解整体场景。
核心思路:论文的核心思路是提出Context-to-Cue直接偏好优化(CcDPO),通过多层次的偏好优化,使模型能够从全局上下文逐步聚焦到局部细节,从而更准确地理解多图信息。这种“由粗到精”的策略旨在弥补现有方法在上下文建模方面的不足,减少幻觉的产生。
技术框架:CcDPO包含两个主要模块:上下文级别优化和针点级别优化。上下文级别优化通过重新评估MLLM的认知偏差,并整合全局序列偏好来减轻偏差。针点级别优化则通过区域目标视觉提示和多模态偏好监督,引导模型关注细粒度的视觉细节。为了支持大规模优化,论文还构建了一个名为MultiScope-42k的自动生成数据集,包含高质量的多层次偏好对。
关键创新:CcDPO的关键创新在于其多层次的偏好优化框架,它不仅考虑了全局上下文信息,还关注了局部细节。这种从上下文到线索的“缩放”策略,使得模型能够更全面、更准确地理解多图信息,从而有效减少幻觉。与现有方法相比,CcDPO更注重多图之间的关系和细粒度的视觉信息。
关键设计:在上下文级别优化中,论文设计了一系列低成本的全局序列偏好,用于减轻MLLM的认知偏差。在针点级别优化中,论文使用了区域目标视觉提示,引导模型关注特定的视觉区域。此外,MultiScope-42k数据集的构建也至关重要,它提供了高质量的多层次偏好对,为CcDPO的训练提供了充足的数据支持。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CcDPO能够显著减少MLLM在多图理解中的幻觉,并在通用单图和多图任务中取得一致的性能提升。具体的性能数据和对比基线需要在论文中查找(未知),但摘要中明确指出CcDPO取得了显著的性能增益,证明了其有效性。
🎯 应用场景
该研究成果可广泛应用于需要多图理解的场景,如医学影像诊断、遥感图像分析、多图叙事生成、智能监控等。通过减少MLLM在多图理解中的幻觉,可以提高相关应用的准确性和可靠性,具有重要的实际价值和广阔的应用前景。未来,该方法有望进一步推广到更多多模态任务中。
📄 摘要(原文)
Multi-modal Large Language Models (MLLMs) excel at single-image tasks but struggle with multi-image understanding due to cross-modal misalignment, leading to hallucinations (context omission, conflation, and misinterpretation). Existing methods using Direct Preference Optimization (DPO) constrain optimization to a solitary image reference within the input sequence, neglecting holistic context modeling. We propose Context-to-Cue Direct Preference Optimization (CcDPO), a multi-level preference optimization framework that enhances per-image perception in multi-image settings by zooming into visual clues -- from sequential context to local details. It features: (i) Context-Level Optimization : Re-evaluates cognitive biases underlying MLLMs' multi-image context comprehension and integrates a spectrum of low-cost global sequence preferences for bias mitigation. (ii) Needle-Level Optimization : Directs attention to fine-grained visual details through region-targeted visual prompts and multimodal preference supervision. To support scalable optimization, we also construct MultiScope-42k, an automatically generated dataset with high-quality multi-level preference pairs. Experiments show that CcDPO significantly reduces hallucinations and yields consistent performance gains across general single- and multi-image tasks.