SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes
作者: Chuhan Wang, Xintong Li, Jennifer Yuntong Zhang, Junda Wu, Chengkai Huang, Lina Yao, Julian McAuley, Jingbo Shang
分类: cs.CV, cs.CL, cs.LG
发布日期: 2026-01-09
备注: Preprint
💡 一句话要点
SceneAlign:通过场景图对齐多模态推理,提升复杂视觉场景下的推理忠实性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 场景图 视觉 grounding 对比学习 直接偏好优化 结构化干预 视觉问答
📋 核心要点
- 多模态大模型在复杂视觉场景推理中面临挑战,现有方法依赖语言先验,忽略视觉 grounding。
- SceneAlign利用场景图进行结构化干预,通过扰动关键节点生成困难负样本,提升模型推理忠实性。
- 实验结果表明,SceneAlign在多个视觉推理基准测试中显著提高了答案准确性和推理忠实性。
📝 摘要(中文)
多模态大型语言模型在复杂视觉场景中进行忠实推理时常常遇到困难,因为复杂的实体和关系需要在每个步骤进行精确的视觉定位。这种推理不忠实通常表现为幻觉实体、错误定位的关系、跳过的步骤和过度指定的推理。现有的基于偏好的方法通常依赖于文本扰动或答案条件下的理由,但未能解决这一挑战,因为它们允许模型利用语言先验来绕过视觉定位。为了解决这个问题,我们提出了SceneAlign,一个利用场景图作为结构化视觉信息来执行可控结构干预的框架。通过识别推理的关键节点,并通过模仿典型定位失败的四种有针对性的策略来扰动它们,SceneAlign构建了在语言上合理但基于不准确视觉事实的困难负面理由。这些对比对用于直接偏好优化,以引导模型朝着细粒度的、结构忠实的推理方向发展。在七个视觉推理基准测试中,SceneAlign始终提高答案准确性和推理忠实性,突出了 grounding-aware 对齐对于多模态推理的有效性。
🔬 方法详解
问题定义:多模态大型语言模型在复杂视觉场景中进行推理时,容易出现幻觉实体、关系错位、步骤跳跃等问题,导致推理不忠实。现有方法如文本扰动或答案条件理由,允许模型利用语言先验绕过视觉 grounding,无法有效解决问题。
核心思路:利用场景图作为结构化视觉信息,通过可控的结构干预,生成困难负样本,迫使模型关注视觉 grounding。核心思想是,即使语言上合理,但视觉上错误的推理应该被模型识别并避免。
技术框架:SceneAlign框架主要包含以下几个阶段:1) 构建场景图:从视觉场景中提取实体和关系,构建场景图。2) 识别关键节点:确定场景图中对推理至关重要的节点。3) 结构化扰动:通过四种策略(实体替换、关系替换、属性修改、节点删除)对关键节点进行扰动,生成困难负样本。4) 偏好优化:使用直接偏好优化(Direct Preference Optimization, DPO)算法,利用原始正样本和扰动后的负样本进行对比学习,引导模型学习结构忠实的推理。
关键创新:SceneAlign的关键创新在于其 grounding-aware 的对齐方式,它不是简单地依赖文本扰动,而是通过场景图进行结构化干预,生成视觉上不一致的负样本。这种方法能够更有效地迫使模型关注视觉 grounding,避免利用语言先验进行推理。
关键设计:SceneAlign使用了四种结构化扰动策略:实体替换(将关键实体替换为场景中的其他实体)、关系替换(改变实体之间的关系)、属性修改(修改实体的属性)和节点删除(直接删除关键节点)。这些策略旨在模拟常见的视觉 grounding 失败情况。损失函数采用 DPO 损失,鼓励模型对原始正样本给出更高的偏好,对扰动后的负样本给出更低的偏好。
📊 实验亮点
SceneAlign在七个视觉推理基准测试中均取得了显著提升。例如,在 GQA 数据集上,SceneAlign 将答案准确率提高了 3-5 个百分点。与现有的基于文本扰动的方法相比,SceneAlign 能够更有效地提高推理忠实性,减少幻觉实体的出现。实验结果表明,grounding-aware 的对齐方式对于多模态推理至关重要。
🎯 应用场景
SceneAlign可应用于各种需要精确视觉推理的场景,例如视觉问答、图像描述生成、机器人导航等。该研究有助于提高多模态大模型在复杂视觉环境中的可靠性和安全性,并为开发更智能的视觉系统奠定基础。未来可应用于自动驾驶、智能安防、医疗影像分析等领域。
📄 摘要(原文)
Multimodal large language models often struggle with faithful reasoning in complex visual scenes, where intricate entities and relations require precise visual grounding at each step. This reasoning unfaithfulness frequently manifests as hallucinated entities, mis-grounded relations, skipped steps, and over-specified reasoning. Existing preference-based approaches, typically relying on textual perturbations or answer-conditioned rationales, fail to address this challenge as they allow models to exploit language priors to bypass visual grounding. To address this, we propose SceneAlign, a framework that leverages scene graphs as structured visual information to perform controllable structural interventions. By identifying reasoning-critical nodes and perturbing them through four targeted strategies that mimic typical grounding failures, SceneAlign constructs hard negative rationales that remain linguistically plausible but are grounded in inaccurate visual facts. These contrastive pairs are used in Direct Preference Optimization to steer models toward fine-grained, structure-faithful reasoning. Across seven visual reasoning benchmarks, SceneAlign consistently improves answer accuracy and reasoning faithfulness, highlighting the effectiveness of grounding-aware alignment for multimodal reasoning.