Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA

📄 arXiv: 2312.13594v1 📥 PDF

作者: Chengen Lai, Shengli Song, Shiqi Meng, Jingyang Li, Sitong Yan, Guangneng Hu

分类: cs.CL, cs.AI, cs.CV

发布日期: 2023-12-21

备注: AAAI 2024


💡 一句话要点

提出基于多层次对比学习的VQA自然语言解释模型,提升解释的忠实性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉问答 自然语言解释 对比学习 多模态学习 可解释性

📋 核心要点

  1. 现有VQA-NLE方法生成的解释存在逻辑、事实和语义一致性问题,降低了解释的忠实性。
  2. 提出MCLE模型,利用多层次对比学习,对齐解释与视觉问题和答案的特征空间,提升一致性。
  3. 实验结果表明,MCLE在VQA-NLE基准上有效,并通过消融分析和案例研究验证了其有效性。

📝 摘要(中文)

视觉问答中的自然语言解释(VQA-NLE)旨在通过生成自然语言句子来解释模型的决策过程,从而提高用户对黑盒系统的信任。现有的事后解释方法在获得合理的解释方面取得了显著进展。然而,这些事后解释并不总是与人类的逻辑推理相符,存在以下问题:1)演绎不满足性,生成的解释在逻辑上无法推导出答案;2)事实不一致性,模型在没有考虑图像事实的情况下,伪造其对答案的反事实解释;3)语义扰动不敏感性,模型无法识别由小扰动引起的语义变化。这些问题降低了模型生成的解释的忠实性。为了解决上述问题,我们提出了一种新颖的自监督多层次对比学习自然语言解释模型(MCLE),用于VQA,该模型具有语义级别、图像级别和实例级别的真实和反事实样本。MCLE提取判别性特征,并将解释的特征空间与视觉问题和答案对齐,以生成更一致的解释。我们进行了广泛的实验、消融分析和案例研究,以证明我们的方法在两个VQA-NLE基准上的有效性。

🔬 方法详解

问题定义:论文旨在解决视觉问答(VQA)中自然语言解释(NLE)的忠实性问题。现有的事后解释方法虽然能够生成看似合理的解释,但这些解释往往与人类的逻辑推理不一致,具体表现为演绎不满足性(解释无法逻辑导出答案)、事实不一致性(解释与图像事实相悖)以及语义扰动不敏感性(对语义微小变化反应迟钝)。这些问题严重影响了用户对VQA系统的信任度。

核心思路:论文的核心思路是利用多层次对比学习,迫使模型生成的解释在语义、图像和实例三个层面上与视觉问题和答案保持一致。通过构建真实和反事实样本,模型能够学习到更具判别性的特征表示,从而生成更忠实、更可靠的解释。这种对比学习方法旨在缩小解释与视觉信息之间的语义鸿沟,确保解释能够准确反映模型的推理过程。

技术框架:MCLE模型的技术框架主要包含以下几个模块:1) 特征提取模块:用于提取视觉问题、答案和候选解释的特征表示。2) 多层次对比学习模块:包含语义级别、图像级别和实例级别的对比学习损失函数,用于对齐不同模态的特征空间。3) 解释生成模块:基于对齐的特征表示,生成自然语言解释。整个流程是自监督的,不需要额外的人工标注。

关键创新:该论文的关键创新在于提出了多层次对比学习框架,将对比学习的思想引入到VQA-NLE任务中,并从语义、图像和实例三个不同层次构建对比损失函数。这种多层次的对比学习能够更全面地约束解释的生成过程,从而提高解释的忠实性。与现有方法相比,MCLE不仅关注解释的合理性,更关注解释与视觉信息之间的一致性。

关键设计:在语义级别,论文使用文本相似度作为对比学习的依据;在图像级别,论文利用图像区域的特征相似度进行对比;在实例级别,论文则通过构建反事实样本来增强模型的鲁棒性。损失函数的设计至关重要,论文采用了InfoNCE损失函数,并针对不同层次的对比学习进行了调整。具体的网络结构和参数设置在论文中有详细描述,但核心在于如何有效地构建对比样本和设计对比损失函数。

📊 实验亮点

实验结果表明,MCLE模型在两个VQA-NLE基准上都取得了显著的性能提升。相较于现有最佳方法,MCLE在解释的忠实性指标上取得了明显的优势。消融实验进一步验证了多层次对比学习的有效性,证明了每个层次的对比学习都对最终性能有所贡献。案例研究也表明,MCLE能够生成更符合人类逻辑推理的解释。

🎯 应用场景

该研究成果可应用于提升视觉问答系统的可信度和透明度,尤其是在医疗诊断、自动驾驶等高风险领域。通过提供更忠实的自然语言解释,用户可以更好地理解模型的决策过程,从而更放心地使用这些系统。未来,该方法还可以推广到其他需要可解释性的人工智能应用中。

📄 摘要(原文)

Natural language explanation in visual question answer (VQA-NLE) aims to explain the decision-making process of models by generating natural language sentences to increase users' trust in the black-box systems. Existing post-hoc methods have achieved significant progress in obtaining a plausible explanation. However, such post-hoc explanations are not always aligned with human logical inference, suffering from the issues on: 1) Deductive unsatisfiability, the generated explanations do not logically lead to the answer; 2) Factual inconsistency, the model falsifies its counterfactual explanation for answers without considering the facts in images; and 3) Semantic perturbation insensitivity, the model can not recognize the semantic changes caused by small perturbations. These problems reduce the faithfulness of explanations generated by models. To address the above issues, we propose a novel self-supervised \textbf{M}ulti-level \textbf{C}ontrastive \textbf{L}earning based natural language \textbf{E}xplanation model (MCLE) for VQA with semantic-level, image-level, and instance-level factual and counterfactual samples. MCLE extracts discriminative features and aligns the feature spaces from explanations with visual question and answer to generate more consistent explanations. We conduct extensive experiments, ablation analysis, and case study to demonstrate the effectiveness of our method on two VQA-NLE benchmarks.