Enhancing Semantics in Multimodal Chain of Thought via Soft Negative Sampling

📄 arXiv: 2405.09848v1 📥 PDF

作者: Guangmin Zheng, Jin Wang, Xiaobing Zhou, Xuejie Zhang

分类: cs.CL, cs.AI

发布日期: 2024-05-16

备注: Accepted by LREC-COLING 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出SNSE-CoT方法,通过软负采样增强多模态CoT语义推理能力,缓解幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 链式思考 对比学习 软负采样 幻觉缓解

📋 核心要点

  1. 多模态链式思考(CoT)易受幻觉影响,生成文本质量高但语义错误的推理过程,降低答案准确性。
  2. 提出SNSE-CoT方法,通过软负采样生成与正样本文本相似但语义不同的负样本,增强模型对语义的辨别能力。
  3. 在ScienceQA数据集上的实验表明,SNSE-CoT能够有效缓解幻觉问题,提升多模态推理的准确性。

📝 摘要(中文)

本文针对需要复杂推理的问题,尤其是在文本和多模态场景下,链式思考(CoT)方法被证明是有效的。然而,由于幻觉问题,生成的具有高质量文本但语义不合逻辑的软负样本,并不总是有助于提高答案的准确性。本研究提出了一种使用软负采样(SNSE-CoT)的推理生成方法,以减轻多模态CoT中的幻觉。该方法应用了五种策略来生成软负样本,这些样本与原始样本共享高度相似的文本,但具有不同的语义。双向边际损失(BML)被应用于将它们引入到传统的仅涉及正样本和负样本的对比学习框架中。在ScienceQA数据集上的大量实验证明了该方法的有效性。

🔬 方法详解

问题定义:多模态链式思考(CoT)模型在生成推理链时,容易产生“幻觉”现象,即生成的文本在语法上正确,但与输入的多模态信息不一致,导致推理过程偏离正确方向,最终影响答案的准确性。现有的对比学习方法通常只使用正样本和硬负样本,难以有效区分语义细微差异的软负样本,从而无法有效缓解幻觉问题。

核心思路:本文的核心思路是通过引入软负采样(Soft Negative Sampling)策略,生成与正样本在文本上相似但语义上不同的负样本,从而增强模型对语义的辨别能力。通过对比学习,模型能够更好地区分正样本和软负样本,减少生成语义错误的推理链的可能性,从而缓解幻觉问题。

技术框架:SNSE-CoT方法主要包含以下几个阶段:1) 正样本推理链生成:使用标准的多模态CoT模型生成正样本推理链。2) 软负样本生成:采用五种不同的策略(具体策略未在摘要中详细说明)生成与正样本文本相似但语义不同的软负样本。3) 对比学习训练:将正样本、硬负样本和软负样本一起输入到对比学习框架中,使用双向边际损失(BML)进行训练,优化模型参数。4) 推理与答案生成:使用训练好的模型生成推理链,并根据推理链给出最终答案。

关键创新:该方法最重要的创新点在于引入了软负采样策略,并将其与双向边际损失相结合,用于训练多模态CoT模型。与传统的对比学习方法只使用硬负样本不同,SNSE-CoT能够利用语义细微差异的软负样本,更有效地提升模型对语义的理解和辨别能力,从而缓解幻觉问题。

关键设计:关键设计包括:1) 五种软负样本生成策略的具体实现(摘要未详细说明)。2) 双向边际损失(BML)的具体形式,如何平衡正样本、硬负样本和软负样本之间的关系。3) 对比学习框架的具体实现,包括模型的选择、参数设置等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ScienceQA数据集上的实验结果表明,提出的SNSE-CoT方法能够有效缓解多模态CoT中的幻觉问题,并显著提高答案的准确性。具体的性能数据、对比基线和提升幅度需要在论文中进一步查找。

🎯 应用场景

该研究成果可应用于需要复杂推理的多模态任务,例如科学问答、视觉常识推理、医学诊断等。通过缓解多模态CoT中的幻觉问题,可以提高AI系统在这些领域的可靠性和准确性,从而在教育、医疗、科研等领域发挥更大的作用。未来,该方法可以进一步扩展到其他多模态任务和模型中。

📄 摘要(原文)

Chain of thought (CoT) has proven useful for problems requiring complex reasoning. Many of these problems are both textual and multimodal. Given the inputs in different modalities, a model generates a rationale and then uses it to answer a question. Because of the hallucination issue, the generated soft negative rationales with high textual quality but illogical semantics do not always help improve answer accuracy. This study proposes a rationale generation method using soft negative sampling (SNSE-CoT) to mitigate hallucinations in multimodal CoT. Five methods were applied to generate soft negative samples that shared highly similar text but had different semantics from the original. Bidirectional margin loss (BML) was applied to introduce them into the traditional contrastive learning framework that involves only positive and negative samples. Extensive experiments on the ScienceQA dataset demonstrated the effectiveness of the proposed method. Code and data are released at https://github.com/zgMin/SNSE-CoT.