SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem
作者: Ziqiang Shi, Rujie Liu, Shanshan Yu, Satoshi Munakata, Koichi Shirahata
分类: cs.CV
发布日期: 2026-02-10
备注: ICASSP 2026
💡 一句话要点
SchröMind:通过求解薛定谔桥问题缓解多模态大语言模型中的幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 幻觉缓解 薛定谔桥问题 文本生成 视觉理解
📋 核心要点
- 多模态大语言模型存在幻觉问题,即生成文本与视觉输入不符,限制了其在高风险领域的应用。
- SchröMind通过求解薛定谔桥问题,在幻觉和真实激活间建立token级映射,降低幻觉。
- 实验表明,SchröMind在减少幻觉方面表现出色,并在POPE和MME基准测试中取得了SOTA结果。
📝 摘要(中文)
多模态大语言模型(MLLM)的最新进展在各个领域取得了显著成功。然而,由于持续存在的幻觉问题,即生成的文本与视觉输入相矛盾或忽略视觉输入,它们在高风险领域(如医疗保健)的应用仍然受到限制。我们认为,MLLM可以理解图像,但难以生成准确的token序列。微小的扰动可能会将注意力从真实状态转移到不真实状态,并且文本生成的自回归性质通常会阻止错误纠正。为了解决这个问题,我们提出了SchröMind——一种通过求解薛定谔桥问题来减少幻觉的新框架。它通过轻量级训练在幻觉激活和真实激活之间建立token级别的映射,并以最小的传输成本保持模型的原始能力。在POPE和MME基准上的大量实验表明了SchröMind的优越性,它实现了最先进的性能,同时只引入了最小的计算开销。
🔬 方法详解
问题定义:多模态大语言模型(MLLM)在生成文本时,容易产生与输入图像内容不符的“幻觉”,尤其是在医疗等高风险领域,这种幻觉会带来严重问题。现有方法难以有效纠正这种幻觉,因为文本生成过程的自回归特性使得早期的错误token会持续影响后续生成,并且模型容易受到微小扰动的影响。
核心思路:SchröMind的核心思路是将幻觉问题建模为薛定谔桥问题。通过在幻觉状态和真实状态之间寻找最优的token传输路径,使得模型能够以最小的代价从幻觉状态恢复到真实状态。这种方法旨在纠正模型在生成过程中的偏差,从而减少幻觉的产生。
技术框架:SchröMind框架主要包含以下几个步骤:1) 使用MLLM生成文本;2) 检测生成的文本中是否存在幻觉;3) 如果存在幻觉,则利用薛定谔桥算法,在幻觉状态和真实状态之间寻找最优的token传输路径;4) 根据计算出的传输路径,调整模型的激活状态,从而生成更准确的文本。该框架通过轻量级训练实现,旨在保持模型原有能力的同时,减少幻觉。
关键创新:SchröMind的关键创新在于将薛定谔桥问题引入到多模态大语言模型的幻觉缓解中。与传统的幻觉缓解方法不同,SchröMind不是直接修改模型的结构或训练方式,而是通过在token级别上寻找最优的传输路径,从而实现对幻觉的纠正。这种方法具有更高的灵活性和可解释性。
关键设计:SchröMind的关键设计包括:1) 使用轻量级的训练方式,避免对原始模型造成过大的影响;2) 设计合适的损失函数,用于衡量幻觉状态和真实状态之间的距离,以及传输路径的代价;3) 选择合适的薛定谔桥算法,以高效地计算最优的token传输路径。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
SchröMind在POPE和MME基准测试中取得了显著的性能提升,达到了state-of-the-art水平。实验结果表明,SchröMind能够有效地减少多模态大语言模型中的幻觉,并且只引入了极小的计算开销。具体的性能数据和对比基线在论文中进行了详细的展示。
🎯 应用场景
SchröMind具有广泛的应用前景,尤其是在医疗诊断、自动驾驶、智能客服等对准确性要求极高的领域。通过减少多模态大语言模型中的幻觉,可以提高这些应用的可信度和可靠性,从而更好地服务于人类社会。未来,该技术有望进一步推广到其他多模态任务中,例如视频理解、语音识别等。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have achieved significant success across various domains. However, their use in high-stakes fields like healthcare remains limited due to persistent hallucinations, where generated text contradicts or ignores visual input. We contend that MLLMs can comprehend images but struggle to produce accurate token sequences. Minor perturbations can shift attention from truthful to untruthful states, and the autoregressive nature of text generation often prevents error correction. To address this, we propose SchröMind-a novel framework reducing hallucinations via solving the Schrödinger bridge problem. It establishes a token-level mapping between hallucinatory and truthful activations with minimal transport cost through lightweight training, while preserving the model's original capabilities. Extensive experiments on the POPE and MME benchmarks demonstrate the superiority of Schrödinger, which achieves state-of-the-art performance while introducing only minimal computational overhead.