Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding
作者: Jinlin Li, Yuran Wang, Yifei Yuan, Xiao Zhou, Yingying Zhang, Xixian Yong, Yefeng Zheng, Xian Wu
分类: cs.CV
发布日期: 2025-10-21
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应Token集成解码(ATED),无需训练即可有效缓解多模态大模型中的幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 幻觉缓解 集成学习 自适应解码
📋 核心要点
- 现有LVLM易产生幻觉,描述不存在或错误的物体,现有缓解方法在可扩展性和模型独立性上存在挑战。
- 提出ATED,一种token级别的集成解码框架,通过动态加权多个LVLM的预测来减少幻觉。
- 实验表明,ATED在幻觉检测基准上显著优于现有方法,且不影响生成文本的流畅性和相关性。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在图像描述和视觉问答等多模态任务中取得了显著成果。然而,它们仍然容易产生对象幻觉——生成对不存在或错误识别的对象的描述。先前的工作通过辅助训练目标或外部模块部分地缓解了这个问题,但在可扩展性、适应性和模型独立性方面仍然存在挑战。为了解决这些限制,我们提出了一种自适应Token集成解码(ATED),这是一个无需训练的token级别集成框架,通过在推理期间聚合来自多个LVLM的预测来减轻幻觉。ATED动态地计算每个模型基于不确定性的权重,反映了它们在每个解码步骤中的可靠性。它还集成了不同的解码路径,以提高上下文基础和语义一致性。在标准幻觉检测基准上的实验表明,ATED显著优于最先进的方法,在不影响流畅性或相关性的情况下减少了幻觉。我们的发现强调了自适应集成的优势,并为提高高风险应用中LVLM的鲁棒性指明了一个有希望的方向。代码可在https://github.com/jinlin2021/ATED获取。
🔬 方法详解
问题定义:大型视觉语言模型(LVLMs)在多模态任务中表现出色,但容易产生幻觉,即生成不存在或错误识别的对象的描述。现有的缓解方法,如辅助训练目标或外部模块,存在可扩展性差、适应性弱以及对特定模型依赖性强等问题。这些方法通常需要额外的训练或修改模型结构,限制了其在实际应用中的灵活性和效率。
核心思路:ATED的核心思路是在推理阶段,通过集成多个LVLM的预测结果来减少幻觉。它不是依赖于单个模型的输出,而是利用多个模型的互补信息,从而提高生成结果的准确性和可靠性。ATED的关键在于自适应地为每个模型的预测分配权重,权重基于模型在当前解码步骤中的不确定性。
技术框架:ATED是一个token级别的集成解码框架,主要包含以下几个阶段:1) 使用多个LVLM独立生成token预测;2) 计算每个模型在当前token预测上的不确定性,并基于此计算权重;3) 根据权重对多个模型的预测进行加权平均,得到最终的token预测;4) 将预测的token添加到已生成的序列中,并重复上述步骤,直到生成完整的文本序列。该框架无需训练,可直接应用于现有的LVLM。
关键创新:ATED最重要的创新点在于其自适应的权重计算方法。它不是简单地对多个模型的预测进行平均,而是根据每个模型在当前解码步骤中的不确定性动态地调整权重。这种方法能够充分利用各个模型的优势,同时降低不可靠模型的贡献,从而有效地减少幻觉。此外,ATED是一种模型无关的方法,可以应用于各种不同的LVLM。
关键设计:ATED的关键设计包括:1) 不确定性度量:论文可能使用了诸如softmax概率的熵或方差等指标来衡量模型预测的不确定性。2) 权重计算:基于不确定性度量,论文可能使用了诸如softmax函数或归一化方法来计算每个模型的权重。3) 集成方法:论文可能使用了加权平均或投票等方法来集成多个模型的预测。具体的参数设置和网络结构细节需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
ATED在标准幻觉检测基准上显著优于现有方法,在不影响流畅性和相关性的前提下,有效降低了幻觉。具体性能数据(例如,幻觉率降低百分比)和对比基线需要在论文原文中查找。该方法无需训练,易于部署和应用,具有很强的实用价值。
🎯 应用场景
ATED可应用于各种需要高可靠性的多模态任务,例如医疗诊断报告生成、自动驾驶场景理解、金融文档分析等。通过减少幻觉,ATED可以提高LVLM在这些领域的应用价值,并降低因错误信息带来的风险。未来,ATED可以进一步扩展到其他类型的多模态模型和任务中,并与其他缓解幻觉的方法相结合,以实现更好的性能。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) have recently achieved impressive results in multimodal tasks such as image captioning and visual question answering. However, they remain prone to object hallucination -- generating descriptions of nonexistent or misidentified objects. Prior work has partially mitigated this via auxiliary training objectives or external modules, but challenges remain in terms of scalability, adaptability, and model independence. To address these limitations, we propose Adaptive Token Ensemble Decoding (ATED), a training-free, token-level ensemble framework that mitigates hallucination by aggregating predictions from multiple LVLMs during inference. ATED dynamically computes uncertainty-based weights for each model, reflecting their reliability at each decoding step. It also integrates diverse decoding paths to improve contextual grounding and semantic consistency. Experiments on standard hallucination detection benchmarks demonstrate that ATED significantly outperforms state-of-the-art methods, reducing hallucination without compromising fluency or relevance. Our findings highlight the benefits of adaptive ensembling and point to a promising direction for improving LVLM robustness in high-stakes applications. The code is available at https://github.com/jinlin2021/ATED.