Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
作者: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-12-04
备注: IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2026. Project page: https://kpc0810.github.io/santa/
💡 一句话要点
提出SANTA框架,通过自增强对比对齐缓解多模态LLM中的对象和动作幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态LLM 视频描述生成 幻觉缓解 对比学习 自增强 对象识别 动作识别
📋 核心要点
- 多模态LLM在视频描述生成中存在对象和动作幻觉问题,现有方法难以有效缓解动态视频中的此类幻觉。
- SANTA框架通过幻觉自增强识别潜在幻觉,并利用对比学习增强模型对视觉事实的关注,减少虚假相关性。
- 实验结果表明,SANTA在缓解对象和动作幻觉方面优于现有方法,并在幻觉检测基准上取得了显著提升。
📝 摘要(中文)
多模态大型语言模型(MLLM)的最新进展表明,它们具有为输入视频生成描述性字幕的卓越能力。然而,这些模型在生成的描述中存在事实不准确的问题,导致严重的幻觉问题。虽然之前的工作已经探索了减轻静态图像的幻觉,但联合减轻动态视频的视觉对象和时间动作幻觉仍然是一项具有挑战性且尚未解决的任务。为了应对这一挑战,我们提出了一个自增强对比对齐(SANTA)框架,通过免除虚假相关性并强调视觉事实来实现对象和动作的忠实性。SANTA采用了一种幻觉自增强方案来识别MLLM中潜在的幻觉,并将原始字幕转换为对比负样本。此外,我们开发了一种轨迹片段-短语对比对齐方法,将区域对象和关系引导的动作与其相应的视觉和时间短语进行匹配。大量的实验表明,SANTA在缓解对象和动作幻觉方面优于现有方法,并在幻觉检查基准上产生了卓越的性能。
🔬 方法详解
问题定义:多模态LLM在生成视频描述时,容易产生对象和动作的幻觉,即生成与视频内容不符的描述。现有方法主要针对静态图像,无法有效解决动态视频中对象和动作的时间一致性问题,以及对象间的关系推理问题。这些幻觉降低了生成描述的可靠性和实用性。
核心思路:SANTA的核心思路是通过自增强的方式,主动挖掘模型可能产生的幻觉,并利用对比学习,使模型能够区分真实信息和幻觉信息,从而减少幻觉的产生。通过对比学习,模型学习到更鲁棒的视觉表示,并能够更好地将视觉信息与文本信息对齐。
技术框架:SANTA框架主要包含两个核心模块:幻觉自增强模块和轨迹片段-短语对比对齐模块。首先,幻觉自增强模块通过对原始字幕进行修改,生成包含潜在幻觉的负样本。然后,轨迹片段-短语对比对齐模块将视频中的对象轨迹片段和动作短语与对应的视觉和时间信息进行对齐,从而增强模型对视觉事实的理解。整个框架通过对比学习的方式进行训练,使得模型能够更好地识别和避免幻觉。
关键创新:SANTA的关键创新在于其自增强的对比学习方法。传统的对比学习通常依赖于人工标注的负样本,而SANTA通过自动生成幻觉负样本,能够更有效地挖掘模型自身的弱点,并进行针对性的训练。此外,轨迹片段-短语对比对齐模块能够更好地捕捉视频中的时序信息和对象关系,从而更有效地缓解动作幻觉。
关键设计:幻觉自增强模块通过随机替换原始字幕中的对象和动作,生成负样本。轨迹片段-短语对比对齐模块使用Transformer网络对视频帧和字幕进行编码,并使用对比损失函数来优化模型。对比损失函数的设计考虑了正样本和负样本之间的相似度,使得模型能够更好地区分真实信息和幻觉信息。具体的损失函数形式未知,需要在论文中查找。
🖼️ 关键图片
📊 实验亮点
SANTA框架在对象和动作幻觉缓解方面取得了显著的性能提升。具体而言,SANTA在幻觉检查基准上优于现有方法,表明其能够更有效地减少多模态LLM在视频描述生成中的幻觉问题。具体的性能数据和对比基线需要在论文中查找。
🎯 应用场景
该研究成果可应用于视频内容理解、智能监控、视频编辑等领域。例如,在智能监控中,可以利用该技术提高视频分析的准确性,减少误报。在视频编辑中,可以辅助生成更准确的视频描述,提高用户体验。未来,该技术有望进一步扩展到更复杂的视频场景,例如自动驾驶和机器人导航。
📄 摘要(原文)
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.