Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG
作者: Baiyu Chen, Wilson Wongso, Xiaoqian Hu, Yue Tan, Flora Salim
分类: cs.CL, cs.AI, cs.IR
发布日期: 2025-07-27
备注: KDD Cup 2025 Meta CRAG-MM Challenge
🔗 代码/项目: GITHUB
💡 一句话要点
提出多阶段验证中心框架,缓解多模态RAG中的幻觉问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 多模态RAG 幻觉缓解 视觉语言模型 知识检索 事后验证
📋 核心要点
- 现有视觉语言模型在处理多模态信息时,容易产生幻觉,尤其是在面对长尾实体和复杂推理时,影响了事实准确性。
- 论文提出多阶段验证中心框架,通过查询路由、检索摘要、双路径生成和事后验证,优先保证答案的真实性和可靠性。
- 该方法在KDD Cup 2025 Meta CRAG-MM挑战赛Task 1中获得第3名,验证了其在复杂多模态RAG系统中减少幻觉的有效性。
📝 摘要(中文)
本文介绍了CRUISE团队为KDD Cup 2025 Meta综合RAG基准测试(多模态、多轮)(CRAG-MM)挑战赛开发的技术方案。该挑战旨在解决现代视觉语言模型(VLM)的一个关键局限性:产生幻觉的倾向,尤其是在面对以自我为中心的图像、长尾实体和复杂的多跳问题时。这个问题在实际应用中尤其突出,因为用户提出的事实性查询需要跨多种模态的高度事实准确性。为了解决这个问题,我们提出了一个稳健的多阶段框架,该框架优先考虑事实准确性和真实性,而不是完整性。我们的解决方案集成了轻量级的查询路由以提高效率、查询感知的检索和摘要流程、双路径生成以及事后验证。这种保守策略旨在最大限度地减少幻觉,因为幻觉在比赛的评分指标中会受到严厉惩罚。我们的方法在Task 1中获得了第3名,证明了在复杂的多模态RAG系统中优先考虑答案可靠性的有效性。我们的实现可在https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM 获取。
🔬 方法详解
问题定义:论文旨在解决多模态检索增强生成(RAG)系统中,视觉语言模型(VLM)容易产生幻觉的问题。尤其是在处理包含自我中心图像、长尾实体以及需要多跳推理的复杂问题时,VLM的幻觉问题更加严重。现有方法往往侧重于答案的完整性,而忽略了事实的准确性,导致在实际应用中可靠性不足。
核心思路:论文的核心思路是采用一种“验证中心”的保守策略,即优先保证答案的真实性和可靠性,而不是追求信息的完整性。通过多阶段的验证机制,尽可能地减少模型产生幻觉的可能性。这种策略基于比赛的评分规则,幻觉会受到严厉的惩罚。
技术框架:整体框架包含以下几个主要模块:1) 轻量级查询路由:用于提高效率,快速确定查询类型。2) 查询感知的检索和摘要流程:根据查询内容,从知识库中检索相关信息,并进行摘要。3) 双路径生成:采用两条不同的生成路径,增加答案的多样性,并为后续验证提供依据。4) 事后验证:对生成的答案进行验证,确保其与检索到的信息一致,并消除幻觉。
关键创新:论文的关键创新在于其多阶段验证的框架设计,以及对事实准确性的高度重视。与现有方法相比,该方法更加注重答案的可靠性,通过多重验证机制,有效地减少了幻觉的产生。双路径生成也为验证提供了更多可能性。
关键设计:具体的技术细节包括:轻量级查询路由器的具体实现方式(例如,基于规则或轻量级模型的分类器);查询感知检索和摘要流程中,如何根据查询调整检索策略和摘要算法;双路径生成中,两条路径的具体模型选择和训练方式;事后验证模块中,采用何种验证方法(例如,基于规则的验证、基于模型的验证或人工验证)。这些细节在论文中可能没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该方法在KDD Cup 2025 Meta CRAG-MM挑战赛Task 1中获得了第3名,证明了其在复杂多模态RAG系统中减少幻觉的有效性。虽然没有提供具体的性能数据和提升幅度,但比赛排名本身就说明了该方法在保证答案可靠性方面的优势。
🎯 应用场景
该研究成果可应用于需要高可信度答案的多模态信息检索场景,例如医疗诊断、法律咨询、金融分析等领域。通过减少视觉语言模型的幻觉,可以提高系统的可靠性和用户信任度,从而更好地服务于实际应用。未来,该方法可以进一步扩展到更多模态和更复杂的推理场景。
📄 摘要(原文)
This paper presents the technical solution developed by team CRUISE for the KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) challenge. The challenge aims to address a critical limitation of modern Vision Language Models (VLMs): their propensity to hallucinate, especially when faced with egocentric imagery, long-tail entities, and complex, multi-hop questions. This issue is particularly problematic in real-world applications where users pose fact-seeking queries that demand high factual accuracy across diverse modalities. To tackle this, we propose a robust, multi-stage framework that prioritizes factual accuracy and truthfulness over completeness. Our solution integrates a lightweight query router for efficiency, a query-aware retrieval and summarization pipeline, a dual-pathways generation and a post-hoc verification. This conservative strategy is designed to minimize hallucinations, which incur a severe penalty in the competition's scoring metric. Our approach achieved 3rd place in Task 1, demonstrating the effectiveness of prioritizing answer reliability in complex multi-modal RAG systems. Our implementation is available at https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM .