Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG

作者: Baiyu Chen, Wilson Wongso, Xiaoqian Hu, Yue Tan, Flora Salim

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-07-27

备注: KDD Cup 2025 Meta CRAG-MM Challenge

🔗 代码/项目: GITHUB

💡 一句话要点

提出多阶段验证中心框架，缓解多模态RAG中的幻觉问题

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 多模态RAG 幻觉缓解 视觉语言模型 知识检索 事后验证

📋 核心要点

现有视觉语言模型在处理多模态信息时，容易产生幻觉，尤其是在面对长尾实体和复杂推理时，影响了事实准确性。
论文提出多阶段验证中心框架，通过查询路由、检索摘要、双路径生成和事后验证，优先保证答案的真实性和可靠性。
该方法在KDD Cup 2025 Meta CRAG-MM挑战赛Task 1中获得第3名，验证了其在复杂多模态RAG系统中减少幻觉的有效性。

📝 摘要（中文）

本文介绍了CRUISE团队为KDD Cup 2025 Meta综合RAG基准测试（多模态、多轮）（CRAG-MM）挑战赛开发的技术方案。该挑战旨在解决现代视觉语言模型（VLM）的一个关键局限性：产生幻觉的倾向，尤其是在面对以自我为中心的图像、长尾实体和复杂的多跳问题时。这个问题在实际应用中尤其突出，因为用户提出的事实性查询需要跨多种模态的高度事实准确性。为了解决这个问题，我们提出了一个稳健的多阶段框架，该框架优先考虑事实准确性和真实性，而不是完整性。我们的解决方案集成了轻量级的查询路由以提高效率、查询感知的检索和摘要流程、双路径生成以及事后验证。这种保守策略旨在最大限度地减少幻觉，因为幻觉在比赛的评分指标中会受到严厉惩罚。我们的方法在Task 1中获得了第3名，证明了在复杂的多模态RAG系统中优先考虑答案可靠性的有效性。我们的实现可在https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM 获取。

🔬 方法详解

问题定义：论文旨在解决多模态检索增强生成（RAG）系统中，视觉语言模型（VLM）容易产生幻觉的问题。尤其是在处理包含自我中心图像、长尾实体以及需要多跳推理的复杂问题时，VLM的幻觉问题更加严重。现有方法往往侧重于答案的完整性，而忽略了事实的准确性，导致在实际应用中可靠性不足。

核心思路：论文的核心思路是采用一种“验证中心”的保守策略，即优先保证答案的真实性和可靠性，而不是追求信息的完整性。通过多阶段的验证机制，尽可能地减少模型产生幻觉的可能性。这种策略基于比赛的评分规则，幻觉会受到严厉的惩罚。

技术框架：整体框架包含以下几个主要模块：1) 轻量级查询路由：用于提高效率，快速确定查询类型。2) 查询感知的检索和摘要流程：根据查询内容，从知识库中检索相关信息，并进行摘要。3) 双路径生成：采用两条不同的生成路径，增加答案的多样性，并为后续验证提供依据。4) 事后验证：对生成的答案进行验证，确保其与检索到的信息一致，并消除幻觉。

关键创新：论文的关键创新在于其多阶段验证的框架设计，以及对事实准确性的高度重视。与现有方法相比，该方法更加注重答案的可靠性，通过多重验证机制，有效地减少了幻觉的产生。双路径生成也为验证提供了更多可能性。

关键设计：具体的技术细节包括：轻量级查询路由器的具体实现方式（例如，基于规则或轻量级模型的分类器）；查询感知检索和摘要流程中，如何根据查询调整检索策略和摘要算法；双路径生成中，两条路径的具体模型选择和训练方式；事后验证模块中，采用何种验证方法（例如，基于规则的验证、基于模型的验证或人工验证）。这些细节在论文中可能没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该方法在KDD Cup 2025 Meta CRAG-MM挑战赛Task 1中获得了第3名，证明了其在复杂多模态RAG系统中减少幻觉的有效性。虽然没有提供具体的性能数据和提升幅度，但比赛排名本身就说明了该方法在保证答案可靠性方面的优势。

🎯 应用场景

该研究成果可应用于需要高可信度答案的多模态信息检索场景，例如医疗诊断、法律咨询、金融分析等领域。通过减少视觉语言模型的幻觉，可以提高系统的可靠性和用户信任度，从而更好地服务于实际应用。未来，该方法可以进一步扩展到更多模态和更复杂的推理场景。

📄 摘要（原文）

This paper presents the technical solution developed by team CRUISE for the KDD Cup 2025 Meta Comprehensive RAG Benchmark for Multi-modal, Multi-turn (CRAG-MM) challenge. The challenge aims to address a critical limitation of modern Vision Language Models (VLMs): their propensity to hallucinate, especially when faced with egocentric imagery, long-tail entities, and complex, multi-hop questions. This issue is particularly problematic in real-world applications where users pose fact-seeking queries that demand high factual accuracy across diverse modalities. To tackle this, we propose a robust, multi-stage framework that prioritizes factual accuracy and truthfulness over completeness. Our solution integrates a lightweight query router for efficiency, a query-aware retrieval and summarization pipeline, a dual-pathways generation and a post-hoc verification. This conservative strategy is designed to minimize hallucinations, which incur a severe penalty in the competition's scoring metric. Our approach achieved 3rd place in Task 1, demonstrating the effectiveness of prioritizing answer reliability in complex multi-modal RAG systems. Our implementation is available at https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM .

Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理