Osiris: A Lightweight Open-Source Hallucination Detection System

📄 arXiv: 2505.04844v1 📥 PDF

作者: Alex Shan, John Bauer, Christopher D. Manning

分类: cs.CL

发布日期: 2025-05-07

备注: Stanford 191W


💡 一句话要点

Osiris:轻量级开源幻觉检测系统,提升RAG系统可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 检索增强生成 RAG系统 监督微调 大型语言模型

📋 核心要点

  1. 现有RAG系统易受LLM幻觉影响,人工评估和闭源模型成本高、速度慢,难以规模化。
  2. Osiris通过监督微调,训练小型模型检测RAG系统中的幻觉,降低计算成本。
  3. 实验表明,7B模型在幻觉检测基准测试中,召回率优于GPT-4o,精度和准确率具有竞争力。

📝 摘要(中文)

检索增强生成(RAG)系统因其利用真实来源来帮助大型语言模型(LLM)生成更符合事实的响应而得到广泛应用。然而,幻觉——LLM响应与提供的上下文不符的情况——常常阻碍这些系统在生产环境中部署。目前的幻觉检测方法通常涉及人工评估或使用闭源模型来审查RAG系统的输出,但人工评估和闭源模型都存在成本高、推理速度慢等扩展性问题。本文介绍了一个带有诱导幻觉的扰动多跳问答数据集。通过在我们数据集上进行监督微调,我们使用一个7B模型在RAGTruth幻觉检测基准测试上实现了比GPT-4o更好的召回率,并在精度和准确率上提供了有竞争力的性能,同时使用的参数量仅为其一小部分。代码已开源。

🔬 方法详解

问题定义:论文旨在解决RAG系统中LLM产生的幻觉问题。现有幻觉检测方法,如人工评估和使用闭源LLM,存在成本高昂、推理速度慢、难以大规模应用的痛点。这些问题限制了RAG系统在实际生产环境中的部署。

核心思路:论文的核心思路是利用监督微调,训练一个参数量较小的模型来检测RAG系统输出中的幻觉。通过构建一个包含诱导幻觉的数据集,使模型能够学习区分真实信息和幻觉信息,从而实现高效且低成本的幻觉检测。

技术框架:Osiris的整体框架包括以下几个主要步骤:1)构建包含诱导幻觉的扰动多跳问答数据集;2)使用该数据集对小型语言模型(例如7B模型)进行监督微调;3)使用微调后的模型对RAG系统的输出进行幻觉检测。该框架的核心在于数据集的构建和模型的微调。

关键创新:论文的关键创新在于构建了一个带有诱导幻觉的扰动多跳问答数据集,并证明了使用小型模型通过监督微调可以在幻觉检测任务上取得与大型闭源模型相媲美的性能。与现有方法相比,该方法降低了计算成本,提高了推理速度,更易于部署和扩展。

关键设计:数据集构建的关键在于如何有效地诱导幻觉。论文可能采用了某种策略来修改原始的多跳问答数据,例如引入不相关的信息、修改关键实体或关系等,从而生成包含幻觉的样本。模型微调的关键在于选择合适的损失函数和训练策略,以使模型能够准确地区分真实信息和幻觉信息。具体的参数设置和网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Osiris在RAGTruth幻觉检测基准测试中表现出色。使用7B模型,Osiris实现了比GPT-4o更好的召回率,并在精度和准确率上提供了有竞争力的性能,同时使用的参数量仅为其一小部分。这表明,通过监督微调,小型模型可以在幻觉检测任务上取得优异的性能。

🎯 应用场景

Osiris可应用于各种需要RAG系统的场景,例如智能客服、知识库问答、内容创作等。通过检测和消除LLM产生的幻觉,可以提高RAG系统的可靠性和准确性,从而提升用户体验和降低风险。该研究成果有助于推动RAG系统在实际生产环境中的广泛应用。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) systems have gained widespread adoption by application builders because they leverage sources of truth to enable Large Language Models (LLMs) to generate more factually sound responses. However, hallucinations, instances of LLM responses that are unfaithful to the provided context, often prevent these systems from being deployed in production environments. Current hallucination detection methods typically involve human evaluation or the use of closed-source models to review RAG system outputs for hallucinations. Both human evaluators and closed-source models suffer from scaling issues due to their high costs and slow inference speeds. In this work, we introduce a perturbed multi-hop QA dataset with induced hallucinations. Via supervised fine-tuning on our dataset, we achieve better recall with a 7B model than GPT-4o on the RAGTruth hallucination detection benchmark and offer competitive performance on precision and accuracy, all while using a fraction of the parameters. Code is released at our repository.