Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation

📄 arXiv: 2502.19209v1 📥 PDF

作者: Zhouyu Jiang, Mengshu Sun, Zhiqiang Zhang, Lei Liang

分类: cs.CL

发布日期: 2025-02-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出Bi'an,一个双语基准和模型,用于检索增强生成中的幻觉检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 幻觉检测 大型语言模型 双语基准 领域优化

📋 核心要点

  1. 现有RAG幻觉检测方法依赖LLM-as-a-Judge,但缺乏全面评估基准和领域优化模型。
  2. Bi'an框架构建双语基准数据集,并微调轻量级判断模型,以提升幻觉检测的准确性和效率。
  3. 实验表明,Bi'an的14B模型性能超越更大规模的基线模型,并与先进的闭源LLM竞争。

📝 摘要(中文)

检索增强生成(RAG)能有效减少大型语言模型(LLM)中的幻觉,但仍可能产生不一致或无依据的内容。尽管LLM-as-a-Judge因其实现简单而被广泛用于RAG幻觉检测,但它面临两个主要挑战:缺乏全面的评估基准和领域优化的判断模型。为了弥合这些差距,我们引入了 extbf{Bi'an},这是一个新颖的框架,包含双语基准数据集和轻量级判断模型。该数据集支持跨多个RAG场景的严格评估,而判断模型则通过紧凑的开源LLM进行微调。在Bi'anBench上的大量实验评估表明,我们的14B模型优于参数规模超过五倍的基线模型,并且可以与最先进的闭源LLM相媲美。我们将很快在https://github.com/OpenSPG/KAG上发布我们的数据和模型。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)系统中,大型语言模型(LLM)产生的幻觉问题。现有方法,特别是基于LLM-as-a-Judge的方法,虽然简单易用,但缺乏针对RAG场景的全面评估基准,并且缺乏领域优化的判断模型,导致幻觉检测效果不佳。

核心思路:论文的核心思路是构建一个专门针对RAG幻觉检测的双语基准数据集(Bi'anBench),并在此基础上微调轻量级的开源LLM,使其成为领域优化的判断模型。通过高质量的数据集和针对性训练,提升模型判断RAG生成内容是否真实、一致的能力。

技术框架:Bi'an框架主要包含两个部分:一是双语基准数据集Bi'anBench,用于评估幻觉检测模型的性能;二是轻量级判断模型,通过在Bi'anBench上进行微调得到。整体流程是,首先使用Bi'anBench评估现有幻觉检测方法,然后利用Bi'anBench训练新的判断模型,最后再次使用Bi'anBench评估新模型的性能。

关键创新:论文的关键创新在于构建了一个专门针对RAG幻觉检测的双语基准数据集Bi'anBench。该数据集覆盖了多种RAG场景,并提供了高质量的标注,可以更全面、更准确地评估幻觉检测模型的性能。此外,通过微调轻量级开源LLM,得到领域优化的判断模型,降低了计算成本,并提高了幻觉检测的效率。

关键设计:Bi'anBench数据集的设计考虑了多种RAG场景,例如知识问答、文本摘要等。数据集包含中英文两种语言,可以评估模型在不同语言环境下的幻觉检测能力。判断模型的微调采用了常见的监督学习方法,损失函数可以选择交叉熵损失等。具体的网络结构取决于所选择的开源LLM。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Bi'an框架的14B模型在Bi'anBench上取得了显著的性能提升,超越了参数规模超过五倍的基线模型,并与最先进的闭源LLM相媲美。这表明,通过高质量的数据集和领域优化,可以有效提升幻觉检测模型的性能,并降低计算成本。

🎯 应用场景

该研究成果可广泛应用于各种基于RAG的自然语言处理任务中,例如智能客服、知识库问答、文本摘要等。通过提高RAG系统的可靠性和准确性,可以提升用户体验,并减少错误信息的传播。未来,该方法可以进一步扩展到其他语言和领域,并与其他幻觉缓解技术相结合。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) effectively reduces hallucinations in Large Language Models (LLMs) but can still produce inconsistent or unsupported content. Although LLM-as-a-Judge is widely used for RAG hallucination detection due to its implementation simplicity, it faces two main challenges: the absence of comprehensive evaluation benchmarks and the lack of domain-optimized judge models. To bridge these gaps, we introduce \textbf{Bi'an}, a novel framework featuring a bilingual benchmark dataset and lightweight judge models. The dataset supports rigorous evaluation across multiple RAG scenarios, while the judge models are fine-tuned from compact open-source LLMs. Extensive experimental evaluations on Bi'anBench show our 14B model outperforms baseline models with over five times larger parameter scales and rivals state-of-the-art closed-source LLMs. We will release our data and models soon at https://github.com/OpenSPG/KAG.