Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation

作者: Zhouyu Jiang, Mengshu Sun, Zhiqiang Zhang, Lei Liang

分类: cs.CL

发布日期: 2025-02-26

🔗 代码/项目: GITHUB

💡 一句话要点

提出Bi'an，一个双语基准和模型，用于检索增强生成中的幻觉检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 幻觉检测 大型语言模型 双语基准 领域优化

📋 核心要点

现有RAG幻觉检测方法依赖LLM-as-a-Judge，但缺乏全面评估基准和领域优化模型。
Bi'an框架构建双语基准数据集，并微调轻量级判断模型，以提升幻觉检测的准确性和效率。
实验表明，Bi'an的14B模型性能超越更大规模的基线模型，并与先进的闭源LLM竞争。

📝 摘要（中文）

检索增强生成（RAG）能有效减少大型语言模型（LLM）中的幻觉，但仍可能产生不一致或无依据的内容。尽管LLM-as-a-Judge因其实现简单而被广泛用于RAG幻觉检测，但它面临两个主要挑战：缺乏全面的评估基准和领域优化的判断模型。为了弥合这些差距，我们引入了 extbf{Bi'an}，这是一个新颖的框架，包含双语基准数据集和轻量级判断模型。该数据集支持跨多个RAG场景的严格评估，而判断模型则通过紧凑的开源LLM进行微调。在Bi'anBench上的大量实验评估表明，我们的14B模型优于参数规模超过五倍的基线模型，并且可以与最先进的闭源LLM相媲美。我们将很快在https://github.com/OpenSPG/KAG上发布我们的数据和模型。

🔬 方法详解

问题定义：论文旨在解决检索增强生成（RAG）系统中，大型语言模型（LLM）产生的幻觉问题。现有方法，特别是基于LLM-as-a-Judge的方法，虽然简单易用，但缺乏针对RAG场景的全面评估基准，并且缺乏领域优化的判断模型，导致幻觉检测效果不佳。

核心思路：论文的核心思路是构建一个专门针对RAG幻觉检测的双语基准数据集（Bi'anBench），并在此基础上微调轻量级的开源LLM，使其成为领域优化的判断模型。通过高质量的数据集和针对性训练，提升模型判断RAG生成内容是否真实、一致的能力。

技术框架：Bi'an框架主要包含两个部分：一是双语基准数据集Bi'anBench，用于评估幻觉检测模型的性能；二是轻量级判断模型，通过在Bi'anBench上进行微调得到。整体流程是，首先使用Bi'anBench评估现有幻觉检测方法，然后利用Bi'anBench训练新的判断模型，最后再次使用Bi'anBench评估新模型的性能。

关键创新：论文的关键创新在于构建了一个专门针对RAG幻觉检测的双语基准数据集Bi'anBench。该数据集覆盖了多种RAG场景，并提供了高质量的标注，可以更全面、更准确地评估幻觉检测模型的性能。此外，通过微调轻量级开源LLM，得到领域优化的判断模型，降低了计算成本，并提高了幻觉检测的效率。

关键设计：Bi'anBench数据集的设计考虑了多种RAG场景，例如知识问答、文本摘要等。数据集包含中英文两种语言，可以评估模型在不同语言环境下的幻觉检测能力。判断模型的微调采用了常见的监督学习方法，损失函数可以选择交叉熵损失等。具体的网络结构取决于所选择的开源LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Bi'an框架的14B模型在Bi'anBench上取得了显著的性能提升，超越了参数规模超过五倍的基线模型，并与最先进的闭源LLM相媲美。这表明，通过高质量的数据集和领域优化，可以有效提升幻觉检测模型的性能，并降低计算成本。

🎯 应用场景

该研究成果可广泛应用于各种基于RAG的自然语言处理任务中，例如智能客服、知识库问答、文本摘要等。通过提高RAG系统的可靠性和准确性，可以提升用户体验，并减少错误信息的传播。未来，该方法可以进一步扩展到其他语言和领域，并与其他幻觉缓解技术相结合。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) effectively reduces hallucinations in Large Language Models (LLMs) but can still produce inconsistent or unsupported content. Although LLM-as-a-Judge is widely used for RAG hallucination detection due to its implementation simplicity, it faces two main challenges: the absence of comprehensive evaluation benchmarks and the lack of domain-optimized judge models. To bridge these gaps, we introduce \textbf{Bi'an}, a novel framework featuring a bilingual benchmark dataset and lightweight judge models. The dataset supports rigorous evaluation across multiple RAG scenarios, while the judge models are fine-tuned from compact open-source LLMs. Extensive experimental evaluations on Bi'anBench show our 14B model outperforms baseline models with over five times larger parameter scales and rivals state-of-the-art closed-source LLMs. We will release our data and models soon at https://github.com/OpenSPG/KAG.

Bi'an: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理