C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation

📄 arXiv: 2504.10167v1 📥 PDF

作者: Xu Zhang, Zhifei Liu, Jiahao Wang, Huixuan Zhang, Fan Xu, Junzhe Zhang, Xiaojun Wan

分类: cs.CL, cs.AI

发布日期: 2025-04-14


💡 一句话要点

提出C-FAITH:一个中文细粒度幻觉评估基准,用于自动化评估大语言模型的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉评估 中文基准 自动化评估 智能代理

📋 核心要点

  1. 现有中文幻觉评估基准依赖人工标注,成本高昂且难以自动化,限制了对LLM幻觉问题的深入研究。
  2. 论文提出HaluAgent框架,通过智能代理自动构建细粒度QA数据集,降低了幻觉评估的成本和复杂度。
  3. 构建了包含60,702个条目的C-FAITH中文幻觉基准,并对16个主流LLM进行了全面评估,提供了详细的实验结果。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展,但它们仍然容易产生幻觉,严重阻碍了其广泛应用。幻觉研究需要动态和细粒度的评估。然而,现有的大多数幻觉基准(尤其是在中文中)依赖于人工标注,这使得自动且经济高效的幻觉评估具有挑战性。为了解决这个问题,我们引入了HaluAgent,一个基于知识文档自动构建细粒度QA数据集的代理框架。我们的实验表明,手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent,我们构建了C-FAITH,一个中文QA幻觉基准,它由从网络抓取的1,399个知识文档创建,总计60,702个条目。我们使用我们提出的C-FAITH全面评估了16个主流LLM,提供了详细的实验结果和分析。

🔬 方法详解

问题定义:当前中文大语言模型(LLM)的幻觉问题日益突出,但缺乏高质量、可自动评估的中文幻觉评估基准。现有基准主要依赖人工标注,成本高、效率低,难以支持对LLM幻觉问题的细粒度分析和持续改进。因此,如何构建一个自动化的、细粒度的中文幻觉评估基准成为亟待解决的问题。

核心思路:论文的核心思路是利用智能代理(Agent)自动生成高质量的QA数据集,从而构建一个可自动评估的中文幻觉基准。通过精心设计的规则和提示优化,确保生成的数据集能够有效区分LLM的真实知识和幻觉内容。

技术框架:论文提出的技术框架主要包含以下几个模块:1) 知识文档获取:通过网络爬取获取1,399个知识文档。2) HaluAgent:基于知识文档,利用智能代理自动生成QA数据集。HaluAgent通过预定义的规则和提示,生成包含正确答案和错误答案的问答对。3) C-FAITH构建:将生成的QA数据集整理成C-FAITH中文幻觉基准。4) LLM评估:使用C-FAITH评估16个主流LLM的幻觉表现。

关键创新:论文的关键创新在于提出了HaluAgent框架,该框架能够自动生成细粒度的QA数据集,从而构建一个可自动评估的中文幻觉基准。与现有方法相比,HaluAgent无需人工标注,降低了成本,提高了效率,并且能够生成更细粒度的数据,从而支持对LLM幻觉问题的深入分析。

关键设计:HaluAgent的关键设计包括:1) 手动设计的规则:用于指导智能代理生成高质量的QA数据。2) 提示优化:通过优化提示,提高智能代理生成数据的准确性和多样性。3) 数据清洗:对生成的数据进行清洗,去除噪声数据,确保数据集的质量。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建的C-FAITH基准包含60,702个条目,覆盖了广泛的知识领域。实验结果表明,该基准能够有效区分不同LLM的幻觉表现,并揭示了现有LLM在中文幻觉问题上的不足。例如,部分模型在特定类型的问答上表现出较高的幻觉率,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于大语言模型的评测与改进,帮助开发者更准确地评估模型的幻觉程度,并针对性地进行优化。此外,C-FAITH基准可以促进中文自然语言处理领域对幻觉问题的研究,推动相关技术的进步,例如提升信息检索、问答系统等应用的可靠性。

📄 摘要(原文)

Despite the rapid advancement of large language models, they remain highly susceptible to generating hallucinations, which significantly hinders their widespread application. Hallucination research requires dynamic and fine-grained evaluation. However, most existing hallucination benchmarks (especially in Chinese language) rely on human annotations, making automatical and cost-effective hallucination evaluation challenging. To address this, we introduce HaluAgent, an agentic framework that automatically constructs fine-grained QA dataset based on some knowledge documents. Our experiments demonstrate that the manually designed rules and prompt optimization can improve the quality of generated data. Using HaluAgent, we construct C-FAITH, a Chinese QA hallucination benchmark created from 1,399 knowledge documents obtained from web scraping, totaling 60,702 entries. We comprehensively evaluate 16 mainstream LLMs with our proposed C-FAITH, providing detailed experimental results and analysis.