C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation

作者: Xu Zhang, Zhifei Liu, Jiahao Wang, Huixuan Zhang, Fan Xu, Junzhe Zhang, Xiaojun Wan

分类: cs.CL, cs.AI

发布日期: 2025-04-14

💡 一句话要点

提出C-FAITH：一个中文细粒度幻觉评估基准，用于自动化评估大语言模型的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉评估 中文基准 自动化评估 智能代理

📋 核心要点

现有中文幻觉评估基准依赖人工标注，成本高昂且难以自动化，限制了对LLM幻觉问题的深入研究。
论文提出HaluAgent框架，通过智能代理自动构建细粒度QA数据集，降低了幻觉评估的成本和复杂度。
构建了包含60,702个条目的C-FAITH中文幻觉基准，并对16个主流LLM进行了全面评估，提供了详细的实验结果。

📝 摘要（中文）

大型语言模型（LLMs）的快速发展，但它们仍然容易产生幻觉，严重阻碍了其广泛应用。幻觉研究需要动态和细粒度的评估。然而，现有的大多数幻觉基准（尤其是在中文中）依赖于人工标注，这使得自动且经济高效的幻觉评估具有挑战性。为了解决这个问题，我们引入了HaluAgent，一个基于知识文档自动构建细粒度QA数据集的代理框架。我们的实验表明，手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent，我们构建了C-FAITH，一个中文QA幻觉基准，它由从网络抓取的1,399个知识文档创建，总计60,702个条目。我们使用我们提出的C-FAITH全面评估了16个主流LLM，提供了详细的实验结果和分析。

🔬 方法详解

问题定义：当前中文大语言模型（LLM）的幻觉问题日益突出，但缺乏高质量、可自动评估的中文幻觉评估基准。现有基准主要依赖人工标注，成本高、效率低，难以支持对LLM幻觉问题的细粒度分析和持续改进。因此，如何构建一个自动化的、细粒度的中文幻觉评估基准成为亟待解决的问题。

核心思路：论文的核心思路是利用智能代理（Agent）自动生成高质量的QA数据集，从而构建一个可自动评估的中文幻觉基准。通过精心设计的规则和提示优化，确保生成的数据集能够有效区分LLM的真实知识和幻觉内容。

技术框架：论文提出的技术框架主要包含以下几个模块：1) 知识文档获取：通过网络爬取获取1,399个知识文档。2) HaluAgent：基于知识文档，利用智能代理自动生成QA数据集。HaluAgent通过预定义的规则和提示，生成包含正确答案和错误答案的问答对。3) C-FAITH构建：将生成的QA数据集整理成C-FAITH中文幻觉基准。4) LLM评估：使用C-FAITH评估16个主流LLM的幻觉表现。

关键创新：论文的关键创新在于提出了HaluAgent框架，该框架能够自动生成细粒度的QA数据集，从而构建一个可自动评估的中文幻觉基准。与现有方法相比，HaluAgent无需人工标注，降低了成本，提高了效率，并且能够生成更细粒度的数据，从而支持对LLM幻觉问题的深入分析。

关键设计：HaluAgent的关键设计包括：1) 手动设计的规则：用于指导智能代理生成高质量的QA数据。2) 提示优化：通过优化提示，提高智能代理生成数据的准确性和多样性。3) 数据清洗：对生成的数据进行清洗，去除噪声数据，确保数据集的质量。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文构建的C-FAITH基准包含60,702个条目，覆盖了广泛的知识领域。实验结果表明，该基准能够有效区分不同LLM的幻觉表现，并揭示了现有LLM在中文幻觉问题上的不足。例如，部分模型在特定类型的问答上表现出较高的幻觉率，为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于大语言模型的评测与改进，帮助开发者更准确地评估模型的幻觉程度，并针对性地进行优化。此外，C-FAITH基准可以促进中文自然语言处理领域对幻觉问题的研究，推动相关技术的进步，例如提升信息检索、问答系统等应用的可靠性。

📄 摘要（原文）

Despite the rapid advancement of large language models, they remain highly susceptible to generating hallucinations, which significantly hinders their widespread application. Hallucination research requires dynamic and fine-grained evaluation. However, most existing hallucination benchmarks (especially in Chinese language) rely on human annotations, making automatical and cost-effective hallucination evaluation challenging. To address this, we introduce HaluAgent, an agentic framework that automatically constructs fine-grained QA dataset based on some knowledge documents. Our experiments demonstrate that the manually designed rules and prompt optimization can improve the quality of generated data. Using HaluAgent, we construct C-FAITH, a Chinese QA hallucination benchmark created from 1,399 knowledge documents obtained from web scraping, totaling 60,702 entries. We comprehensively evaluate 16 mainstream LLMs with our proposed C-FAITH, providing detailed experimental results and analysis.

C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理