Poly-FEVER: A Multilingual Fact Verification Benchmark for Hallucination Detection in Large Language Models
作者: Hanzhi Zhang, Sumera Anjum, Heng Fan, Weijian Zheng, Yan Huang, Yunhe Feng
分类: cs.CL
发布日期: 2025-03-19 (更新: 2025-03-26)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
Poly-FEVER:多语言事实核查基准,用于检测大型语言模型中的幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉检测 多语言 事实核查 自然语言处理 基准数据集 跨语言分析
📋 核心要点
- 现有幻觉检测基准主要集中于少数语言,缺乏对多语言环境下LLM幻觉问题的全面评估。
- Poly-FEVER构建了一个包含11种语言的大规模事实核查数据集,用于分析跨语言的幻觉模式。
- 通过Poly-FEVER,研究揭示了主题分布和网络资源可用性对幻觉频率的影响,并发现了语言特定的偏差。
📝 摘要(中文)
生成式人工智能,特别是大型语言模型(LLM)中的幻觉,对多语言应用的可靠性构成了重大挑战。现有的幻觉检测基准主要集中在英语和少数几种广泛使用的语言上,缺乏评估模型在不同语言环境下的性能一致性的广度。为了解决这一差距,我们推出了Poly-FEVER,这是一个大规模的多语言事实核查基准,专门用于评估LLM中的幻觉检测。Poly-FEVER包含77,973个标记的事实性声明,涵盖11种语言,来源于FEVER、Climate-FEVER和SciFact。它提供了第一个大规模数据集,专门用于分析跨语言的幻觉模式,从而能够系统地评估ChatGPT和LLaMA系列等LLM。我们的分析揭示了主题分布和网络资源可用性如何影响幻觉频率,揭示了影响模型准确性的特定语言偏差。通过提供一个用于事实核查的多语言基准,Poly-FEVER促进了幻觉检测的跨语言比较,并有助于开发更可靠、更具语言包容性的AI系统。该数据集已公开提供,以促进负责任的AI、事实核查方法和多语言NLP的研究,从而提高LLM性能的透明度和鲁棒性。
🔬 方法详解
问题定义:大型语言模型(LLM)在生成文本时容易产生幻觉,即生成与事实不符的内容。现有的幻觉检测基准主要集中在英语等少数几种语言,无法全面评估LLM在多语言环境下的幻觉问题,阻碍了多语言LLM的可靠性提升。
核心思路:构建一个大规模、多语言的事实核查数据集,用于系统地评估LLM在不同语言下的幻觉检测能力。通过分析模型在不同语言下的表现差异,揭示影响幻觉产生的因素,并促进更可靠的多语言AI系统的开发。
技术框架:Poly-FEVER数据集的构建流程主要包括以下几个阶段:1) 数据收集:从FEVER、Climate-FEVER和SciFact等现有数据集收集事实性声明。2) 翻译:将声明翻译成11种不同的语言。3) 标注:对每个声明进行标注,判断其是否与事实相符。4) 数据集发布:公开数据集,供研究人员使用。
关键创新:Poly-FEVER是第一个大规模的多语言事实核查基准,专门用于评估LLM中的幻觉检测。它涵盖了11种语言,提供了丰富的数据,可以用于分析跨语言的幻觉模式,并促进更可靠的多语言AI系统的开发。与现有方法相比,Poly-FEVER更注重多语言环境下的幻觉问题,能够更全面地评估LLM的性能。
关键设计:Poly-FEVER数据集包含77,973个标记的事实性声明,涵盖11种语言。数据集中的每个声明都包含以下信息:声明文本、语言、标注结果(支持/反对/未知)、来源信息。数据集的构建过程中,采用了高质量的机器翻译和人工校对,确保数据的准确性和可靠性。数据集的发布采用了Hugging Face Datasets平台,方便研究人员下载和使用。
🖼️ 关键图片
📊 实验亮点
Poly-FEVER的分析揭示了LLM在不同语言下的幻觉频率存在显著差异,表明语言特定的偏差会影响模型的准确性。研究发现,主题分布和网络资源可用性是影响幻觉频率的重要因素。例如,在某些语言中,由于缺乏相关的网络资源,LLM更容易产生幻觉。
🎯 应用场景
Poly-FEVER可用于评估和改进多语言大型语言模型的可靠性,尤其是在事实核查、信息检索和自然语言生成等领域。该基准有助于开发更值得信赖的AI系统,减少虚假信息的传播,并促进跨语言交流的准确性和可信度。未来,Poly-FEVER可以扩展到更多语言和领域,以应对更广泛的AI幻觉挑战。
📄 摘要(原文)
Hallucinations in generative AI, particularly in Large Language Models (LLMs), pose a significant challenge to the reliability of multilingual applications. Existing benchmarks for hallucination detection focus primarily on English and a few widely spoken languages, lacking the breadth to assess inconsistencies in model performance across diverse linguistic contexts. To address this gap, we introduce Poly-FEVER, a large-scale multilingual fact verification benchmark specifically designed for evaluating hallucination detection in LLMs. Poly-FEVER comprises 77,973 labeled factual claims spanning 11 languages, sourced from FEVER, Climate-FEVER, and SciFact. It provides the first large-scale dataset tailored for analyzing hallucination patterns across languages, enabling systematic evaluation of LLMs such as ChatGPT and the LLaMA series. Our analysis reveals how topic distribution and web resource availability influence hallucination frequency, uncovering language-specific biases that impact model accuracy. By offering a multilingual benchmark for fact verification, Poly-FEVER facilitates cross-linguistic comparisons of hallucination detection and contributes to the development of more reliable, language-inclusive AI systems. The dataset is publicly available to advance research in responsible AI, fact-checking methodologies, and multilingual NLP, promoting greater transparency and robustness in LLM performance. The proposed Poly-FEVER is available at: https://huggingface.co/datasets/HanzhiZhang/Poly-FEVER.