HalluVerse25: Fine-grained Multilingual Benchmark Dataset for LLM Hallucinations

📄 arXiv: 2503.07833v1 📥 PDF

作者: Samir Abdaljalil, Hasan Kurban, Erchin Serpedin

分类: cs.CL, cs.AI

发布日期: 2025-03-10


💡 一句话要点

提出HalluVerse25:一个用于评估LLM幻觉的细粒度多语言基准数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 多语言数据集 基准测试 自然语言处理

📋 核心要点

  1. 现有幻觉数据集难以捕捉多语言环境下细粒度的幻觉现象,限制了对LLM幻觉问题的深入研究。
  2. 论文提出HalluVerse25数据集,通过LLM注入和人工标注,构建包含英语、阿拉伯语和土耳其语的细粒度幻觉数据集。
  3. 实验评估了多个LLM在HalluVerse25上的表现,为理解不同模型在幻觉检测方面的能力提供了依据。

📝 摘要(中文)

大型语言模型(LLMs)在各种场景中得到越来越多的应用,但仍然容易生成不真实的内容,通常被称为“幻觉”。文献将幻觉分为几种类型,包括实体级别、关系级别和句子级别的幻觉。然而,现有的幻觉数据集通常无法捕捉多语言环境下的细粒度幻觉。本文介绍了HalluVerse25,这是一个多语言LLM幻觉数据集,它对英语、阿拉伯语和土耳其语中的细粒度幻觉进行分类。我们的数据集构建流程使用LLM将幻觉注入到事实性的传记句子中,然后进行严格的人工标注过程以确保数据质量。我们评估了HalluVerse25上的几个LLM,为专有模型在不同上下文中检测LLM生成的幻觉方面的表现提供了有价值的见解。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)容易产生幻觉,即生成不真实或与事实相悖的内容。现有的幻觉数据集通常不够细粒度,并且缺乏对多语言环境的支持,难以全面评估和解决LLM的幻觉问题。因此,需要一个细粒度、多语言的幻觉数据集,以促进对LLM幻觉现象的深入研究和有效缓解。

核心思路:论文的核心思路是利用LLM本身来生成带有幻觉的文本,然后通过人工标注来验证和修正这些幻觉,从而构建一个高质量的幻觉数据集。这种方法可以高效地生成大量的幻觉样本,并且能够控制幻觉的类型和粒度。

技术框架:HalluVerse25数据集的构建流程主要包含以下几个阶段: 1. 事实性句子收集:收集包含事实信息的传记句子作为基础。 2. LLM幻觉注入:使用LLM在这些句子中注入不同类型的幻觉,例如实体级别的幻觉、关系级别的幻觉和句子级别的幻觉。 3. 人工标注:由人工标注员对LLM生成的幻觉进行验证和修正,确保数据集的质量。 4. 多语言翻译:将数据集翻译成英语、阿拉伯语和土耳其语。

关键创新:HalluVerse25数据集的关键创新在于其细粒度和多语言特性。它不仅对幻觉进行了细致的分类,还覆盖了多种语言,从而能够更全面地评估LLM在不同语言环境下的幻觉问题。此外,利用LLM生成幻觉样本的方法也提高了数据集构建的效率。

关键设计:在LLM幻觉注入阶段,论文可能采用了特定的prompt工程技术来控制LLM生成幻觉的类型和强度。人工标注阶段可能采用了多轮标注和专家审核机制来确保标注的准确性。具体的技术细节(如LLM的选择、prompt的具体内容、标注指南等)在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在HalluVerse25数据集上评估了多个LLM,结果表明,不同模型在幻觉检测方面的表现存在显著差异。具体性能数据未知,但该评估为理解不同模型在幻觉问题上的优缺点提供了有价值的参考,并为未来的模型改进指明了方向。

🎯 应用场景

HalluVerse25数据集可用于训练和评估LLM的幻觉检测能力,提高LLM生成内容的可靠性和可信度。该数据集还可以应用于开发更有效的幻觉缓解技术,例如知识图谱增强、事实核查等。此外,该数据集的多语言特性使其能够促进跨语言的LLM幻觉研究,推动全球范围内LLM技术的健康发展。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used in various contexts, yet remain prone to generating non-factual content, commonly referred to as "hallucinations". The literature categorizes hallucinations into several types, including entity-level, relation-level, and sentence-level hallucinations. However, existing hallucination datasets often fail to capture fine-grained hallucinations in multilingual settings. In this work, we introduce HalluVerse25, a multilingual LLM hallucination dataset that categorizes fine-grained hallucinations in English, Arabic, and Turkish. Our dataset construction pipeline uses an LLM to inject hallucinations into factual biographical sentences, followed by a rigorous human annotation process to ensure data quality. We evaluate several LLMs on HalluVerse25, providing valuable insights into how proprietary models perform in detecting LLM-generated hallucinations across different contexts.