SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes

📄 arXiv: 2504.11975v2 📥 PDF

作者: Raúl Vázquez, Timothee Mickus, Elaine Zosa, Teemu Vahtola, Jörg Tiedemann, Aman Sinha, Vincent Segonne, Fernando Sánchez-Vega, Alessandro Raganato, Jindřich Libovický, Jussi Karlgren, Shaoxiong Ji, Jindřich Helcl, Liane Guillou, Ona de Gibert, Jaione Bengoetxea, Joseph Attieh, Marianna Apidianaki

分类: cs.CL

发布日期: 2025-04-16 (更新: 2025-04-28)

备注: Mu-SHROOM is part of SemEval-2025 (Task 3). TBP: Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025)


💡 一句话要点

Mu-SHROOM:多语言LLM幻觉检测共享任务,聚焦可观察的过度生成错误。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 多语言处理 跨度标注 自然语言生成

📋 核心要点

  1. 大型语言模型(LLM)的幻觉问题日益严重,现有方法在多语言环境下的泛化能力和准确性面临挑战。
  2. Mu-SHROOM共享任务将幻觉检测定义为跨度标注问题,旨在促进多语言LLM幻觉检测技术的发展。
  3. 该任务吸引了大量团队参与,提交了多种解决方案,为分析不同方法在幻觉检测中的有效性提供了数据基础。

📝 摘要(中文)

本文介绍了Mu-SHROOM共享任务,该任务专注于检测指令微调的大型语言模型(LLM)输出中的幻觉和其他过度生成错误。Mu-SHROOM针对14种语言的通用LLM,并将幻觉检测问题定义为跨度标注任务。我们收到了来自43个参与团队的2618份提交,这些团队采用了不同的方法。大量的提交突显了社区对幻觉检测的兴趣。我们展示了参与系统的结果,并进行了实证分析,以确定促成该任务良好性能的关键因素。我们还强调了当前的相关挑战,特别是不同语言之间幻觉程度的差异以及标注幻觉跨度时标注者的高度不一致。

🔬 方法详解

问题定义:论文旨在解决通用大型语言模型(LLM)在多语言环境下生成文本时出现的幻觉问题,以及其他可观察的过度生成错误。现有方法在处理不同语言时,幻觉程度存在差异,且标注者在标注幻觉跨度时存在高度不一致,这给幻觉检测带来了挑战。

核心思路:论文的核心思路是将幻觉检测问题转化为一个跨度标注任务。通过标注文本中出现幻觉的跨度,可以更精确地定位和识别LLM生成的错误信息。这种方法允许模型学习区分真实信息和虚假信息,从而提高幻觉检测的准确性。

技术框架:Mu-SHROOM共享任务提供了一个统一的平台,供不同的团队提交他们的幻觉检测系统。该任务涉及14种语言,并提供了一套标准化的评估指标。参与团队可以使用各种方法,包括基于规则的方法、机器学习方法和深度学习方法。任务组织者收集并分析了所有提交的结果,以确定哪些方法在幻觉检测方面表现最佳。

关键创新:该任务的关键创新在于其多语言特性和将幻觉检测问题定义为跨度标注任务。多语言特性使得研究人员可以探索不同语言之间幻觉的差异,并开发更通用的幻觉检测方法。将幻觉检测定义为跨度标注任务,使得模型可以更精确地定位和识别幻觉,从而提高检测的准确性。

关键设计:任务的关键设计包括选择14种语言,并提供一套标准化的评估指标。此外,任务组织者还收集了大量的数据,用于训练和评估参与系统的性能。由于标注者在标注幻觉跨度时存在高度不一致,因此需要仔细设计标注指南,并进行多次标注,以提高标注的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mu-SHROOM共享任务吸引了43个团队参与,提交了2618份结果,表明社区对LLM幻觉检测的浓厚兴趣。实验结果表明,不同方法在幻觉检测方面表现各异,突显了该领域研究的复杂性和挑战性。任务结果还揭示了不同语言之间幻觉程度的差异,以及标注者在标注幻觉跨度时存在高度不一致。

🎯 应用场景

该研究成果可应用于提升大型语言模型在多语言环境下的可靠性和可信度,例如在机器翻译、文本摘要、问答系统等领域,减少模型生成错误信息的风险,提高用户体验。此外,该研究也有助于开发更有效的幻觉检测工具,用于评估和改进LLM的性能。

📄 摘要(原文)

We present the Mu-SHROOM shared task which is focused on detecting hallucinations and other overgeneration mistakes in the output of instruction-tuned large language models (LLMs). Mu-SHROOM addresses general-purpose LLMs in 14 languages, and frames the hallucination detection problem as a span-labeling task. We received 2,618 submissions from 43 participating teams employing diverse methodologies. The large number of submissions underscores the interest of the community in hallucination detection. We present the results of the participating systems and conduct an empirical analysis to identify key factors contributing to strong performance in this task. We also emphasize relevant current challenges, notably the varying degree of hallucinations across languages and the high annotator disagreement when labeling hallucination spans.