MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection
作者: Baraa Hikal, Ahmed Nasreldin, Ali Hamdi
分类: cs.CL
发布日期: 2025-05-27
💡 一句话要点
MSA提出一种高质量弱标签与LLM集成验证方法,用于多语言幻觉检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 幻觉检测 大型语言模型 集成学习 多语言处理 提示工程
📋 核心要点
- 现有方法在多语言环境下检测LLM幻觉片段面临挑战,缺乏有效利用LLM自身能力进行验证的机制。
- 本文提出一种基于LLM集成验证的框架,利用多个LLM的概率投票机制来判断幻觉片段的有效性,模拟人工标注流程。
- 实验结果表明,该方法在多种语言的幻觉检测任务中取得了优异成绩,在多个语种中排名靠前。
📝 摘要(中文)
本文介绍了MSA团队在SemEval-2025 Task 3: Mu-SHROOM(多语言幻觉及相关过度生成错误共享任务)中的提交方案。该任务旨在检测指令微调的大型语言模型(LLM)在多种语言中生成的文本中存在的幻觉片段。我们的方法结合了任务特定的提示工程和LLM集成验证机制,其中主模型提取幻觉片段,然后三个独立的LLM通过基于概率的投票来裁决其有效性。该框架模拟了共享任务验证和测试数据中使用的人工标注工作流程。此外,模糊匹配进一步优化了片段对齐。我们的系统在阿拉伯语和巴斯克语中排名第一,在德语、瑞典语和芬兰语中排名第二,在捷克语、波斯语和法语中排名第三。
🔬 方法详解
问题定义:该论文旨在解决多语言环境下,大型语言模型(LLM)生成的文本中幻觉片段的检测问题。现有方法在处理多语言幻觉检测时,可能面临标注数据稀缺、模型泛化能力不足等问题,并且缺乏有效利用LLM自身知识进行验证的机制。
核心思路:论文的核心思路是利用LLM的集成能力,通过多个独立的LLM对候选幻觉片段进行验证,模拟人工标注过程。这种方法可以有效降低对大量人工标注数据的依赖,并提高幻觉检测的准确性。
技术框架:整体框架包含两个主要阶段:1) 幻觉片段提取:使用一个主LLM,通过任务特定的提示工程,从生成的文本中提取候选的幻觉片段。2) LLM集成验证:使用三个独立的LLM,对提取的候选片段进行验证。每个LLM根据其输出的概率,对片段的有效性进行投票。最终,根据投票结果确定该片段是否为幻觉。此外,还使用了模糊匹配来优化片段的对齐。
关键创新:该方法最重要的创新点在于利用LLM集成进行幻觉验证,模拟了人工标注的流程。与传统的依赖人工标注或单一模型判断的方法相比,该方法能够更有效地利用LLM自身的知识,提高幻觉检测的准确性和鲁棒性。
关键设计:在提示工程方面,设计了任务特定的提示,引导主LLM提取幻觉片段。在LLM集成验证方面,使用了基于概率的投票机制,根据每个LLM输出的概率值来决定其投票权重。此外,模糊匹配算法用于优化片段的对齐,提高片段匹配的准确性。具体的概率计算方法和投票策略在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该系统在SemEval-2025 Task 3比赛中表现出色,在阿拉伯语和巴斯克语中排名第一,在德语、瑞典语和芬兰语中排名第二,在捷克语、波斯语和法语中排名第三。这表明该方法在多语言幻觉检测方面具有很强的竞争力。
🎯 应用场景
该研究成果可应用于各种自然语言生成任务中,例如机器翻译、文本摘要、对话系统等,以提高生成文本的质量和可靠性,减少幻觉信息的产生。该方法还有助于构建更值得信赖的AI系统,并提升用户体验。
📄 摘要(原文)
This paper describes our submission for SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The task involves detecting hallucinated spans in text generated by instruction-tuned Large Language Models (LLMs) across multiple languages. Our approach combines task-specific prompt engineering with an LLM ensemble verification mechanism, where a primary model extracts hallucination spans and three independent LLMs adjudicate their validity through probability-based voting. This framework simulates the human annotation workflow used in the shared task validation and test data. Additionally, fuzzy matching refines span alignment. Our system ranked 1st in Arabic and Basque, 2nd in German, Swedish, and Finnish, and 3rd in Czech, Farsi, and French.