ShED-HD: A Shannon Entropy Distribution Framework for Lightweight Hallucination Detection on Edge Devices

📄 arXiv: 2503.18242v2 📥 PDF

作者: Aneesh Vathul, Daniel Lee, Sheryl Chen, Arthi Tasmia

分类: cs.CL, cs.AI

发布日期: 2025-03-23 (更新: 2025-06-14)


💡 一句话要点

提出ShED-HD框架,在边缘设备上高效检测大语言模型幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 边缘设备 香农熵 BiLSTM 注意力机制

📋 核心要点

  1. 现有幻觉检测方法在边缘设备等资源受限环境中,面临计算成本高或准确率不足的挑战。
  2. ShED-HD通过轻量级BiLSTM架构分析序列级熵模式,高效检测输出序列中的不确定性,保持上下文感知。
  3. 在三个数据集上,ShED-HD在分布外设置中显著优于其他高效方法,分布内设置中性能相当。

📝 摘要(中文)

大型语言模型(LLMs)在各种NLP任务中表现出令人印象深刻的能力,但它们产生幻觉(听起来合理但实际上不正确的内容)的倾向,在高风险领域构成了严峻的挑战。现有的幻觉检测方法要么承担多次推理的计算成本,要么牺牲准确性以提高单次推理方法的效率,这两种方法在边缘设备等资源受限的环境中都不理想。我们提出了香农熵分布幻觉检测器(ShED-HD),这是一种新颖的幻觉检测框架,它通过使用带有单头注意力的轻量级BiLSTM架构对序列级熵模式进行分类来弥合这一差距。与先前的方法相比,ShED-HD有效地检测整个输出序列中独特的不确定性模式,从而保持上下文感知。通过对三个数据集(BioASQ、TriviaQA和Jeopardy Questions)的深入评估,我们表明ShED-HD在分布外设置中显著优于其他计算效率高的方法,同时在分布内设置中实现了可比的性能。ShED-HD有助于低成本、准确和可推广的幻觉检测,从而提高了LLM在可信赖的AI功能至关重要的资源受限环境中生成的内容的可信度。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在边缘设备等资源受限环境中产生幻觉的问题。现有方法要么计算成本过高,需要多次推理,要么为了效率牺牲准确性,无法有效检测幻觉。

核心思路:论文的核心思路是利用香农熵分布来捕捉LLM生成文本序列中的不确定性模式。通过分析整个输出序列的熵值分布,ShED-HD能够识别出与幻觉相关的独特模式,从而实现高效且准确的幻觉检测。这种方法避免了对事实的直接验证,而是侧重于模型输出的不确定性程度。

技术框架:ShED-HD框架主要包含以下几个阶段:1) 对LLM生成的文本序列进行分词;2) 计算每个token的香农熵,得到序列的熵分布;3) 使用轻量级的BiLSTM网络,结合单头注意力机制,对熵分布进行建模和分类;4) 输出序列是否包含幻觉的预测结果。

关键创新:ShED-HD的关键创新在于利用序列级的熵分布模式进行幻觉检测,而不是依赖于对单个token或短语的分析。这种方法能够更好地捕捉上下文信息,并识别出与幻觉相关的复杂不确定性模式。此外,使用轻量级的BiLSTM网络保证了在资源受限设备上的高效运行。

关键设计:ShED-HD使用的BiLSTM网络结构相对简单,旨在减少计算量。单头注意力机制用于关注熵分布中最重要的部分。损失函数采用标准的二元交叉熵损失,用于训练模型区分包含幻觉和不包含幻觉的序列。具体的参数设置(如BiLSTM的层数、隐藏层大小等)需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ShED-HD在BioASQ、TriviaQA和Jeopardy Questions三个数据集上均取得了良好的性能。在分布外(out-of-distribution)设置中,ShED-HD显著优于其他计算效率高的方法,表明其具有更好的泛化能力。在分布内(in-distribution)设置中,ShED-HD的性能与其他方法相当,同时保持了较低的计算成本。

🎯 应用场景

ShED-HD可应用于各种资源受限的边缘设备,例如移动设备、物联网设备等,用于提高LLM生成内容的可靠性。在医疗、金融等高风险领域,可以有效降低因幻觉导致的错误信息传播风险,提升AI系统的可信度。该研究还有助于推动可信赖AI技术在边缘计算环境中的应用。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated impressive capabilities on a broad array of NLP tasks, but their tendency to produce hallucinations$\unicode{x2013}$plausible-sounding but factually incorrect content$\unicode{x2013}$poses severe challenges in high-stakes domains. Existing hallucination detection methods either bear the computational cost of multiple inference passes or sacrifice accuracy for efficiency with single-pass approaches, neither of which is ideal in resource-constrained environments such as edge devices. We propose the Shannon Entropy Distribution Hallucination Detector (ShED-HD), a novel hallucination detection framework that bridges this gap by classifying sequence-level entropy patterns using a lightweight BiLSTM architecture with single-headed attention. In contrast to prior approaches, ShED-HD efficiently detects distinctive uncertainty patterns across entire output sequences, preserving contextual awareness. Through in-depth evaluation on three datasets (BioASQ, TriviaQA, and Jeopardy Questions), we show that ShED-HD significantly outperforms other computationally efficient approaches in the out-of-distribution setting, while achieving comparable performance in the in-distribution setting. ShED-HD facilitates hallucination detection that is low-cost, accurate, and generalizable, improving the credibility of content generated by LLMs in resource-constrained environments where trustworthy AI functionality is crucial.