Hallucinated Span Detection with Multi-View Attention Features

📄 arXiv: 2504.04335v2 📥 PDF

作者: Yuya Ogasa, Yuki Arase

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-06 (更新: 2025-09-15)


💡 一句话要点

提出基于多视角注意力特征的幻觉跨度检测方法,提升长文本场景下的检测性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻觉检测 注意力机制 自然语言生成 Transformer 序列标注

📋 核心要点

  1. 现有幻觉检测方法主要集中在输出层面,忽略了细粒度的幻觉跨度检测,限制了实际应用。
  2. 论文提出从注意力矩阵提取多视角特征,捕捉token的影响力、注意力偏向和上下文范围,用于幻觉跨度检测。
  3. 实验表明,该方法在长文本输入场景下,如数据到文本生成和摘要任务中,优于现有基线方法。

📝 摘要(中文)

本研究致力于解决大型语言模型输出中幻觉跨度检测的问题。尽管其具有重要的实际意义,但相较于输出层面的幻觉检测,它受到的关注较少。先前的工作表明,当出现幻觉时,注意力机制通常会表现出不规则的模式。受此启发,我们从注意力矩阵中提取特征,这些特征提供了互补的视角,捕捉生成过程中(a)某些token是否具有影响力或被忽略,(b)注意力是否偏向特定的子集,以及(c)token的生成是参考狭窄还是广泛的上下文。这些特征被输入到一个基于Transformer的分类器中,以进行序列标注,从而识别出幻觉跨度。实验结果表明,在诸如数据到文本生成和摘要等具有较长输入上下文的任务中,所提出的方法优于强大的基线方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型生成文本中幻觉跨度的检测问题。现有的幻觉检测方法通常关注整个输出的真实性,而忽略了输出中可能存在的局部错误,即幻觉跨度。这些幻觉跨度可能导致生成文本的质量下降,并且难以被用户发现和纠正。因此,需要一种能够精确定位幻觉跨度的方法,以便更好地评估和改进生成模型的性能。

核心思路:论文的核心思路是利用注意力机制在生成过程中提供的丰富信息,通过分析注意力矩阵来识别幻觉跨度。作者认为,当模型生成幻觉时,注意力机制往往会表现出异常的模式,例如某些token的注意力权重异常低或高,或者注意力分布过于集中或分散。通过提取这些异常模式的特征,可以有效地识别幻觉跨度。

技术框架:该方法的技术框架主要包括以下几个步骤:1) 从大型语言模型的注意力矩阵中提取多视角特征,这些特征包括token的影响力、注意力偏向和上下文范围;2) 将提取的特征输入到一个基于Transformer的分类器中;3) 使用分类器对每个token进行序列标注,判断其是否属于幻觉跨度。

关键创新:该方法最重要的技术创新点在于提出了多视角注意力特征,这些特征能够全面地捕捉注意力机制的异常模式。与现有方法相比,该方法不仅考虑了token的注意力权重,还考虑了注意力分布的形状和上下文信息,从而能够更准确地识别幻觉跨度。

关键设计:论文的关键设计包括:1) 设计了三种类型的注意力特征,分别捕捉token的影响力、注意力偏向和上下文范围;2) 使用Transformer作为分类器,利用其强大的序列建模能力;3) 使用序列标注的方法,对每个token进行独立判断,从而实现幻觉跨度的精确定位。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在数据到文本生成和文本摘要等长文本任务中,显著优于现有的基线方法。具体而言,该方法在幻觉跨度检测的F1值上取得了明显的提升,证明了其在长文本场景下的有效性。实验结果还表明,多视角注意力特征能够有效地捕捉注意力机制的异常模式,从而提高幻觉跨度检测的准确率。

🎯 应用场景

该研究成果可应用于各种自然语言生成任务,如机器翻译、文本摘要、对话生成等,提高生成文本的质量和可靠性。通过检测和纠正幻觉跨度,可以增强用户对生成模型的信任,并促进其在实际场景中的应用。此外,该方法还可以用于评估和改进生成模型的性能,指导模型训练和优化。

📄 摘要(原文)

This study addresses the problem of hallucinated span detection in the outputs of large language models. It has received less attention than output-level hallucination detection despite its practical importance. Prior work has shown that attentions often exhibit irregular patterns when hallucinations occur. Motivated by these findings, we extract features from the attention matrix that provide complementary views capturing (a) whether certain tokens are influential or ignored, (b) whether attention is biased toward specific subsets, and (c) whether a token is generated referring to a narrow or broad context, in the generation. These features are input to a Transformer-based classifier to conduct sequential labelling to identify hallucinated spans. Experimental results indicate that the proposed method outperforms strong baselines on hallucinated span detection with longer input contexts, such as data-to-text and summarisation tasks.