Detecting (Un)answerability in Large Language Models with Linear Directions

📄 arXiv: 2509.22449v1 📥 PDF

作者: Maor Juliet Lavi, Tova Milo, Mor Geva

分类: cs.CL

发布日期: 2025-09-26


💡 一句话要点

利用线性方向检测大型语言模型在抽取式问答中的不可回答性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不可回答性检测 抽取式问答 线性方向 激活空间

📋 核心要点

  1. 大型语言模型在信息不足时常给出自信但错误的答案,即产生幻觉,因此检测模型是否具备回答问题的能力至关重要。
  2. 论文提出一种简单有效的方法,通过识别模型激活空间中代表“不可回答性”的线性方向,来判断问题是否可回答。
  3. 实验表明,该方法在多个抽取式问答数据集上表现出色,优于现有方法,并能泛化到其他类型的不可回答性问题。

📝 摘要(中文)

大型语言模型(LLMs)即使在缺乏必要信息时,也常常自信地回答问题,导致产生幻觉答案。本文研究了(不可)回答性检测问题,重点关注抽取式问答(QA),即模型应确定段落是否包含回答给定问题的充分信息。我们提出了一种简单的方法,用于识别模型激活空间中捕获不可回答性的方向,并将其用于分类。该方向通过在推理过程中应用激活添加并测量其对模型拒绝行为的影响来选择。我们表明,将隐藏激活投影到该方向上可以产生可靠的(不可)回答性分类分数。在两个开源LLM和四个抽取式QA基准上的实验表明,我们的方法有效地检测不可回答的问题,并且比现有的基于提示和基于分类器的方法更好地跨数据集泛化。此外,所获得的方向可以扩展到源于缺乏科学共识和主观性等因素的不可回答性。最后,因果干预表明,添加或消融方向可以有效地控制模型的拒绝行为。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在抽取式问答任务中,无法准确判断问题是否可回答的问题。现有方法,如基于提示或分类器的方法,泛化能力较弱,难以适应不同数据集和不同类型的不可回答性问题。

核心思路:核心思想是在模型的激活空间中找到一个特定的线性方向,该方向能够代表“不可回答性”。通过将模型的隐藏层激活投影到这个方向上,可以得到一个分数,用于判断问题是否可回答。这种方法的核心在于,认为模型对于不可回答问题的内部状态存在某种共性,可以通过线性方向来捕捉。

技术框架:整体流程包括以下几个步骤:1) 选择一个大型语言模型;2) 构建一个包含可回答和不可回答问题的训练集;3) 通过在推理过程中对激活进行添加操作,并观察模型的拒绝行为,来确定代表不可回答性的线性方向;4) 将模型的隐藏层激活投影到该方向上,得到一个分数;5) 使用该分数进行(不可)回答性分类。

关键创新:关键创新在于提出了一种简单有效的线性方向识别方法,能够捕捉模型对于不可回答问题的内部状态。与现有方法相比,该方法不需要复杂的提示工程或额外的分类器训练,具有更好的泛化能力和可解释性。此外,该方法还可以通过因果干预来控制模型的拒绝行为。

关键设计:论文的关键设计包括:1) 如何选择合适的激活添加策略来确定线性方向;2) 如何选择合适的隐藏层进行激活投影;3) 如何设置阈值来区分可回答和不可回答的问题。具体来说,论文通过在推理过程中对模型的隐藏层激活添加扰动,并观察模型输出答案的变化,来确定代表不可回答性的方向。然后,将模型的隐藏层激活投影到该方向上,得到一个分数,并使用该分数进行(不可)回答性分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在两个开源LLM和四个抽取式QA基准上,能够有效地检测不可回答的问题,并且比现有的基于提示和基于分类器的方法具有更好的泛化能力。例如,在某些数据集上,该方法能够将不可回答问题的检测准确率提高10%以上。此外,因果干预实验表明,添加或消融所获得的线性方向可以有效地控制模型的拒绝行为。

🎯 应用场景

该研究成果可应用于提升大型语言模型在问答系统中的可靠性,减少幻觉答案的产生。通过准确识别不可回答的问题,模型可以避免给出错误或误导性的信息,从而提高用户体验和信任度。此外,该方法还可以应用于其他自然语言处理任务,例如文本摘要和对话生成,以提高模型的生成质量和一致性。

📄 摘要(原文)

Large language models (LLMs) often respond confidently to questions even when they lack the necessary information, leading to hallucinated answers. In this work, we study the problem of (un)answerability detection, focusing on extractive question answering (QA) where the model should determine if a passage contains sufficient information to answer a given question. We propose a simple approach for identifying a direction in the model's activation space that captures unanswerability and uses it for classification. This direction is selected by applying activation additions during inference and measuring their impact on the model's abstention behavior. We show that projecting hidden activations onto this direction yields a reliable score for (un)answerability classification. Experiments on two open-weight LLMs and four extractive QA benchmarks show that our method effectively detects unanswerable questions and generalizes better across datasets than existing prompt-based and classifier-based approaches. Moreover, the obtained directions extend beyond extractive QA to unanswerability that stems from factors, such as lack of scientific consensus and subjectivity. Last, causal interventions show that adding or ablating the directions effectively controls the abstention behavior of the model.