Testing the Limits of Truth Directions in LLMs

📄 arXiv: 2604.03754 📥 PDF

作者: Angelos Poulis, Mark Crovella, Evimaria Terzi

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

揭示LLM中真值方向的局限性:层依赖、任务依赖与指令依赖

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 真值方向 可解释性 模型探测 任务依赖 指令依赖 层依赖 通用性

📋 核心要点

  1. 现有研究对LLM中真值方向的通用性存在争议,本文旨在深入探究其局限性。
  2. 通过多层探测、任务类型区分和指令调整,揭示真值方向的依赖性。
  3. 实验表明,真值方向的通用性受模型层、任务类型、难度和指令的显著影响。

📝 摘要(中文)

大型语言模型(LLMs)已被证明能够在线性真值方向上,于其激活空间中编码语句的真值。先前的研究认为这些方向在某些方面是通用的,而最近的工作对这一结论提出了质疑,指出其在某些设置下的泛化能力有限。本文旨在识别先前未被理解的真值方向通用性的若干局限。首先,我们表明真值方向高度依赖于模型层,对通用性的全面理解需要在模型的多个层进行探测。其次,真值方向很大程度上取决于任务类型,对于事实性任务,真值方向出现在较早的层,而对于推理任务,则出现在较晚的层;它们在不同任务复杂程度下的表现也各不相同。最后,模型指令会显著影响真值方向;简单的正确性评估指令会显著影响真值探测的泛化能力。我们的研究结果表明,真值方向的通用性主张比之前认为的更为有限,在不同的模型层、任务难度、任务类型和提示模板中都存在显著差异。

🔬 方法详解

问题定义:现有研究认为LLM存在通用的真值方向,但其泛化能力在不同场景下表现不一。本文旨在探究真值方向通用性的局限性,具体问题包括:真值方向是否依赖于模型层、任务类型、任务难度和指令?现有方法未能充分考虑这些因素,导致对真值方向的理解不够全面。

核心思路:本文的核心思路是通过系统性的实验,考察不同模型层、任务类型、任务难度和指令对真值方向的影响。通过分析真值探测在不同条件下的表现,揭示真值方向的依赖性,从而更准确地评估其通用性。

技术框架:本文采用真值探测技术,即训练线性分类器来预测LLM内部激活向量所代表的语句真值。实验流程包括:1) 构建包含不同类型、难度的事实和推理任务数据集;2) 在LLM的不同层提取激活向量;3) 使用不同指令训练真值探测器;4) 评估探测器在不同条件下的泛化能力。

关键创新:本文最重要的技术创新在于系统性地研究了多个因素对真值方向的影响,揭示了真值方向的层依赖性、任务依赖性和指令依赖性。与现有方法相比,本文更全面地考察了真值方向的局限性,为理解LLM的内部表征提供了更细致的视角。

关键设计:实验中,使用了不同类型的LLM(具体模型未知)。任务类型包括事实性任务和推理任务,任务难度通过调整问题的复杂程度来控制。指令设计包括简单的正确性评估指令和更复杂的指令(具体内容未知)。真值探测器采用线性分类器,损失函数和优化器信息未知。关键的评估指标是真值探测器在不同条件下的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,真值方向高度依赖于模型层,不同任务类型在不同层激活真值方向,且模型指令显著影响真值探测的泛化能力。例如,对于事实性任务,真值方向在较早的层出现,而对于推理任务,则出现在较晚的层。简单的正确性评估指令会显著降低真值探测的泛化能力(具体数值提升或降低幅度未知)。

🎯 应用场景

该研究成果有助于更好地理解LLM的内部工作机制,为提升LLM的可靠性和可解释性提供理论基础。潜在应用包括:开发更鲁棒的LLM,使其在不同任务和场景下都能准确地表达真值;设计更有效的指令,引导LLM学习和利用真值信息;构建更可靠的AI系统,避免因真值偏差导致的安全问题。

📄 摘要(原文)

Large language models (LLMs) have been shown to encode truth of statements in their activation space along a linear truth direction. Previous studies have argued that these directions are universal in certain aspects, while more recent work has questioned this conclusion drawing on limited generalization across some settings. In this work, we identify a number of limits of truth-direction universality that have not been previously understood. We first show that truth directions are highly layer-dependent, and that a full understanding of universality requires probing at many layers in the model. We then show that truth directions depend heavily on task type, emerging in earlier layers for factual and later layers for reasoning tasks; they also vary in performance across levels of task complexity. Finally, we show that model instructions dramatically affect truth directions; simple correctness evaluation instructions significantly affect the generalization ability of truth probes. Our findings indicate that universality claims for truth directions are more limited than previously known, with significant differences observable for various model layers, task difficulties, task types, and prompt templates.