From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
作者: Stanley Yu, Vaidehi Bulusu, Oscar Yasunaga, Clayton Lau, Cole Blondin, Sean O'Brien, Kevin Zhu, Vasu Sharma
分类: cs.LG, cs.CL
发布日期: 2025-05-27
💡 一句话要点
提出概念锥方法,探索LLM中命题事实的多维表示,提升真假判断干预效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事实性 概念锥 因果干预 多维表示
📋 核心要点
- 现有方法将命题真假表示为LLM激活中的单一直线方向,可能无法充分描述其复杂几何结构。
- 论文提出使用多维“概念锥”来表示命题真假,捕捉更丰富的语义信息,实现更精确的干预。
- 实验证明,基于概念锥的干预能有效翻转LLM对事实的响应,且具备跨架构泛化能力。
📝 摘要(中文)
大型语言模型(LLM)虽然展现出强大的对话能力,但经常会生成不实信息。以往研究表明,简单命题的真假性可以表示为模型内部激活中的单个线性方向,但这可能无法完全捕捉其潜在的几何结构。本文将最近提出的用于建模拒绝的概念锥框架扩展到真值领域。我们识别出跨多个LLM家族中因果性地调节真值相关行为的多维锥。我们的结果得到了三个方面的证据支持:(i)因果干预能够可靠地翻转模型对事实陈述的响应;(ii)学习到的锥在模型架构之间具有泛化性;(iii)基于锥的干预能够保留不相关的模型行为。这些发现揭示了LLM中控制简单真/假命题的更丰富、多方向的结构,并强调了概念锥作为探索抽象行为的一种有前景的工具。
🔬 方法详解
问题定义:现有方法通常将LLM中命题的真假性简化为激活空间中的单个线性方向。这种方法忽略了真假判断可能涉及的更复杂、多维的语义表示。因此,如何更准确地表示LLM中命题的真假性,并在此基础上进行有效的干预,是一个亟待解决的问题。
核心思路:论文的核心思路是将命题的真假性表示为LLM激活空间中的一个“概念锥”,而不是简单的线性方向。概念锥是一个多维的凸锥,可以捕捉更丰富的语义信息,从而更准确地表示命题的真假性。通过识别和操纵这些概念锥,可以实现对LLM行为的更精确控制。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集包含真假命题的数据集;2) 激活提取:提取LLM在处理这些命题时的内部激活;3) 概念锥学习:使用提取的激活学习表示真假命题的概念锥;4) 因果干预:通过操纵概念锥来干预LLM的真假判断;5) 评估:评估干预的效果,包括翻转率和对无关行为的影响。
关键创新:该论文最重要的技术创新在于提出了使用概念锥来表示LLM中命题的真假性。与以往的线性方向方法相比,概念锥可以捕捉更丰富的语义信息,从而更准确地表示命题的真假性。此外,该论文还证明了学习到的概念锥具有跨架构泛化能力,这意味着可以在不同的LLM中使用相同的概念锥进行干预。
关键设计:概念锥的学习使用了支持向量机(SVM)等分类器,目标是找到一个能够区分真假命题激活的凸锥。干预方法是通过将激活投影到概念锥上或从概念锥上移除来实现的。关键参数包括SVM的核函数、正则化参数,以及投影或移除的强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于概念锥的干预能够可靠地翻转LLM对事实陈述的响应,且具有较高的成功率。此外,学习到的概念锥在不同的LLM架构之间具有泛化能力,这意味着可以在不同的模型中使用相同的概念锥进行干预。更重要的是,基于概念锥的干预能够保留不相关的模型行为,这表明该方法具有较高的特异性。
🎯 应用场景
该研究成果可应用于提升LLM的事实一致性,减少虚假信息的生成。通过干预LLM内部的真假表示,可以提高其在知识问答、信息检索等任务中的准确性。此外,该方法还可以用于分析和理解LLM的内部工作机制,为开发更可靠、可控的LLM提供理论基础。
📄 摘要(原文)
Large Language Models (LLMs) exhibit strong conversational abilities but often generate falsehoods. Prior work suggests that the truthfulness of simple propositions can be represented as a single linear direction in a model's internal activations, but this may not fully capture its underlying geometry. In this work, we extend the concept cone framework, recently introduced for modeling refusal, to the domain of truth. We identify multi-dimensional cones that causally mediate truth-related behavior across multiple LLM families. Our results are supported by three lines of evidence: (i) causal interventions reliably flip model responses to factual statements, (ii) learned cones generalize across model architectures, and (iii) cone-based interventions preserve unrelated model behavior. These findings reveal the richer, multidirectional structure governing simple true/false propositions in LLMs and highlight concept cones as a promising tool for probing abstract behaviors.