Rhetorical Questions in LLM Representations: A Linear Probing Study

📄 arXiv: 2604.14128v1 📥 PDF

作者: Louie Hong Yao, Vishesh Anand, Yuan Zhuang, Tianyu Jiang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-15

备注: 18 pages, 15 figures, accepted to ACL 2026


💡 一句话要点

通过线性探测研究LLM中反问句的表征,揭示其多重编码特性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 反问句 线性探测 表征学习 社交媒体 语篇分析 自然语言处理

📋 核心要点

  1. 现有研究对LLM如何表征反问句理解不足,缺乏对其内部机制的深入探究。
  2. 该研究通过线性探测方法,分析LLM对反问句的表征,揭示其编码方式。
  3. 实验表明,反问句的信号在LLM中可被线性分离,但表征方式存在数据集依赖性。

📝 摘要(中文)

反问句并非旨在寻求信息,而是为了说服或表达立场。大型语言模型(LLM)如何在其内部表征反问句仍不清楚。我们通过在两个具有不同语篇环境的社交媒体数据集上使用线性探测,分析了LLM表征中的反问句。研究发现,反问信号出现较早,并且最稳定地被末尾token的表征捕获。在数据集内部,反问句与信息寻求型问题是线性可分的,并且在跨数据集迁移时仍然可检测,AUROC值约为0.7-0.8。然而,我们证明了可迁移性并不简单地意味着共享表征。在应用于同一目标语料库时,在不同数据集上训练的探测器产生不同的排名,并且排名最高的实例之间的重叠通常低于0.2。定性分析表明,这些差异对应于不同的修辞现象:一些探测器捕获嵌入在扩展论证中的语篇层面的修辞立场,而另一些探测器则强调局部的、语法驱动的疑问行为。总之,这些发现表明,LLM表征中的反问句由多个线性方向编码,这些方向强调不同的线索,而不是单一的共享方向。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)如何表征反问句。现有的方法缺乏对LLM内部如何编码和理解反问句的深入理解,特别是考虑到反问句的特殊语用功能,即并非为了获取信息,而是为了表达观点或进行说服。因此,需要一种方法来探究LLM是否以及如何区分反问句和其他类型的问题。

核心思路:论文的核心思路是利用线性探测技术,通过训练简单的线性分类器来解码LLM内部的表征。如果LLM能够区分反问句和其他类型的问题,那么应该可以使用线性分类器从LLM的隐藏层状态中预测一个句子是否是反问句。此外,通过分析不同数据集上训练的探测器的行为,可以了解LLM对反问句的表征是否具有通用性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集包含反问句和信息寻求型问题的数据集;2) 使用预训练的LLM(具体模型未知)处理数据集中的句子,提取LLM不同层的隐藏层状态;3) 在每个隐藏层状态上训练一个线性分类器,用于区分反问句和信息寻求型问题;4) 评估线性分类器的性能(AUROC),以衡量LLM对反问句的表征能力;5) 分析不同数据集上训练的探测器的迁移能力,以及它们在相同目标语料库上的表现差异。

关键创新:该研究的关键创新在于:1) 使用线性探测技术来研究LLM对反问句的表征,这是一种相对新颖的方法;2) 发现LLM对反问句的表征并非单一的,而是由多个线性方向编码,这些方向强调不同的线索(例如,语篇层面的修辞立场和局部的语法特征);3) 揭示了LLM对反问句的表征具有数据集依赖性,即在不同数据集上训练的探测器在相同目标语料库上的表现存在差异。

关键设计:论文的关键设计包括:1) 使用两个不同的社交媒体数据集,以考察LLM对反问句表征的泛化能力;2) 提取LLM的多个隐藏层的状态,以研究反问信号在LLM中的出现位置;3) 使用AUROC作为评估指标,以衡量线性分类器的性能;4) 通过定性分析,深入了解不同探测器捕获的修辞现象。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM能够在线性层面上区分反问句和信息寻求型问题,AUROC值约为0.7-0.8。然而,跨数据集迁移实验揭示,虽然反问句可以被检测,但LLM对反问句的表征并非完全通用,不同数据集训练的探测器关注不同的修辞线索,表明反问句的编码方式具有多重性。

🎯 应用场景

该研究成果可应用于提升LLM在社交媒体文本理解、情感分析和立场检测等任务中的性能。通过更好地理解反问句,LLM可以更准确地把握用户的真实意图和情感倾向,从而改进对话系统、舆情监控和内容推荐等应用。

📄 摘要(原文)

Rhetorical questions are asked not to seek information but to persuade or signal stance. How large language models internally represent them remains unclear. We analyze rhetorical questions in LLM representations using linear probes on two social-media datasets with different discourse contexts, and find that rhetorical signals emerge early and are most stably captured by last-token representations. Rhetorical questions are linearly separable from information-seeking questions within datasets, and remain detectable under cross-dataset transfer, reaching AUROC around 0.7-0.8. However, we demonstrate that transferability does not simply imply a shared representation. Probes trained on different datasets produce different rankings when applied to the same target corpus, with overlap among the top-ranked instances often below 0.2. Qualitative analysis shows that these divergences correspond to distinct rhetorical phenomena: some probes capture discourse-level rhetorical stance embedded in extended argumentation, while others emphasize localized, syntax-driven interrogative acts. Together, these findings suggest that rhetorical questions in LLM representations are encoded by multiple linear directions emphasizing different cues, rather than a single shared direction.