Community-Aligned Behavior Under Uncertainty: Evidence of Epistemic Stance Transfer in LLMs

📄 arXiv: 2511.17572v1 📥 PDF

作者: Patrick Gerard, Aiden Chang, Svitlana Volkova

分类: cs.CL, cs.SI

发布日期: 2025-11-14

备注: 37 pages, EurIPS 2025


💡 一句话要点

提出一种框架,用于评估LLM在不确定性下是否表现出与特定社区一致的行为模式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知立场转移 不确定性处理 社区对齐 行为偏差检测

📋 核心要点

  1. 现有LLM可能只是记忆训练数据,无法真正理解和泛化社区的行为模式,尤其是在面对不确定性时。
  2. 该论文提出一种框架,通过删除LLM的特定知识,观察其在不确定性下的行为,以此评估其是否具备社区对齐的行为模式。
  3. 实验表明,即使在删除相关知识后,对齐的LLM仍然表现出与特定社区一致的行为模式,证明了其具备泛化能力。

📝 摘要(中文)

当大型语言模型(LLM)与特定的在线社区对齐时,它们是否表现出可泛化的行为模式,反映该社区对新不确定性的态度和反应,还是仅仅回忆训练数据中的模式?我们引入了一个框架来测试认知立场转移:有针对性地删除事件知识,通过多个探针进行验证,然后评估模型在无知的情况下是否仍然重现社区的有机反应模式。使用俄乌军事讨论和美国党派Twitter数据,我们发现即使在积极的事实移除后,对齐的LLM仍然保持稳定的、社区特定的行为模式来处理不确定性。这些结果提供了证据,表明对齐编码了结构化的、可泛化的行为,而不仅仅是表面模仿。我们的框架提供了一种系统的方法来检测在无知情况下仍然存在的行为偏差,从而推进了更安全、更透明的LLM部署。

🔬 方法详解

问题定义:论文旨在解决如何判断大型语言模型(LLM)是否真正理解并内化了特定在线社区的行为模式,而不仅仅是简单地记忆和复现训练数据。现有方法难以区分LLM的行为是源于对事实的记忆,还是源于对社区认知立场的理解和泛化。尤其是在面对新的、不确定的事件时,LLM的行为模式是否仍然与社区保持一致,是一个重要的研究问题。

核心思路:论文的核心思路是通过“认知立场转移”的概念来评估LLM的行为模式。具体来说,首先有针对性地从LLM中删除与特定事件相关的知识,然后观察LLM在面对与该事件相关的不确定性时,是否仍然表现出与目标社区一致的行为模式。如果LLM在缺乏相关知识的情况下仍然能够重现社区的反应模式,则表明其已经内化了该社区的认知立场,而不仅仅是记忆了事实。

技术框架:该框架包含以下几个主要阶段: 1. 社区选择与数据收集:选择具有明确认知立场的在线社区,并收集相关数据(例如,Twitter帖子、论坛讨论)。 2. 事件选择与知识删除:选择与社区相关的特定事件,并使用知识编辑技术(例如,使用模型编辑方法)从LLM中删除与该事件相关的知识。 3. 探针验证:使用多个探针来验证知识删除的有效性,确保LLM确实缺乏与该事件相关的知识。 4. 行为评估:向LLM提出与该事件相关的不确定性问题,并评估其回答是否与目标社区的反应模式一致。使用指标来量化LLM的行为与社区行为之间的相似度。 5. 结果分析:分析实验结果,判断LLM是否表现出认知立场转移,即在缺乏相关知识的情况下仍然能够重现社区的行为模式。

关键创新:该论文的关键创新在于提出了“认知立场转移”的概念,并设计了一个框架来系统地评估LLM是否具备这种能力。与以往的研究相比,该方法更加关注LLM在不确定性下的行为模式,能够更有效地区分LLM的行为是源于记忆还是源于理解。此外,该框架还提供了一种检测LLM中潜在行为偏差的有效方法。

关键设计: * 知识删除方法:使用了多种知识编辑技术,以确保能够有效地从LLM中删除相关知识。 * 探针设计:设计了多种类型的探针,以全面验证知识删除的有效性。 * 行为评估指标:使用了多种指标来量化LLM的行为与社区行为之间的相似度,例如余弦相似度、KL散度等。 * 实验数据集:使用了俄乌军事讨论和美国党派Twitter数据,以验证该框架在不同领域和不同社区的适用性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使在积极删除相关事实后,与特定社区对齐的LLM仍然能够保持稳定的、社区特定的行为模式来处理不确定性。这表明LLM不仅仅是简单地记忆训练数据,而是内化了社区的认知立场,并具备一定的泛化能力。该研究为理解LLM的行为模式提供了新的视角。

🎯 应用场景

该研究成果可应用于评估和改进LLM的安全性与可靠性,尤其是在涉及敏感话题或需要高度负责任的场景中。通过检测和纠正LLM中存在的行为偏差,可以提高LLM在实际应用中的公平性和透明度。此外,该研究还可以帮助我们更好地理解LLM的学习机制,为开发更智能、更可靠的AI系统提供理论指导。

📄 摘要(原文)

When large language models (LLMs) are aligned to a specific online community, do they exhibit generalizable behavioral patterns that mirror that community's attitudes and responses to new uncertainty, or are they simply recalling patterns from training data? We introduce a framework to test epistemic stance transfer: targeted deletion of event knowledge, validated with multiple probes, followed by evaluation of whether models still reproduce the community's organic response patterns under ignorance. Using Russian--Ukrainian military discourse and U.S. partisan Twitter data, we find that even after aggressive fact removal, aligned LLMs maintain stable, community-specific behavioral patterns for handling uncertainty. These results provide evidence that alignment encodes structured, generalizable behaviors beyond surface mimicry. Our framework offers a systematic way to detect behavioral biases that persist under ignorance, advancing efforts toward safer and more transparent LLM deployments.