Do You Trust Me? Cognitive-Affective Signatures of Trustworthiness in Large Language Models

📄 arXiv: 2601.10719v1 📥 PDF

作者: Gerard Yeo, Svetlana Churina, Kokil Jaidka

分类: cs.AI, cs.CL

发布日期: 2025-12-17

🔗 代码/项目: GITHUB


💡 一句话要点

研究揭示大型语言模型在网络叙事中内化了人类信任感知的认知-情感特征。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信任感知 认知评估 情感分析 可信度 探针分析 网络叙事

📋 核心要点

  1. 现有方法难以理解大型语言模型如何内化人类信任感知的复杂认知和情感特征。
  2. 该研究通过分析LLM在处理网络叙事时的激活模式,揭示其对信任线索的隐式编码。
  3. 实验表明LLM能够学习并区分高低信任文本,且与人类信任相关的认知评估维度密切相关。

📝 摘要(中文)

用户如何浏览在线信息取决于感知到的可信度。本文分析了指令微调的大型语言模型(LLM),包括Llama 3.1 8B、Qwen 2.5 7B和Mistral 7B,是否以心理学上一致的方式表示这种结构。研究使用PEACE-Reviews数据集,该数据集标注了认知评估、情感和行为意图,分析了LLM如何在类似网络的叙事中编码感知到的可信度。结果表明,不同模型中,层级和注意力头部的激活存在系统性差异,能够区分高信任和低信任文本,揭示了信任线索在预训练期间被隐式编码。探针分析显示了线性可解码的信任信号和微调效果,这些效果改进而非重构了这些表示。最强的关联出现在公平性、确定性和责任感(自我)的评估中,这些维度是人类在线信任形成的核心。这些发现表明,现代LLM在没有明确监督的情况下内化了心理学基础的信任信号,为在网络生态系统中设计可信、透明和值得信赖的AI系统提供了表征基础。

🔬 方法详解

问题定义:论文旨在理解大型语言模型(LLM)是否以及如何编码人类对在线信息的可信度感知。现有方法缺乏对LLM内部如何表示和处理信任相关信息的深入理解,尤其是在认知和情感层面。这阻碍了构建更值得信赖和透明的AI系统。

核心思路:核心思路是通过分析LLM在处理不同信任程度的文本时内部激活模式的差异,来揭示其对信任线索的编码方式。研究假设LLM在预训练过程中已经隐式地学习了与信任相关的模式,并且可以通过探针分析来解码这些模式。

技术框架:研究使用PEACE-Reviews数据集,该数据集包含标注了认知评估、情感和行为意图的网络叙事。研究流程包括:1) 使用Llama 3.1 8B、Qwen 2.5 7B和Mistral 7B等LLM处理数据集中的文本;2) 分析不同层级和注意力头部的激活模式,以区分高信任和低信任文本;3) 使用探针分析来解码信任信号;4) 进行微调实验,观察微调对信任表示的影响。

关键创新:关键创新在于揭示了LLM在没有明确监督的情况下,能够内化并表示与人类信任感知相关的认知和情感特征。这表明LLM具有学习和理解复杂社会概念的潜力,为构建更值得信赖的AI系统提供了新的视角。

关键设计:研究的关键设计包括:1) 使用PEACE-Reviews数据集,该数据集提供了丰富的信任相关标注;2) 分析不同层级和注意力头部的激活模式,以捕捉不同粒度的信任信号;3) 使用线性探针来解码信任信号,并评估其可解释性;4) 通过微调实验来研究微调对信任表示的影响。

📊 实验亮点

研究发现,LLM能够区分高低信任文本,并且这种区分体现在模型内部的激活模式上。具体而言,与公平性、确定性和责任感相关的认知评估维度与信任信号的关联最强。探针分析表明,信任信号可以被线性解码,并且微调可以进一步优化这些信号的表示。

🎯 应用场景

该研究成果可应用于开发更可信、透明的AI系统,例如在搜索引擎、推荐系统和对话系统中,提高用户对AI生成内容的信任度。此外,该研究还可以帮助理解AI系统中的偏见和不公平现象,并设计相应的缓解措施。未来,可以进一步探索如何利用这些发现来构建更具社会意识和道德责任感的AI系统。

📄 摘要(原文)

Perceived trustworthiness underpins how users navigate online information, yet it remains unclear whether large language models (LLMs),increasingly embedded in search, recommendation, and conversational systems, represent this construct in psychologically coherent ways. We analyze how instruction-tuned LLMs (Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B) encode perceived trustworthiness in web-like narratives using the PEACE-Reviews dataset annotated for cognitive appraisals, emotions, and behavioral intentions. Across models, systematic layer- and head-level activation differences distinguish high- from low-trust texts, revealing that trust cues are implicitly encoded during pretraining. Probing analyses show linearly de-codable trust signals and fine-tuning effects that refine rather than restructure these representations. Strongest associations emerge with appraisals of fairness, certainty, and accountability-self -- dimensions central to human trust formation online. These findings demonstrate that modern LLMs internalize psychologically grounded trust signals without explicit supervision, offering a representational foundation for designing credible, transparent, and trust-worthy AI systems in the web ecosystem. Code and appendix are available at: https://github.com/GerardYeo/TrustworthinessLLM.