The Silicon Psyche: Anthropomorphic Vulnerabilities in Large Language Models

📄 arXiv: 2601.00867v1 📥 PDF

作者: Giuseppe Canale, Kashyap Thimmaraju

分类: cs.CR, cs.AI, cs.CY, cs.HC

发布日期: 2025-12-30


💡 一句话要点

提出心理防火墙以应对大型语言模型的脆弱性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理脆弱性 网络安全 对抗性测试 心理防火墙 社会工程 决策评估

📋 核心要点

  1. 现有的对抗性测试方法主要集中在技术攻击上,忽视了LLMs在心理层面上的脆弱性。
  2. 本文提出了合成心理测评协议,将心理脆弱性指标转化为针对LLM的对抗场景,以评估其决策过程中的脆弱性。
  3. 初步实验表明,LLMs在面对传统攻击时表现良好,但在心理操控方面却存在显著的脆弱性,需引起重视。

📝 摘要(中文)

大型语言模型(LLMs)正迅速从对话助手转变为嵌入关键组织功能的自主代理,如安全运营中心、金融系统和基础设施管理。当前的对抗性测试主要集中在技术攻击向量上,如提示注入、越狱和数据外泄。本文提出了将网络安全心理框架(CPF)系统性应用于非人类认知代理的首个尝试,并引入合成心理测评协议(SYSNAME),将CPF指标转化为针对LLM决策的对抗场景。初步实验结果显示,尽管模型对传统越狱攻击有较强防御能力,但在权威梯度操控、时间压力利用和趋同状态攻击等方面表现出明显脆弱性。我们称之为人类脆弱性继承(AVI),并建议安全社区急需开发“心理防火墙”以保护在对抗环境中运作的AI代理。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在心理层面上的脆弱性问题,现有方法主要关注技术攻击,未能全面评估模型的心理脆弱性。

核心思路:论文的核心思路是将网络安全心理框架(CPF)应用于非人类认知代理,识别其在决策过程中的心理脆弱性,并通过合成心理测评协议(SYSNAME)进行评估。

技术框架:整体架构包括心理脆弱性指标的识别、对抗场景的构建和模型决策的评估,主要模块包括数据收集、指标转化和实验验证。

关键创新:最重要的技术创新在于将人类心理脆弱性系统性地应用于LLMs,提出了人类脆弱性继承(AVI)的概念,强调了心理层面的安全风险。

关键设计:在设计上,使用了100个心理脆弱性指标,并通过合成心理测评协议将其转化为具体的对抗场景,确保评估的全面性和有效性。实验中还考虑了不同LLM模型的特性,以确保结果的可靠性。

📊 实验亮点

实验结果显示,尽管LLMs对传统越狱攻击表现出较强的防御能力,但在权威梯度操控和时间压力利用等方面的脆弱性显著,表明模型在心理操控下的决策失误风险。此现象的发现为AI安全领域提供了新的研究方向。

🎯 应用场景

该研究的潜在应用领域包括安全运营、金融监控和基础设施管理等关键领域。通过识别和防护LLMs的心理脆弱性,可以提高AI代理在对抗环境中的安全性,降低潜在的社会工程攻击风险,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large Language Models (LLMs) are rapidly transitioning from conversational assistants to autonomous agents embedded in critical organizational functions, including Security Operations Centers (SOCs), financial systems, and infrastructure management. Current adversarial testing paradigms focus predominantly on technical attack vectors: prompt injection, jailbreaking, and data exfiltration. We argue this focus is catastrophically incomplete. LLMs, trained on vast corpora of human-generated text, have inherited not merely human knowledge but human \textit{psychological architecture} -- including the pre-cognitive vulnerabilities that render humans susceptible to social engineering, authority manipulation, and affective exploitation. This paper presents the first systematic application of the Cybersecurity Psychology Framework (\cpf{}), a 100-indicator taxonomy of human psychological vulnerabilities, to non-human cognitive agents. We introduce the \textbf{Synthetic Psychometric Assessment Protocol} (\sysname{}), a methodology for converting \cpf{} indicators into adversarial scenarios targeting LLM decision-making. Our preliminary hypothesis testing across seven major LLM families reveals a disturbing pattern: while models demonstrate robust defenses against traditional jailbreaks, they exhibit critical susceptibility to authority-gradient manipulation, temporal pressure exploitation, and convergent-state attacks that mirror human cognitive failure modes. We term this phenomenon \textbf{Anthropomorphic Vulnerability Inheritance} (AVI) and propose that the security community must urgently develop ``psychological firewalls'' -- intervention mechanisms adapted from the Cybersecurity Psychology Intervention Framework (\cpif{}) -- to protect AI agents operating in adversarial environments.