Psychometric Personality Shaping Modulates Capabilities and Safety in Language Models

📄 arXiv: 2509.16332v1 📥 PDF

作者: Stephen Fitz, Peter Romero, Steven Basart, Sipeng Chen, Jose Hernandez-Orallo

分类: cs.AI, cs.CL

发布日期: 2025-09-19


💡 一句话要点

通过塑造心理人格特征来调节语言模型的能力和安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格塑造 安全性 能力评估 大五人格 行为控制 心理测量学

📋 核心要点

  1. 现有研究对LLM的人格特质有所发现,但缺乏对调节这些特质如何影响模型行为的深入理解。
  2. 该研究通过控制LLM的心理人格特征(基于大五人格框架),来探索其对模型能力和安全性的影响。
  3. 实验结果表明,人格特质的改变会对LLM的安全指标和通用能力产生显著影响,例如降低责任心会导致安全指标下降。

📝 摘要(中文)

大型语言模型越来越多地参与高风险交互,这加剧了对其能力和安全性的研究。虽然最近的研究表明,LLM表现出一致且可衡量的合成人格特质,但关于调节这些特质如何影响模型行为知之甚少。我们通过研究基于大五人格框架的心理人格控制如何影响AI在能力和安全基准测试中的行为来解决这一差距。我们的实验揭示了惊人的影响:例如,降低责任心会导致WMDP、TruthfulQA、ETHICS和Sycophancy等基准测试中与安全相关的指标显著下降,以及MMLU衡量的通用能力下降。这些发现强调了人格塑造作为模型控制的一个强大且未被充分探索的维度,它与安全性和通用能力相互作用。我们讨论了对安全评估、对齐策略、部署后指导模型行为以及与可能利用这些发现相关的风险的影响。我们的发现激发了对人格敏感的安全评估和LLM中的动态行为控制的新研究方向。

🔬 方法详解

问题定义:论文旨在研究如何通过改变大型语言模型(LLM)的心理人格特征来影响其能力和安全性。现有方法缺乏对LLM人格特质与模型行为之间关系的深入理解,无法有效控制模型的安全性和能力表现。

核心思路:论文的核心思路是通过控制LLM的心理人格特征(基于大五人格框架),来调节其行为。作者认为,人格特质的改变可以影响LLM在不同任务上的表现,包括安全性和通用能力。通过有目的地塑造LLM的人格,可以更好地控制其行为,提高安全性和能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择合适的大型语言模型作为实验对象。2)确定用于控制人格特质的方法(具体方法未知,可能涉及prompt工程或微调)。3)使用大五人格框架定义需要控制的人格维度(如责任心、外向性等)。4)设计实验,通过改变人格特质来观察LLM在能力和安全基准测试中的表现。5)分析实验结果,评估人格特质对模型行为的影响。

关键创新:该研究的关键创新在于将心理学中的人格理论引入到大型语言模型的研究中,并探索了人格特质对模型行为的影响。这为控制LLM的行为提供了一个新的视角和方法,有望提高模型的安全性和能力。

关键设计:论文的关键设计细节未知,但可以推测可能包括:1)如何将大五人格框架转化为可操作的控制信号(例如,通过prompt工程或微调)。2)如何设计实验来有效评估人格特质对模型行为的影响。3)如何选择合适的基准测试来评估模型的安全性和能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,降低LLM的责任心会导致在WMDP、TruthfulQA、ETHICS和Sycophancy等安全基准测试中的指标显著下降,同时也降低了MMLU衡量的通用能力。这些发现突出了人格塑造对模型行为的显著影响,并表明人格特质与安全性和能力之间存在密切关系。

🎯 应用场景

该研究成果可应用于提升LLM的安全性,例如通过塑造更负责任的人格来降低模型生成有害内容的风险。此外,该方法还可用于定制LLM的行为,使其更符合特定应用场景的需求。未来,该研究可能推动开发人格敏感的安全评估方法和动态行为控制技术。

📄 摘要(原文)

Large Language Models increasingly mediate high-stakes interactions, intensifying research on their capabilities and safety. While recent work has shown that LLMs exhibit consistent and measurable synthetic personality traits, little is known about how modulating these traits affects model behavior. We address this gap by investigating how psychometric personality control grounded in the Big Five framework influences AI behavior in the context of capability and safety benchmarks. Our experiments reveal striking effects: for example, reducing conscientiousness leads to significant drops in safety-relevant metrics on benchmarks such as WMDP, TruthfulQA, ETHICS, and Sycophancy as well as reduction in general capabilities as measured by MMLU. These findings highlight personality shaping as a powerful and underexplored axis of model control that interacts with both safety and general competence. We discuss the implications for safety evaluation, alignment strategies, steering model behavior after deployment, and risks associated with possible exploitation of these findings. Our findings motivate a new line of research on personality-sensitive safety evaluations and dynamic behavioral control in LLMs.