Giving AI Personalities Leads to More Human-Like Reasoning

📄 arXiv: 2502.14155v2 📥 PDF

作者: Animesh Nighojkar, Bekhzodbek Moydinboyev, My Duong, John Licato

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-02-19 (更新: 2025-02-21)


💡 一句话要点

通过赋予AI人格提升其类人推理能力,解决完整推理谱问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格化AI 自然语言推理 遗传算法 认知建模

📋 核心要点

  1. 现有计算认知建模难以捕捉人类判断和决策过程的完整范围,尤其是在最优行为之外。
  2. 论文提出基于大五人格模型的提示方法,结合遗传算法优化,使LLM模拟不同人格的推理风格。
  3. 实验结果表明,该方法能有效提升LLM预测人类反应分布的能力,开源模型表现优于GPT模型。

📝 摘要(中文)

本研究旨在探索大型语言模型(LLM)是否能通过模拟直觉式的System 1和深思熟虑的System 2过程,来模拟人类判断和决策过程的完整范围,而不仅仅是最优行为。我们研究了AI模拟人类群体中不同推理行为的潜力,解决所谓的“完整推理谱问题”。我们设计了一种新颖的自然语言推理(NLI)泛化形式的推理任务,以评估LLM复制人类推理的能力。问题旨在引出System 1和System 2的反应。通过众包收集人类反应,并对整个分布进行建模,而不仅仅是大多数答案。我们使用受大五人格模型启发的基于人格的提示来引出反映特定人格特质的AI反应,捕捉人类推理的多样性,并探索人格特质如何影响LLM的输出。结合遗传算法来优化这些提示的权重,该方法与传统的机器学习模型一起进行了测试。结果表明,LLM可以模仿人类反应分布,Llama和Mistral等开源模型优于专有的GPT模型。基于人格的提示,尤其是在通过遗传算法优化时,显著增强了LLM预测人类反应分布的能力,表明捕捉次优的自然推理可能需要结合不同推理风格和心理特征的建模技术。该研究得出结论,基于人格的提示与遗传算法相结合,有望增强AI推理的“人性”。

🔬 方法详解

问题定义:论文旨在解决“完整推理谱问题”,即如何让AI模型不仅能进行最优推理,还能模拟人类各种各样的推理方式,包括直觉式的和深思熟虑式的。现有方法主要关注最优行为,忽略了人类推理的多样性,无法捕捉人类推理的完整图景。

核心思路:核心思路是赋予AI模型不同的人格,通过模拟不同人格的推理风格来捕捉人类推理的多样性。借鉴心理学中的大五人格模型,设计基于人格的提示,引导LLM产生符合特定人格特征的推理结果。

技术框架:整体框架包括以下几个阶段:1) 设计推理任务,采用自然语言推理(NLI)的泛化形式,旨在激发System 1和System 2的反应。2) 通过众包收集人类对推理任务的反应,构建人类反应分布。3) 基于大五人格模型设计人格提示,输入LLM,生成不同人格的推理结果。4) 使用遗传算法优化人格提示的权重,使LLM的输出更接近人类反应分布。5) 将该方法与传统机器学习模型进行比较。

关键创新:最重要的创新点在于将人格特征引入LLM的提示工程中,通过模拟不同人格的推理风格来捕捉人类推理的多样性。与现有方法相比,该方法不再局限于最优推理,而是关注人类推理的完整谱。

关键设计:关键设计包括:1) 基于大五人格模型设计人格提示,例如,对于“外向”人格,提示词可能包含“社交”、“活跃”等。2) 使用遗传算法优化人格提示的权重,目标是最小化LLM输出与人类反应分布之间的差异。3) 采用NLI的泛化形式设计推理任务,确保任务能够激发System 1和System 2的反应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于人格的提示结合遗传算法能够显著提升LLM预测人类反应分布的能力。Llama和Mistral等开源模型在模仿人类推理方面表现优于专有的GPT模型。通过优化人格提示的权重,LLM的输出能够更准确地反映人类推理的多样性。

🎯 应用场景

该研究成果可应用于开发更具人情味的AI助手、个性化教育系统和心理健康评估工具。通过模拟人类的推理方式,AI可以更好地理解人类的需求和情感,提供更贴心的服务。此外,该方法还可以用于研究人类认知过程,例如人格特质如何影响决策。

📄 摘要(原文)

In computational cognitive modeling, capturing the full spectrum of human judgment and decision-making processes, beyond just optimal behaviors, is a significant challenge. This study explores whether Large Language Models (LLMs) can emulate the breadth of human reasoning by predicting both intuitive, fast System 1 and deliberate, slow System 2 processes. We investigate the potential of AI to mimic diverse reasoning behaviors across a human population, addressing what we call the "full reasoning spectrum problem". We designed reasoning tasks using a novel generalization of the Natural Language Inference (NLI) format to evaluate LLMs' ability to replicate human reasoning. The questions were crafted to elicit both System 1 and System 2 responses. Human responses were collected through crowd-sourcing and the entire distribution was modeled, rather than just the majority of the answers. We used personality-based prompting inspired by the Big Five personality model to elicit AI responses reflecting specific personality traits, capturing the diversity of human reasoning, and exploring how personality traits influence LLM outputs. Combined with genetic algorithms to optimize the weighting of these prompts, this method was tested alongside traditional machine learning models. The results show that LLMs can mimic human response distributions, with open-source models like Llama and Mistral outperforming proprietary GPT models. Personality-based prompting, especially when optimized with genetic algorithms, significantly enhanced LLMs' ability to predict human response distributions, suggesting that capturing suboptimal, naturalistic reasoning may require modeling techniques incorporating diverse reasoning styles and psychological profiles. The study concludes that personality-based prompting combined with genetic algorithms is promising for enhancing AI's 'human-ness' in reasoning.