ActTraitBench: Quantifying the Knowledge-Decision Gap in Large Language Models via Human-Grounded Behavioral Validation
作者: Yutong Yang, Chenxi Miao, Weikang Li, Yunfang Wu
分类: cs.CL
发布日期: 2026-05-28
💡 一句话要点
ActTraitBench:通过行为验证量化大语言模型中的知行差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 人格一致性 知行差距 行为验证 评估框架
📋 核心要点
- 现有基准测试在评估LLM人格一致性时,存在构建效度不足、维度纠缠和分布偏差等问题。
- ActTraitBench通过建立心理测量维度与行为范式的一对一映射,并进行分布校准,实现更可靠的评估。
- 实验表明,大型LLM存在显著的知行差距,且提出的CoCA方法能在一定程度上缓解这一差距。
📝 摘要(中文)
大型语言模型(LLMs)虽然能在显式自我报告中令人信服地模拟人格,但在隐式行为决策中经常出现偏差,揭示了显著的知行差距($G_{ ext{KD}}$)。现有的基准测试难以衡量这种不对称性,因为它们在构建效度、多维纠缠以及基于LLM的评估中存在分布偏差。为了解决这些问题,我们提出了ActTraitBench,这是一个基于人类数据的评估框架,用于衡量LLM中的人格一致性。ActTraitBench基于经验性人类数据,在心理测量维度和行为范式之间建立了一对一的映射,并应用了一种通过分位数映射进行分布校准的程序,以使LLM判断的分数分布与人类规范对齐。对14个主流LLM的实验表明,普遍存在知行不对称,即更大、更强大的模型通常表现出更强的行为差异,尽管它们的自我报告高度一致。为了缩小这一差距,我们进一步引入了认知对齐链(CoCA),这是一种即插即用的推理时干预方法,可以提高具有推理能力的先进模型的对齐性,同时暴露较小架构中明显的性能限制。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在人格一致性方面存在的“知行差距”问题。具体来说,LLMs在自我报告中可以很好地模拟特定人格,但在实际行为决策中却常常偏离,导致知识和行为不一致。现有评估方法存在构建效度低、维度耦合以及LLM评估中的分布偏差等问题,难以准确衡量这种差距。
核心思路:论文的核心思路是通过建立一个基于人类数据的评估框架,即ActTraitBench,来更准确地量化LLMs的知行差距。该框架的核心在于将心理测量维度与具体的行为范式进行一对一映射,并采用分布校准方法,使LLM的判断分数分布与人类规范对齐。这样可以更真实地反映LLMs在实际行为中的人格表现。
技术框架:ActTraitBench框架主要包含以下几个关键模块:1) 人格特质定义模块:基于心理学理论,选择合适的人格特质维度进行评估。2) 行为范式映射模块:为每个人格特质维度设计对应的行为范式,建立一对一的映射关系。3) LLM行为模拟模块:利用LLM模拟特定人格在行为范式下的决策过程。4) 分布校准模块:使用分位数映射等方法,校准LLM生成的分数分布,使其与人类数据分布对齐。5) 知行差距评估模块:比较LLM的自我报告和行为决策,量化知行差距。此外,论文还提出了CoCA方法,作为一种推理时干预手段,以缓解知行差距。
关键创新:论文的主要创新在于:1) 提出了ActTraitBench,一个基于人类数据的、具有高构建效度的LLM人格一致性评估框架。2) 建立了心理测量维度与行为范式之间的一对一映射关系,避免了维度纠缠问题。3) 采用了分布校准方法,消除了LLM评估中的分布偏差。4) 提出了CoCA方法,作为一种缓解知行差距的有效手段。
关键设计:在ActTraitBench中,关键设计包括:1) 行为范式的选择:选择能够有效区分不同人格特质的行为范式,例如风险偏好、合作意愿等。2) 分布校准方法:采用分位数映射,将LLM生成的分数映射到人类数据的分布范围内。3) CoCA方法:通过引导LLM进行多步推理,使其在决策时更加关注人格特质,从而提高行为一致性。CoCA的具体实现细节(例如prompt设计)在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是大型LLM也普遍存在知行差距,且模型越大,行为差异反而可能更强。通过引入CoCA方法,可以在具有推理能力的先进模型中有效缓解知行差距,但在较小模型中效果有限,揭示了模型能力上的限制。ActTraitBench提供了一个更可靠的评估框架,为后续研究提供了基准。
🎯 应用场景
该研究成果可应用于评估和改进LLM在人机交互、虚拟助手、游戏AI等领域的应用。通过量化和缩小LLM的知行差距,可以提升其行为的可预测性和可靠性,使其在模拟人类行为和进行决策时更加一致,从而增强用户体验和信任度。未来的研究可以进一步探索更有效的对齐方法,并将其应用于更广泛的LLM应用场景。
📄 摘要(原文)
While Large Language Models (LLMs) can convincingly simulate personas in explicit self-reports, they often deviate in implicit behavioral decisions, revealing a substantial Knowledge-Decision Gap ($G_{\text{KD}}$). Existing benchmarks struggle to measure this asymmetry due to limited construct validity, multi-dimensional entanglement, and distributional biases in LLM-based evaluation. To address these issues, we propose ActTraitBench, a human-grounded evaluation framework for measuring personality consistency in LLMs. Grounded in empirical human data, ActTraitBench establishes one-to-one mappings between psychometric facets and behavioral paradigms, and applies a Distributional Calibration via Quantile Mapping procedure to align LLM-judge score distributions with human norms. Experiments on 14 mainstream LLMs reveal a pervasive knowledge-decision asymmetry, where larger and more capable models often exhibit stronger behavioral divergence despite highly consistent self-reports. To mitigate this gap, we further introduce the Chain of Cognitive Alignment (CoCA), a plug-and-play inference-time intervention that improves alignment in reasoning-capable frontier models while exposing clear capability limitations in smaller architectures.