Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
作者: Farzan Karimi-Malekabadi, Suhaib Abdurahman, Zhivar Sourati, Jackson Trager, Morteza Dehghani
分类: cs.AI, cs.CY
发布日期: 2026-01-05
💡 一句话要点
提出Theory Trace Card,用于理论驱动的大语言模型社会认知能力评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会认知评估 理论基础 有效性 可解释性
📋 核心要点
- 现有LLM社会认知评估缺乏明确的理论基础,导致评估结果难以推广到真实场景。
- 提出Theory Trace Card (TTC),显式记录评估的理论基础、能力组成、操作化和局限性。
- TTC旨在增强评估的可解释性和可重用性,无需修改现有基准测试或统一理论。
📝 摘要(中文)
大型语言模型(LLM)的社会认知基准测试通常无法预测真实世界的行为,即使模型在基准测试中取得了很高的分数。先前的工作将这种评估-部署差距归因于测量和有效性问题。虽然这些批评很有见地,但我们认为它们忽略了一个更根本的问题:许多社会认知评估在没有明确的目标能力理论规范的情况下进行,使得任务表现与能力之间的假设是隐含的。在没有这种理论基础的情况下,仅练习能力狭窄子集的基准测试通常被误解为广泛能力的证据:这种差距通过掩盖评估能力其他基本维度的失败而产生系统性的有效性错觉。为了解决这个差距,我们做出了两项贡献。首先,我们将这种理论差距诊断并形式化为一种基础性失败,它破坏了测量并使得基准测试结果的系统性过度概括成为可能。其次,我们引入了Theory Trace Card(TTC),这是一种轻量级的文档,旨在伴随社会认知评估,它明确概述了评估的理论基础、它所练习的目标能力的组成部分、它的操作化以及它的局限性。我们认为,TTC通过明确完整的有效性链(将理论、任务操作化、评分和局限性联系起来)来增强社会认知评估的可解释性和重用性,而无需修改基准测试或要求就单一理论达成一致。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)社会认知能力评估,即使在基准测试中表现出色,也难以预测其在真实世界中的行为。这主要是因为评估缺乏明确的理论基础,导致任务表现与实际能力之间的联系不明确,容易产生过度概括的现象。现有方法往往忽略了对目标能力各个维度的全面评估。
核心思路:论文的核心思路是引入一个轻量级的文档工具,即Theory Trace Card (TTC),用于显式地记录社会认知评估的理论基础。通过明确评估所针对的能力组成、操作化方式以及局限性,从而提高评估结果的可解释性和可信度,避免过度概括。TTC的设计目标是不修改现有的基准测试,也不强求对单一理论的共识。
技术框架:TTC作为一个附加的文档,伴随现有的社会认知评估流程。它主要包含以下几个部分: 1. 理论基础:明确评估所依据的社会认知理论。 2. 能力组成:详细描述目标能力的各个组成部分。 3. 操作化:说明如何将理论概念转化为可操作的任务。 4. 局限性:指出评估的局限性,例如可能存在的偏差或未覆盖的能力维度。
关键创新:论文的关键创新在于提出了TTC这一概念,它通过显式地记录评估的理论基础,弥补了现有评估方法中理论规范的缺失。与现有方法相比,TTC不依赖于对单一理论的共识,而是鼓励研究者明确自身评估的理论假设,从而提高评估的透明度和可解释性。
关键设计:TTC的设计是一个开放式的框架,允许研究者根据具体的评估任务和理论基础进行定制。关键在于确保TTC能够清晰地表达评估的理论基础、能力组成、操作化方式和局限性。没有特定的参数设置或网络结构,重点在于文档的完整性和清晰度。
🖼️ 关键图片
📊 实验亮点
论文提出了Theory Trace Card (TTC)这一新颖的文档工具,旨在解决LLM社会认知评估中存在的理论缺失问题。TTC通过显式记录评估的理论基础、能力组成、操作化和局限性,增强了评估的可解释性和可重用性。该方法无需修改现有基准测试,具有很强的实用性和推广价值。
🎯 应用场景
该研究成果可广泛应用于大型语言模型的社会认知能力评估领域,帮助研究人员更准确地评估模型的真实能力,避免过度依赖基准测试结果。TTC可以作为一种标准化的文档工具,促进评估结果的交流和共享,提高整个领域的评估水平。未来,TTC可以扩展到其他类型的人工智能系统评估中。
📄 摘要(原文)
Socio-cognitive benchmarks for large language models (LLMs) often fail to predict real-world behavior, even when models achieve high benchmark scores. Prior work has attributed this evaluation-deployment gap to problems of measurement and validity. While these critiques are insightful, we argue that they overlook a more fundamental issue: many socio-cognitive evaluations proceed without an explicit theoretical specification of the target capability, leaving the assumptions linking task performance to competence implicit. Without this theoretical grounding, benchmarks that exercise only narrow subsets of a capability are routinely misinterpreted as evidence of broad competence: a gap that creates a systemic validity illusion by masking the failure to evaluate the capability's other essential dimensions. To address this gap, we make two contributions. First, we diagnose and formalize this theory gap as a foundational failure that undermines measurement and enables systematic overgeneralization of benchmark results. Second, we introduce the Theory Trace Card (TTC), a lightweight documentation artifact designed to accompany socio-cognitive evaluations, which explicitly outlines the theoretical basis of an evaluation, the components of the target capability it exercises, its operationalization, and its limitations. We argue that TTCs enhance the interpretability and reuse of socio-cognitive evaluations by making explicit the full validity chain, which links theory, task operationalization, scoring, and limitations, without modifying benchmarks or requiring agreement on a single theory.