SCRuB: Social Concept Reasoning under Rubric-Based Evaluation
作者: Jamelle Watson-Daniels, Himaghna Bhattacharjee, Skyler Wang, Brandon Handoko, Antonio Li, Anaelia Ovalle, Mahesh Pasupuleti, Candace Ross, Vidya Sarma, Arjun Subramonian, Karen Ullrich, Will van der Vaart, Yijing Xin, Maximilian Nickel
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出SCRuB框架,用于评估大语言模型在社会概念推理方面的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会概念推理 大语言模型评估 批判性思维 专家评估 社会智能体
📋 核心要点
- 现有研究较少关注大语言模型在社会概念推理方面的能力,而这对于模型作为社会智能体至关重要。
- SCRuB框架通过构建提示、生成回复和比较评估三个阶段,系统性地评估模型在社会概念推理方面的能力。
- 实验结果表明,前沿模型在所有五个维度上均优于人类专家,揭示了单轮考试形式的评估饱和现象。
📝 摘要(中文)
本研究关注大语言模型(LLM)在社会概念推理方面的能力,这是一个常被忽视但对模型作为社会智能体至关重要的方面。为此,我们提出了SCRuB(基于评价标准的社会概念推理)框架,旨在系统性地评估模型在此任务中的表现。SCRuB包含三个阶段:从权威来源构建提示,由专家和模型生成回复,以及使用五维批判性思维标准进行比较评估。为了提高框架的泛化能力,我们引入了一个跨学科专家组,并对其有效性进行了验证。我们发布了SCRuBEval(n=4,711个评估提示)和SCRuBAnnotations(包含300个专家撰写的回复和150个专家比较判断,由45位博士学者完成)。实验结果表明,前沿模型在所有五个维度上均优于人类专家。在1,170次成对比较中,专家评委在80.8%的判断中将模型回复排在第一位,总体上更喜欢模型回复的比例为74.4%。这项研究首次基于专家评估,展示了社会概念推理的评估饱和现象:单轮考试形式对模型和人类而言都已达到上限。
🔬 方法详解
问题定义:现有的大语言模型评估主要集中在数学或技术任务上,而忽略了社会概念推理能力,即理解和应用社会规范、文化和制度等抽象概念的能力。这种能力对于模型在社会环境中作为智能体至关重要。现有的评估方法缺乏针对社会概念推理的系统性评估框架,无法有效衡量模型在此方面的表现。
核心思路:SCRuB框架的核心思路是通过构建一个基于评价标准的社会概念推理评估流程,模拟人类专家进行批判性思维的过程。该框架通过专家构建的提示、模型和专家生成的回复,以及基于五维批判性思维标准的比较评估,来衡量模型在社会概念推理方面的深度和严谨性。
技术框架:SCRuB框架包含三个主要阶段:1) 提示构建:从已建立的权威来源构建提示,确保提示的质量和相关性。2) 回复生成:由专家和模型对提示生成回复,为后续的比较评估提供数据。3) 比较评估:使用五维批判性思维标准(具体维度未知)对专家和模型的回复进行比较评估,从而衡量模型在社会概念推理方面的表现。此外,该框架还引入了一个跨学科专家组,以提高框架的泛化能力。
关键创新:SCRuB框架的关键创新在于其系统性地评估大语言模型在社会概念推理方面的能力,并引入了基于评价标准的比较评估方法。该框架通过专家构建的提示、模型和专家生成的回复,以及基于五维批判性思维标准的比较评估,能够更全面、客观地衡量模型在社会概念推理方面的表现。此外,跨学科专家组的引入也提高了框架的泛化能力。
关键设计:论文中提到五维批判性思维标准,但未具体说明这五个维度是什么。专家组的构建和验证过程也未详细描述。提示构建的具体方法和来源也需要进一步了解。回复生成的具体方式(例如,使用的模型、超参数等)也未提及。这些细节的缺失使得复现该框架存在一定的挑战。
🖼️ 关键图片
📊 实验亮点
实验结果表明,前沿模型在所有五个批判性思维维度上均优于人类专家。在1,170次成对比较中,专家评委在80.8%的判断中将模型回复排在第一位,总体上更喜欢模型回复的比例为74.4%。这些结果表明,当前单轮考试形式的社会概念推理评估已达到饱和,模型和人类的表现都难以进一步提升。
🎯 应用场景
SCRuB框架可用于评估和改进大语言模型在社会环境中的应用,例如智能客服、社交机器人、教育辅助等。通过提高模型对社会概念的理解和推理能力,可以使其更好地适应社会规范,避免产生不当言论或行为,从而提升用户体验和社会效益。该研究为开发更安全、可靠和有益的社会智能体奠定了基础。
📄 摘要(原文)
While many studies of Large Language Model (LLM) reasoning capabilities emphasize mathematical or technical tasks, few address reasoning about social concepts: the abstract ideas shaping social norms, culture, and institutions. This understudied capability is essential for modern models acting as social agents, yet no systematic evaluation methodology targets it. We introduce SCRuB (Social Concept Reasoning under Rubric-Based Evaluation), a framework designed for this setting of task indeterminacy. Our goal is to measure the degree to which a model reasons about social concepts with the depth and critical rigor of a human expert. SCRuB proceeds in three phases: prompt construction from established sources, response generation by experts and models, and comparative evaluation using a five-dimensional critical thinking rubric. To enable generalization of the pipeline, we introduce a Panel of Disciplinary Perspectives ensemble validated against independent expert judges. We release SCRuBEval (n=4,711 evaluation prompts) and SCRuBAnnotations (300 expert-authored responses and 150 expert comparative judgments from 45 PhD-level scholars). Our results show that frontier models consistently outperform human experts across all five rubric dimensions. Across 1,170 pairwise comparisons, expert judges ranked a model response first in 80.8% of judgments and preferred model responses overall 74.4% of the time. Ultimately, this study provides the first expert-grounded demonstration of evaluation saturation for social concept reasoning: the single-turn exam-style format has reached its ceiling for models and humans alike.