Social-R1: Towards Human-like Social Reasoning in LLMs

📄 arXiv: 2603.09249v1 📥 PDF

作者: Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen Meng

分类: cs.AI

发布日期: 2026-03-10

备注: 27 pages. Code and dataset will be released upon acceptance


💡 一句话要点

提出Social-R1框架,提升LLM在复杂社交推理中的类人能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交推理 大型语言模型 强化学习 多维奖励 人机协作

📋 核心要点

  1. 现有大型语言模型在社交推理方面存在不足,过度依赖表面模式,缺乏对人类心理状态的深入理解。
  2. Social-R1通过强化学习框架,利用多维奖励监督推理过程,使模型推理与人类认知对齐,提升社交智能。
  3. 实验结果表明,Social-R1框架下的40亿参数模型超越了更大的模型,并在多个基准测试中表现出强大的泛化能力。

📝 摘要(中文)

大型语言模型在诸多领域展现了卓越的能力,但社交智能——感知社交线索、推断心理状态并生成适当反应的能力——仍然是一个关键挑战,尤其是在实现有效的人机协作和开发真正服务于人类需求的AI方面。当前的模型通常依赖于表面模式,而非真正的社交推理。我们认为,培养类人社交智能需要使用能够抵抗捷径解决方案的具有挑战性的案例进行训练。为此,我们引入了ToMBench-Hard,这是一个旨在为社交推理提供困难训练样本的对抗性基准。在此基础上,我们提出了Social-R1,一个通过多维奖励将模型推理与人类认知对齐的强化学习框架。与基于结果的RL不同,Social-R1监督整个推理过程,强制执行结构对齐、逻辑完整性和信息密度。结果表明,我们的方法使一个40亿参数的模型能够超越更大的模型,并在八个不同的基准上稳健地泛化。这些发现表明,具有轨迹级别对齐的具有挑战性的训练案例为高效可靠的社交智能提供了一条途径。

🔬 方法详解

问题定义:现有大型语言模型在社交推理任务中表现不佳,主要原因是它们倾向于学习数据集中的表面统计规律,而缺乏对人类心理状态和复杂社会情境的真正理解。这种现象导致模型在面对具有挑战性的、需要深入推理的社交场景时,容易做出不合理的判断和决策。现有方法通常依赖于简单的监督学习或基于结果的强化学习,难以有效地引导模型学习人类的推理过程。

核心思路:Social-R1的核心思路是通过强化学习,显式地监督模型的推理过程,使其与人类的认知过程对齐。具体来说,该方法不是简单地根据最终结果的好坏来奖励模型,而是对模型推理的每一步进行评估,并根据其结构对齐、逻辑完整性和信息密度等多个维度进行奖励。这种细粒度的监督能够更有效地引导模型学习人类的推理方式,从而提高其社交智能。

技术框架:Social-R1的技术框架主要包括以下几个模块:1) 环境模拟器:用于生成具有挑战性的社交推理场景,例如ToMBench-Hard基准;2) 策略网络:用于生成模型的推理轨迹;3) 奖励函数:用于评估推理轨迹的质量,包括结构对齐、逻辑完整性和信息密度等多个维度;4) 强化学习算法:用于优化策略网络,使其能够生成高质量的推理轨迹。整个流程是,模型在环境模拟器中进行推理,根据奖励函数获得反馈,然后通过强化学习算法不断优化策略网络。

关键创新:Social-R1最重要的技术创新点在于其多维奖励函数,该函数能够对推理过程进行细粒度的评估,并引导模型学习人类的推理方式。与传统的基于结果的强化学习相比,Social-R1能够更有效地解决社交推理任务中的复杂性和不确定性。此外,ToMBench-Hard基准的引入也为模型的训练提供了更具挑战性的样本,有助于提高模型的泛化能力。

关键设计:在奖励函数的设计上,Social-R1考虑了三个关键维度:结构对齐(推理步骤是否符合人类的认知结构)、逻辑完整性(推理过程是否逻辑严密)和信息密度(推理过程中包含的信息量)。这些维度通过不同的指标进行量化,并组合成一个综合的奖励信号。在强化学习算法的选择上,论文可能采用了常见的策略梯度算法,例如PPO或Actor-Critic方法。具体的参数设置和网络结构细节在论文中可能会有更详细的描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Social-R1框架下的40亿参数模型在多个社交推理基准测试中超越了更大的模型,证明了轨迹级别对齐的有效性。具体性能数据和对比基线在摘要中未给出,但强调了该方法在不同基准上的稳健泛化能力。ToMBench-Hard基准的引入也为模型的训练提供了更具挑战性的样本。

🎯 应用场景

Social-R1的研究成果可应用于人机协作、智能客服、社交机器人等领域。通过提升AI的社交智能,可以使其更好地理解人类的需求和意图,从而提供更个性化、更有效的服务。此外,该研究也有助于开发更安全、更可靠的AI系统,避免因社交理解不足而导致的潜在风险。

📄 摘要(原文)

While large language models demonstrate remarkable capabilities across numerous domains, social intelligence - the capacity to perceive social cues, infer mental states, and generate appropriate responses - remains a critical challenge, particularly for enabling effective human-AI collaboration and developing AI that truly serves human needs. Current models often rely on superficial patterns rather than genuine social reasoning. We argue that cultivating human-like social intelligence requires training with challenging cases that resist shortcut solutions. To this end, we introduce ToMBench-Hard, an adversarial benchmark designed to provide hard training examples for social reasoning. Building on this, we propose Social-R1, a reinforcement learning framework that aligns model reasoning with human cognition through multi-dimensional rewards. Unlike outcome-based RL, Social-R1 supervises the entire reasoning process, enforcing structural alignment, logical integrity, and information density. Results show that our approach enables a 4B parameter model to surpass much larger counterparts and generalize robustly across eight diverse benchmarks. These findings demonstrate that challenging training cases with trajectory-level alignment offer a path toward efficient and reliable social intelligence.