Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning

📄 arXiv: 2507.15788v1 📥 PDF

作者: Sneheel Sarangi, Hanan Salam

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-21


💡 一句话要点

小规模LLM难以通过强化学习获得可泛化的心理理论能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 强化学习 小型语言模型 泛化能力 社会智能

📋 核心要点

  1. 现有方法难以使LLM获得像人类一样的社会智能,例如心理理论(ToM)能力。
  2. 通过强化学习(RL)训练小型LLM,并使用可验证的奖励来引导模型学习ToM。
  3. 实验表明,小型LLM难以泛化到未见过的ToM任务,容易过拟合训练数据。

📝 摘要(中文)

大型语言模型(LLM)的最新进展表明,通过在后训练阶段应用基于规则的强化学习(RL)技术,LLM展现出复杂的推理能力。这引发了一个问题,即类似的方法是否能使LLM获得更微妙、更像人类的社会智能,例如心理理论(ToM)。本文研究了小型LLM是否可以通过具有可验证奖励的强化学习(RLVR)获得稳健且可泛化的ToM能力。我们通过在各种ToM数据集(HiToM、ExploreToM、FANToM)的组合上训练模型,并在保留的数据集(例如,OpenToM)上测试泛化能力,进行了系统的评估。我们的研究结果表明,小型LLM难以发展通用的ToM能力。虽然在同分布任务上的性能有所提高,但这种能力无法转移到具有不同特征的未见过的ToM任务上。此外,我们证明了长时间的RL训练会导致模型“破解”训练数据集的统计模式,从而在域内数据上获得显著的性能提升,但在异分布任务上的性能没有变化或下降。这表明学习到的行为是一种狭隘的过拟合形式,而不是获得真正的、抽象的ToM能力。

🔬 方法详解

问题定义:论文旨在研究小型语言模型(LLM)是否可以通过强化学习(RL)获得可泛化的心理理论(ToM)能力。现有方法,尤其是针对大型LLM的方法,虽然在特定任务上取得了进展,但缺乏对小型LLM在更广泛、更具挑战性的ToM任务中泛化能力的系统性评估。现有方法可能导致模型过度拟合训练数据,而无法真正理解和应用ToM。

核心思路:论文的核心思路是通过强化学习(RL)训练小型LLM,并使用可验证的奖励(RLVR)来引导模型学习ToM。通过在不同的ToM数据集上进行训练,并测试模型在未见过的ToM任务上的泛化能力,来评估模型是否真正获得了通用的ToM能力。这样设计的目的是为了避免模型仅仅记住训练数据中的模式,而是学习到更抽象的ToM概念。

技术框架:整体框架包括以下几个主要步骤:1) 选择小型LLM作为基础模型。2) 构建包含多个ToM数据集的训练集,例如HiToM、ExploreToM、FANToM。3) 使用强化学习算法(具体算法未知)训练模型,并使用可验证的奖励函数来指导学习。4) 在保留的ToM数据集(例如OpenToM)上测试模型的泛化能力。5) 分析模型在不同数据集上的表现,评估其ToM能力。

关键创新:论文的关键创新在于对小型LLM通过强化学习获得可泛化的ToM能力进行了系统性的评估。以往的研究主要集中在大型LLM上,而忽略了小型LLM的潜力和局限性。此外,论文强调了泛化能力的重要性,并设计了相应的实验来评估模型在未见过的ToM任务上的表现。通过对比模型在同分布和异分布数据上的表现,揭示了模型容易过拟合训练数据的现象。

关键设计:论文的关键设计包括:1) 使用多个ToM数据集进行训练,以增加数据的多样性。2) 使用可验证的奖励函数,以确保模型学习到正确的ToM概念。3) 在保留的数据集上进行测试,以评估模型的泛化能力。4) 通过长时间的RL训练,观察模型是否会“破解”训练数据的统计模式。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,小型LLM在同分布的ToM任务上表现有所提升,但在异分布的ToM任务上泛化能力较差。长时间的RL训练会导致模型过拟合训练数据,从而在域内数据上获得显著的性能提升,但在异分布任务上的性能没有变化或下降。这表明小型LLM难以通过强化学习获得真正的、抽象的ToM能力。

🎯 应用场景

该研究对于理解和提升语言模型的社会智能具有重要意义。潜在应用领域包括:开发更具人情味的对话系统、构建能够理解人类意图的智能助手、以及在教育领域中用于教授社交技能。未来的研究可以探索如何设计更有效的强化学习算法和奖励函数,以使小型LLM能够获得更强的ToM能力。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have demonstrated emergent capabilities in complex reasoning, largely spurred by rule-based Reinforcement Learning (RL) techniques applied during the post-training. This has raised the question of whether similar methods can instill more nuanced, human-like social intelligence, such as a Theory of Mind (ToM), in LLMs. This paper investigates whether small-scale LLMs can acquire a robust and generalizable ToM capability through RL with verifiable rewards (RLVR). We conduct a systematic evaluation by training models on various combinations of prominent ToM datasets (HiToM, ExploreToM, FANToM) and testing for generalization on held-out datasets (e.g., OpenToM). Our findings indicate that small LLMs struggle to develop a generic ToM capability. While performance on in-distribution tasks improves, this capability fails to transfer to unseen ToM tasks with different characteristics. Furthermore, we demonstrate that prolonged RL training leads to models ``hacking'' the statistical patterns of the training datasets, resulting in significant performance gains on in-domain data but no change, or degradation of performance on out-of-distribution tasks. This suggests the learned behavior is a form of narrow overfitting rather than the acquisition of a true, abstract ToM capability.