Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning

作者: Sneheel Sarangi, Hanan Salam

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-21

💡 一句话要点

小规模LLM难以通过强化学习获得可泛化的心理理论能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理理论 强化学习 小型语言模型 泛化能力 社会智能

📋 核心要点

现有方法难以使LLM获得像人类一样的社会智能，例如心理理论（ToM）能力。
通过强化学习（RL）训练小型LLM，并使用可验证的奖励来引导模型学习ToM。
实验表明，小型LLM难以泛化到未见过的ToM任务，容易过拟合训练数据。

📝 摘要（中文）

大型语言模型（LLM）的最新进展表明，通过在后训练阶段应用基于规则的强化学习（RL）技术，LLM展现出复杂的推理能力。这引发了一个问题，即类似的方法是否能使LLM获得更微妙、更像人类的社会智能，例如心理理论（ToM）。本文研究了小型LLM是否可以通过具有可验证奖励的强化学习（RLVR）获得稳健且可泛化的ToM能力。我们通过在各种ToM数据集（HiToM、ExploreToM、FANToM）的组合上训练模型，并在保留的数据集（例如，OpenToM）上测试泛化能力，进行了系统的评估。我们的研究结果表明，小型LLM难以发展通用的ToM能力。虽然在同分布任务上的性能有所提高，但这种能力无法转移到具有不同特征的未见过的ToM任务上。此外，我们证明了长时间的RL训练会导致模型“破解”训练数据集的统计模式，从而在域内数据上获得显著的性能提升，但在异分布任务上的性能没有变化或下降。这表明学习到的行为是一种狭隘的过拟合形式，而不是获得真正的、抽象的ToM能力。

🔬 方法详解

问题定义：论文旨在研究小型语言模型（LLM）是否可以通过强化学习（RL）获得可泛化的心理理论（ToM）能力。现有方法，尤其是针对大型LLM的方法，虽然在特定任务上取得了进展，但缺乏对小型LLM在更广泛、更具挑战性的ToM任务中泛化能力的系统性评估。现有方法可能导致模型过度拟合训练数据，而无法真正理解和应用ToM。

核心思路：论文的核心思路是通过强化学习（RL）训练小型LLM，并使用可验证的奖励（RLVR）来引导模型学习ToM。通过在不同的ToM数据集上进行训练，并测试模型在未见过的ToM任务上的泛化能力，来评估模型是否真正获得了通用的ToM能力。这样设计的目的是为了避免模型仅仅记住训练数据中的模式，而是学习到更抽象的ToM概念。

技术框架：整体框架包括以下几个主要步骤：1) 选择小型LLM作为基础模型。2) 构建包含多个ToM数据集的训练集，例如HiToM、ExploreToM、FANToM。3) 使用强化学习算法（具体算法未知）训练模型，并使用可验证的奖励函数来指导学习。4) 在保留的ToM数据集（例如OpenToM）上测试模型的泛化能力。5) 分析模型在不同数据集上的表现，评估其ToM能力。

关键创新：论文的关键创新在于对小型LLM通过强化学习获得可泛化的ToM能力进行了系统性的评估。以往的研究主要集中在大型LLM上，而忽略了小型LLM的潜力和局限性。此外，论文强调了泛化能力的重要性，并设计了相应的实验来评估模型在未见过的ToM任务上的表现。通过对比模型在同分布和异分布数据上的表现，揭示了模型容易过拟合训练数据的现象。

关键设计：论文的关键设计包括：1) 使用多个ToM数据集进行训练，以增加数据的多样性。2) 使用可验证的奖励函数，以确保模型学习到正确的ToM概念。3) 在保留的数据集上进行测试，以评估模型的泛化能力。4) 通过长时间的RL训练，观察模型是否会“破解”训练数据的统计模式。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，小型LLM在同分布的ToM任务上表现有所提升，但在异分布的ToM任务上泛化能力较差。长时间的RL训练会导致模型过拟合训练数据，从而在域内数据上获得显著的性能提升，但在异分布任务上的性能没有变化或下降。这表明小型LLM难以通过强化学习获得真正的、抽象的ToM能力。

🎯 应用场景

该研究对于理解和提升语言模型的社会智能具有重要意义。潜在应用领域包括：开发更具人情味的对话系统、构建能够理解人类意图的智能助手、以及在教育领域中用于教授社交技能。未来的研究可以探索如何设计更有效的强化学习算法和奖励函数，以使小型LLM能够获得更强的ToM能力。

📄 摘要（原文）

Recent advancements in large language models (LLMs) have demonstrated emergent capabilities in complex reasoning, largely spurred by rule-based Reinforcement Learning (RL) techniques applied during the post-training. This has raised the question of whether similar methods can instill more nuanced, human-like social intelligence, such as a Theory of Mind (ToM), in LLMs. This paper investigates whether small-scale LLMs can acquire a robust and generalizable ToM capability through RL with verifiable rewards (RLVR). We conduct a systematic evaluation by training models on various combinations of prominent ToM datasets (HiToM, ExploreToM, FANToM) and testing for generalization on held-out datasets (e.g., OpenToM). Our findings indicate that small LLMs struggle to develop a generic ToM capability. While performance on in-distribution tasks improves, this capability fails to transfer to unseen ToM tasks with different characteristics. Furthermore, we demonstrate that prolonged RL training leads to models ``hacking'' the statistical patterns of the training datasets, resulting in significant performance gains on in-domain data but no change, or degradation of performance on out-of-distribution tasks. This suggests the learned behavior is a form of narrow overfitting rather than the acquisition of a true, abstract ToM capability.

Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理