From Shortcuts to Reasoning: Robust Post-Training of Theory of Mind with Reinforcement Learning
作者: Jike Zhong, Yuxiang Lai, Ming Li, Yuheng Li, Wuao Liu, Behzad Dariush, Konstantinos Psounis, Shao-Yuan Lo
分类: cs.LG
发布日期: 2026-06-08
备注: Accepted by ICML 2026
💡 一句话要点
提出Thinking-RFT以解决ToM模型中的快捷方式问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 理论心智 强化学习 推理能力 后训练 多模态任务 快捷方式问题 模型泛化 智能系统
📋 核心要点
- 现有方法在提升理论心智(ToM)时面临快捷方式问题,导致模型在真实推理能力上存在缺陷。
- 论文提出了Thinking-RFT框架,通过强化学习和明确的推理链来提升ToM的能力,克服快捷方式的影响。
- 实验结果表明,Thinking-RFT在所有场景下均提升了ToM能力,尤其在复杂推理和多模态任务中,较SFT平均提升6%-10%。
📝 摘要(中文)
理论心智(ToM)是现代基础模型系统在现实世界中有效、安全操作所必需的技能。近期研究探讨了通过后训练来提升ToM,但我们发现这一进展受到普遍的“快捷方式”问题的困扰:任务可以通过利用虚假的因果关联达到99%的准确率,从而导致对ToM的错误理解。为此,我们首先开发了一个框架,系统性地检查ToM数据集中的快捷方式,并为未来的发展提供指导。我们发现,纯状态跟踪可简化的问题(如“信念”)相比于需要超越跟踪的心智问题(如“意图”)更容易受到快捷方式的影响。使用四个无快捷方式的数据集,我们全面研究了带有可验证奖励和明确推理链的强化微调方法Thinking-RFT,结果显示其在复杂的高阶推理和多模态情况下均显著优于传统的监督微调方法(SFT)。
🔬 方法详解
问题定义:本论文旨在解决理论心智(ToM)模型在后训练过程中因快捷方式问题导致的推理能力不足。现有方法往往依赖于虚假的因果关联,无法真正理解心智状态。
核心思路:论文提出Thinking-RFT,通过引入可验证的奖励和明确的推理链,提升模型的推理能力,避免依赖快捷方式。该方法强调推理与强化学习的结合,以增强模型的真实理解能力。
技术框架:整体架构包括数据集的选择与分析、Thinking-RFT的训练过程以及评估阶段。主要模块包括数据集的快捷方式检测、推理链的构建和强化学习的实施。
关键创新:最重要的技术创新在于将推理与强化学习结合,Thinking-RFT在复杂推理任务中表现优异,尤其是在高阶推理和多模态任务中显著超越传统方法。
关键设计:关键设计包括使用特定的奖励机制来引导模型学习因果关系,设置损失函数以平衡推理准确性和模型的泛化能力,同时采用适应性网络结构以支持多模态输入。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Thinking-RFT在所有测试场景中均有效提升了理论心智能力,平均提升6%,在复杂高阶推理任务中提升达10%,在多模态任务中提升7%。此外,Thinking-RFT在未见领域和高阶查询上的泛化能力显著优于传统方法。
🎯 应用场景
该研究的潜在应用领域包括智能助手、社交机器人和人机交互系统等。通过提升模型的理论心智能力,可以使这些系统在复杂的社交场景中更有效地理解和预测人类行为,从而提高用户体验和安全性。未来,该研究可能对人工智能在真实世界中的应用产生深远影响。
📄 摘要(原文)
Theory of Mind (ToM) is a must-acquire skill for modern foundation model systems to operate effectively and safely in the real world. Recent works have explored honing ToM via post-training; however, we show that such progress is confounded by a pervasive "shortcut" issue: tasks can reach up to 99% accuracy by simply exploiting spurious causal correlations, leading to a false sense of ToM. Motivated by this, we first develop a framework to systematically examine ToM datasets for shortcuts and provide guidance for future development. We find that questions reducible to pure state tracking, such as "belief," are especially shortcut-prone compared to mind questions, such as "intention," where reasoning beyond tracking is required. Using four shortcut-free datasets across three ToM contexts, we then comprehensively study whether Reinforcement Fine-Tuning with verifiable rewards and explicit reasoning chains, called Thinking-RFT, elevates ToM beyond Supervised Fine-Tuning, or SFT. Our key findings are as follows. First, Thinking-RFT effectively improves ToM in all scenarios, with a 6% improvement over SFT, particularly in complex higher-order reasoning, with a 10% improvement over SFT, and multimodal cases, with a 7% improvement over SFT. It also generalizes notably better to unseen domains and higher-order queries while being more robust to counterfactuals. Second, ToM benefits specifically from the joint effect of reasoning and RL: Thinking-RFT outperforms Non-Thinking-RFT by 7% on average. Third, RFT works by learning to ground its reasoning on anchor cues, such as keywords and state changes, that correspond to causal factors. We believe our study is useful for developing effective and robust ToM post-training datasets and advancing critical ToM capabilities.