Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?
作者: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang
分类: cs.CL, cs.AI
发布日期: 2025-04-02 (更新: 2025-05-16)
💡 一句话要点
揭示心智理论基准测试中,大语言模型可能无需显式人类式推理即可成功
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心智理论 大型语言模型 强化学习 监督微调 推理能力 基准测试 可解释性 泛化能力
📋 核心要点
- 现有心智理论(ToM)基准测试可能无法有效评估LLM是否真正具备人类式的推理能力。
- 通过对比RL和SFT训练的LLM在ToM任务上的表现,研究模型是否依赖显式推理或采用其他策略。
- 实验表明,小模型通过捷径获得高分,而SFT训练的模型在没有显式推理的情况下也能达到竞争性的性能。
📝 摘要(中文)
心智理论(ToM)是将心理状态归因于他人的能力,是人类社会智能的基础,也是高级人工智能的关键能力。最近,大型语言模型(LLM)在ToM基准测试中表现出令人鼓舞的性能,引发了一个问题:这些基准测试是否需要显式的人类式推理过程,或者模型是否可以通过其他策略成功?我们通过将强化学习(RL)和监督微调(SFT)应用于不同规模(0.5B到7B参数)的LLM,并在多个ToM数据集上评估它们,从而对这个问题进行了实证研究。结果表明,RL的影响与规模有关:虽然RL显著提高了较大模型(7B)的准确性,并促进了高质量、可解释和可转移的信念追踪推理,但它导致较小模型(≤3B)出现“推理崩溃”,即通过大幅缩短、意义较少的响应来实现高准确性和泛化能力。令人惊讶的是,进一步的SFT在这些基准测试中实现了具有竞争力和可泛化的性能,在准确性方面通常与RL模型相匹配或超过RL模型,尽管没有经过明确训练来产生结构化的推理轨迹。这些发现突出了基准准确性和学习推理的性质之间的关键差异。我们的工作表明,当前的ToM基准测试可能可以在不需要显式的人类式心理状态模拟的情况下解决,而这些基准测试最初就是为了探测这种模拟而设计的。LLM,特别是当规模有限或训练信号仅关注输出正确性时,可能会利用对基准数据结构有效的替代规则。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在心智理论(ToM)基准测试中的表现,并探究模型是否需要像人类一样进行显式的推理才能取得好的结果。现有方法的痛点在于,虽然LLM在ToM基准测试中取得了不错的成绩,但尚不清楚这些模型是否真正理解了心智理论,还是仅仅通过一些捷径或模式匹配来完成任务。
核心思路:论文的核心思路是通过对比强化学习(RL)和监督微调(SFT)训练的LLM在ToM任务上的表现,来分析模型是否依赖显式的推理过程。RL训练旨在鼓励模型生成可解释的推理轨迹,而SFT训练则只关注输出的正确性。通过比较这两种训练方式下模型的表现,可以推断模型是否真正理解了心智理论。
技术框架:论文的技术框架主要包括以下几个部分:首先,选择不同规模(0.5B到7B参数)的LLM作为研究对象。然后,使用RL和SFT两种方式对这些模型进行训练。接下来,在多个ToM数据集上评估这些模型的性能。最后,分析模型的输出,判断模型是否进行了显式的推理。
关键创新:论文最重要的技术创新点在于,它揭示了LLM在ToM基准测试中可能并不需要像人类一样进行显式的推理。通过对比RL和SFT训练的模型,论文发现,即使没有经过明确训练来生成结构化的推理轨迹,SFT训练的模型也能取得具有竞争力的性能。这表明LLM可能通过一些捷径或模式匹配来完成ToM任务。
关键设计:论文的关键设计包括:选择不同规模的LLM,以便研究模型规模对推理能力的影响;使用RL训练来鼓励模型生成可解释的推理轨迹;使用SFT训练来只关注输出的正确性;在多个ToM数据集上评估模型的性能,以确保结果的泛化能力。
🖼️ 关键图片
📊 实验亮点
研究表明,对于较大模型(7B),RL显著提高了准确性并促进了高质量的推理,而对于较小模型(≤3B),RL导致“推理崩溃”。令人惊讶的是,SFT在这些基准测试中实现了具有竞争力和可泛化的性能,在准确性方面通常与RL模型相匹配或超过RL模型,尽管没有经过明确训练来产生结构化的推理轨迹。
🎯 应用场景
该研究成果有助于更深入地理解大型语言模型的推理能力,并为设计更有效的评估基准提供指导。此外,该研究对于开发更可靠、更安全的AI系统具有重要意义,尤其是在需要AI系统理解和预测人类行为的场景中,例如人机协作、社交机器人等。
📄 摘要(原文)
Theory of Mind (ToM), the ability to attribute mental states to others, is fundamental for human social intelligence and a critical capability for advanced Artificial Intelligence. Recent advancements in Large Language Models (LLMs) have shown promising performance on ToM benchmarks, raising the question: Do these benchmarks necessitate explicit human-like reasoning processes, or can models succeed through alternative strategies? We investigate this question empirically by applying Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT) to LLMs of varying scales (0.5B to 7B parameters) and evaluating them across multiple ToM datasets. Our results reveal a scale-dependent impact of RL: while RL significantly improves accuracy and fosters high-quality, interpretable, and transferable belief-tracking reasoning in larger models (7B), it leads to "reasoning collapse" in smaller models ($\leq$3B), where high accuracy and generalization ability are achieved via drastically shortened, less meaningful responses. Surprisingly, further SFT achieves competitive and generalizable performance across these benchmarks, often matching or exceeding RL models in accuracy, despite not being explicitly trained to produce structured reasoning traces. These findings highlight a critical discrepancy between benchmark accuracy and the nature of learned reasoning. Our work suggests that current ToM benchmarks may be solvable without requiring the explicit, human-like simulation of mental states they were designed to probe. LLMs, particularly when scale is limited or training signals focus solely on output correctness, may leverage alternative rules effective for benchmark data structures.