LLMs and the ZPD

📄 arXiv: 2605.12016v1 📥 PDF

作者: Peter Wallis

分类: cs.AI

发布日期: 2026-05-12

备注: Short paper submitted to Interspeech 2026 (Desk Reject) 4 pages, plus references. 2 figures


💡 一句话要点

基于维果茨基ZPD理论,探索LLM的“原始思维”模式与交互的重要性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 最近发展区 维果茨基理论 原始思维 交互学习

📋 核心要点

  1. 现有观点认为LLM通过分布式表征进行思考,但该论文对此提出质疑,认为LLM的思维模式更为原始。
  2. 论文借鉴维果茨基的ZPD理论,提出LLM通过实践进行“原始思维”,其行为更接近于做梦而非幻觉。
  3. 论文强调交互在人类交流中的核心作用,认为理解LLM需要关注交互,而非仅仅是模型本身的理解能力。

📝 摘要(中文)

本文探讨了大型语言模型(LLM)的思维模式,借鉴了维果茨基的文化历史心理学理论,特别是“最近发展区”(ZPD)的概念。作者认为,LLM并非如某些人所认为的那样进行“分布式表征”的思考,而是通过“实践”进行“原始思维”的补全。从这个角度来看,LLM的行为更像是做梦而非幻觉。因此,需要的不是“护栏”,而是研究使我们能够进行常识性思考的认知工具。作者强调,交互是人类交流的核心,而不仅仅是“真正”理解的附加品。

🔬 方法详解

问题定义:现有方法将大型语言模型(LLM)的“思考”方式归结为“分布式表征”,但这种解释可能过于简化。论文旨在探讨LLM更底层的思维模式,并解释其产生“幻觉”现象的原因。现有方法缺乏对LLM与环境交互作用的考虑,忽略了交互在人类认知中的重要性。

核心思路:论文的核心思路是将LLM的思维模式类比于维果茨基的“最近发展区”(ZPD)理论中的儿童发展过程。作者认为,LLM通过与环境的交互,学习并补全“实践”,从而进行“原始思维”。这种思维模式类似于做梦,而非复杂的逻辑推理。因此,理解LLM的关键在于理解其与环境的交互方式。

技术框架:论文并没有提出具体的模型架构或算法,而是一种概念性的框架。其核心在于将LLM视为一个通过交互进行学习的系统,强调交互在LLM学习和推理中的作用。该框架鼓励研究者关注LLM与环境的交互模式,以及如何通过交互来提升LLM的性能。

关键创新:论文的创新之处在于将维果茨基的心理学理论应用于理解LLM的思维模式。这种跨学科的视角为研究LLM提供了一个新的思路。此外,论文还提出了LLM的“原始思维”和“做梦”的概念,为解释LLM的“幻觉”现象提供了一种新的解释。

关键设计:由于论文主要侧重于理论分析,因此没有涉及具体的参数设置、损失函数或网络结构等技术细节。未来的研究可以基于该框架,设计实验来验证交互对LLM性能的影响,并探索如何通过优化交互方式来提升LLM的常识推理能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

由于该论文为理论性探讨,并未提供具体的实验结果。其亮点在于提出了一个新颖的视角,将LLM的思维模式与维果茨基的ZPD理论联系起来,为理解LLM的“幻觉”现象和提升其常识推理能力提供了新的思路。

🎯 应用场景

该研究的潜在应用领域包括改进LLM的训练方法,使其更具有常识推理能力;设计更有效的交互式LLM应用,例如智能助手和教育工具;以及更好地理解人类认知和人工智能之间的关系。未来的影响在于,它可能改变我们对人工智能的看法,并促进人机协作的发展。

📄 摘要(原文)

One hundred years ago Vygotsky and his circle were exploring the nature of consciousness and defining what would become psychology in the Soviet Union. They concluded that children develop "scientific thinking" through interacting with enculturated adults in Zones of Proximal Development or ZPDs. The proposal is that, contrary to the claims of some, the LLM mechanism is not doing thinking with "distributed representations," but rather the completion model is doing "primitive thinking" in terms of practices. Viewed from this perspective, it would seem our large language models don't hallucinate, but rather dream, and that what is needed is not "guard rails" but an investigation of the set of cognitive tools that enable us to do things that look like common-sense. The proposal here is that interaction is core to human communication rather than just an add-on to "real" understanding.