The brain-AI convergence: Predictive and generative world models for general-purpose computation
作者: Shogo Ohmae, Keiko Ohmae
分类: q-bio.NC, cs.AI, cs.CL, cs.NE
发布日期: 2025-12-02
备注: 22 pages, 4 figures. Related to our earlier preprint "The brain versus AI" (arXiv:2411.16075) but a distinct article. The earlier work surveyed broad brain-AI parallels; here we focus on world-model-based computation and convergent evolution between the brain and AI, especially large language models
💡 一句话要点
脑-AI融合:基于预测和生成世界模型的通用计算框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 预测学习 生成模型 注意力机制 脑-AI融合
📋 核心要点
- 现有AI系统在通用计算和多领域适应性方面仍面临挑战,缺乏对大脑工作机制的深入理解。
- 论文提出基于预测和生成的世界模型,强调大脑皮层和小脑通过预测误差学习构建内部世界模型。
- 研究表明,基于注意力的AI系统独立收敛到类似的学习范式,验证了该计算框架的有效性。
📝 摘要(中文)
基于注意力机制的Transformer在通用人工智能系统中的最新进展,为理解新皮层和小脑如何通过相对统一的电路架构产生多样化的功能,并最终实现人类智能提供了一个潜在的窗口。本文从世界模型计算的新兴视角出发,对大脑和AI进行了跨领域比较,超越了传统上对视觉处理的关注。我们识别了基于注意力的皮层和非注意力的的小脑中共享的计算机制:两者都从过去的输入预测未来的世界事件,并通过预测误差学习构建内部世界模型。这些预测性世界模型被重新用于看似不同的功能——感觉处理中的理解和运动处理中的生成——使大脑能够实现多领域能力和类似人类的适应性智能。值得注意的是,基于注意力的AI已经独立地收敛到类似的学习范式和基于世界模型的计算。我们得出结论,生物和人工系统中这些共享的机制构成了实现包括高级智能在内的各种功能的核心计算基础,尽管它们的电路结构相对统一。我们的理论见解连接了神经科学和人工智能,从而加深了我们对智能计算本质的理解。
🔬 方法详解
问题定义:现有AI系统在处理通用任务时,缺乏像人脑一样灵活和高效的计算能力。传统AI模型通常针对特定任务设计,难以泛化到新的领域。此外,对大脑如何通过相对统一的结构实现多样化功能的理解仍然有限。
核心思路:论文的核心思路是借鉴大脑皮层和小脑的工作机制,特别是它们通过预测未来事件和构建内部世界模型来实现智能的方式。通过将预测误差学习和世界模型计算应用于AI系统,可以使其具备更强的泛化能力和适应性。
技术框架:该研究采用跨领域比较的方法,分析了基于注意力的皮层和非注意力的的小脑的计算机制。核心框架包括:1) 输入信息的接收和处理;2) 基于过去经验的未来事件预测;3) 预测误差的计算和学习;4) 内部世界模型的构建和更新;5) 世界模型在不同任务中的应用(如感觉处理和运动控制)。
关键创新:最重要的技术创新点在于强调了预测和生成在智能系统中的核心作用。与传统的监督学习方法不同,该研究强调通过预测误差学习来构建内部世界模型,从而使系统能够更好地理解和适应环境。此外,该研究还揭示了大脑和AI系统在计算机制上的相似性,为AI的发展提供了新的思路。
关键设计:论文侧重于概念框架的提出,并未涉及具体的参数设置或网络结构。然而,基于注意力机制的Transformer模型被认为是实现这种预测和生成能力的关键技术。未来的研究可以探索如何设计更有效的损失函数和网络结构,以更好地实现预测误差学习和世界模型构建。
📊 实验亮点
论文的主要亮点在于提出了一个连接神经科学和人工智能的理论框架,强调了预测和生成在智能系统中的核心作用。虽然没有提供具体的实验数据,但通过分析大脑和AI系统在计算机制上的相似性,为AI的发展提供了新的方向。基于注意力机制的AI系统独立收敛到类似的学习范式,也间接验证了该理论框架的有效性。
🎯 应用场景
该研究成果可应用于通用人工智能系统的设计,特别是在机器人、自动驾驶和智能体等领域。通过构建基于预测和生成的世界模型,可以使AI系统具备更强的环境适应能力和决策能力,从而实现更高级别的智能。此外,该研究还有助于深入理解人脑的工作机制,为神经科学和认知科学提供新的理论基础。
📄 摘要(原文)
Recent advances in general-purpose AI systems with attention-based transformers offer a potential window into how the neocortex and cerebellum, despite their relatively uniform circuit architectures, give rise to diverse functions and, ultimately, to human intelligence. This Perspective provides a cross-domain comparison between the brain and AI that goes beyond the traditional focus on visual processing, adopting the emerging perspecive of world-model-based computation. Here, we identify shared computational mechanisms in the attention-based neocortex and the non-attentional cerebellum: both predict future world events from past inputs and construct internal world models through prediction-error learning. These predictive world models are repurposed for seemingly distinct functions -- understanding in sensory processing and generation in motor processing -- enabling the brain to achieve multi-domain capabilities and human-like adaptive intelligence. Notably, attention-based AI has independently converged on a similar learning paradigm and world-model-based computation. We conclude that these shared mechanisms in both biological and artificial systems constitute a core computational foundation for realizing diverse functions including high-level intelligence, despite their relatively uniform circuit structures. Our theoretical insights bridge neuroscience and AI, advancing our understanding of the computational essence of intelligence.