Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches

📄 arXiv: 2501.03151v1 📥 PDF

作者: Alhassan Mumuni, Fuseini Mumuni

分类: cs.AI, cs.CV, cs.LG

发布日期: 2025-01-06


💡 一句话要点

综述大型语言模型在通用人工智能中的应用,探讨基础原则与方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 通用人工智能 具身性 符号 grounding 因果关系 记忆 多模态学习 认知智能

📋 核心要点

  1. 现有大型语言模型(LLMs)在通用智能方面存在局限性,认知能力肤浅且脆弱,难以真正实现通用人工智能(AGI)。
  2. 论文探讨了具身性、符号 grounding、因果关系和记忆等关键概念,旨在为LLMs赋予更接近人类的认知能力,提升其通用智能水平。
  3. 该综述调研了当前在LLMs中实现这些概念的最新方法,为未来LLMs向AGI方向发展提供了理论基础和技术参考。

📝 摘要(中文)

基于大规模预训练基础模型(PFMs)的生成式人工智能(AI)系统,如视觉-语言模型、大型语言模型(LLMs)、扩散模型和视觉-语言-动作(VLA)模型,已展示出解决各个领域和背景下复杂且重要的AI问题的能力。特别是多模态大型语言模型(MLLMs),通过学习海量和多样化的数据源,能够对世界进行丰富而细致的表征,从而提供广泛的能力,包括推理、有意义的对话、与人类和其他智能体协作解决复杂问题,以及理解人类的社会和情感方面。尽管取得了令人印象深刻的成就,但在大规模数据集上训练的LLMs的认知能力仍然是肤浅和脆弱的。因此,通用LLMs在通用能力方面受到严重限制。为了使LLMs达到人类水平的通用智能,需要解决一些基础问题,如具身性、符号 grounding、因果关系和记忆。这些概念更符合人类认知,并为LLMs提供固有人类般的认知属性,从而支持实现物理上合理、语义上有意义、灵活且更具泛化性的知识和智能。本文讨论了上述基础问题,并调研了在LLMs中实现这些概念的最新方法。具体来说,我们讨论了如何利用具身性、符号 grounding、因果关系和记忆的原则,以有机的方式实现通用人工智能(AGI)。

🔬 方法详解

问题定义:当前大型语言模型(LLMs)虽然在特定任务上表现出色,但缺乏真正的通用智能。它们在具身性、符号 grounding、因果关系和记忆等方面存在不足,导致其认知能力受限,难以像人类一样理解和处理复杂的世界。

核心思路:论文的核心思路是借鉴人类认知机制,将具身性、符号 grounding、因果关系和记忆等概念融入LLMs的设计中。通过赋予LLMs更接近人类的认知属性,使其能够更好地理解世界,进行推理和决策,从而提升其通用智能水平。

技术框架:该论文是一篇综述,并未提出新的技术框架。它主要回顾了当前在LLMs中实现具身性、符号 grounding、因果关系和记忆等概念的各种方法。这些方法可能涉及不同的模型架构、训练策略和数据表示方式。

关键创新:该论文的创新之处在于它系统地梳理了LLMs在实现通用人工智能(AGI)方面面临的基础问题,并总结了当前解决这些问题的各种方法。它为研究人员提供了一个全面的视角,帮助他们更好地理解LLMs的局限性和未来的发展方向。

关键设计:由于是综述,没有具体的技术细节。论文讨论了具身性(Embodiment)、符号 grounding(Symbol Grounding)、因果关系(Causality)和记忆(Memory)这四个关键概念在LLM中的应用,但没有给出具体的参数设置、损失函数或网络结构等细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文系统性地总结了大型语言模型在实现通用人工智能(AGI)过程中面临的四大挑战:具身性、符号 grounding、因果关系和记忆。并对现有解决这些挑战的方法进行了归纳和分析,为未来的研究方向提供了清晰的思路。

🎯 应用场景

该研究为通用人工智能(AGI)的发展提供了理论指导,潜在应用领域包括智能机器人、人机协作、自动化决策等。通过提升LLMs的通用智能水平,可以使其更好地服务于人类,解决更复杂的问题,并推动人工智能技术的进步。

📄 摘要(原文)

Generative artificial intelligence (AI) systems based on large-scale pretrained foundation models (PFMs) such as vision-language models, large language models (LLMs), diffusion models and vision-language-action (VLA) models have demonstrated the ability to solve complex and truly non-trivial AI problems in a wide variety of domains and contexts. Multimodal large language models (MLLMs), in particular, learn from vast and diverse data sources, allowing rich and nuanced representations of the world and, thereby, providing extensive capabilities, including the ability to reason, engage in meaningful dialog; collaborate with humans and other agents to jointly solve complex problems; and understand social and emotional aspects of humans. Despite this impressive feat, the cognitive abilities of state-of-the-art LLMs trained on large-scale datasets are still superficial and brittle. Consequently, generic LLMs are severely limited in their generalist capabilities. A number of foundational problems -- embodiment, symbol grounding, causality and memory -- are required to be addressed for LLMs to attain human-level general intelligence. These concepts are more aligned with human cognition and provide LLMs with inherent human-like cognitive properties that support the realization of physically-plausible, semantically meaningful, flexible and more generalizable knowledge and intelligence. In this work, we discuss the aforementioned foundational issues and survey state-of-the art approaches for implementing these concepts in LLMs. Specifically, we discuss how the principles of embodiment, symbol grounding, causality and memory can be leveraged toward the attainment of artificial general intelligence (AGI) in an organic manner.