SIMA 2: A Generalist Embodied Agent for Virtual Worlds
作者: SIMA team, Adrian Bolton, Alexander Lerchner, Alexandra Cordell, Alexandre Moufarek, Andrew Bolt, Andrew Lampinen, Anna Mitenkova, Arne Olav Hallingstad, Bojan Vujatovic, Bonnie Li, Cong Lu, Daan Wierstra, Daniel P. Sawyer, Daniel Slater, David Reichert, Davide Vercelli, Demis Hassabis, Drew A. Hudson, Duncan Williams, Ed Hirst, Fabio Pardo, Felix Hill, Frederic Besse, Hannah Openshaw, Harris Chan, Hubert Soyer, Jane X. Wang, Jeff Clune, John Agapiou, John Reid, Joseph Marino, Junkyung Kim, Karol Gregor, Kaustubh Sridhar, Kay McKinney, Laura Kampis, Lei M. Zhang, Loic Matthey, Luyu Wang, Maria Abi Raad, Maria Loks-Thompson, Martin Engelcke, Matija Kecman, Matthew Jackson, Maxime Gazeau, Ollie Purkiss, Oscar Knagg, Peter Stys, Piermaria Mendolicchio, Raia Hadsell, Rosemary Ke, Ryan Faulkner, Sarah Chakera, Satinder Singh Baveja, Shane Legg, Sheleem Kashem, Tayfun Terzi, Thomas Keck, Tim Harley, Tim Scholtes, Tyson Roberts, Volodymyr Mnih, Yulan Liu, Zhengdong Wang, Zoubin Ghahramani
分类: cs.AI, cs.RO
发布日期: 2025-12-04
💡 一句话要点
SIMA 2:基于Gemini的通用具身智能体,用于交互式虚拟世界
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能体 通用人工智能 大型语言模型 虚拟环境 自主学习
📋 核心要点
- 现有具身智能体在复杂指令理解和环境泛化方面存在不足,难以适应多样化的虚拟世界。
- SIMA 2利用Gemini基础模型,实现高级目标推理、多模态指令处理和交互式对话能力。
- 实验表明,SIMA 2在多个游戏中显著提升了性能,并具备自主学习新技能的能力。
📝 摘要(中文)
本文介绍了SIMA 2,一种通用的具身智能体,能够在各种3D虚拟世界中理解并采取行动。SIMA 2构建于Gemini基础模型之上,代表着在具身环境中实现主动、目标导向交互的重要一步。与之前仅限于简单语言命令的工作(如SIMA 1)不同,SIMA 2充当交互式伙伴,能够推理高级目标,与用户对话,并处理通过语言和图像给出的复杂指令。在各种游戏中,SIMA 2显著缩小了与人类表现的差距,并展示了对先前未见环境的强大泛化能力,同时保留了基础模型的核心推理能力。此外,我们展示了开放式自我改进的能力:通过利用Gemini生成任务并提供奖励,SIMA 2可以从头开始自主学习新环境中的新技能。这项工作验证了一条创建通用且持续学习的智能体,用于虚拟世界以及最终物理世界的道路。
🔬 方法详解
问题定义:现有具身智能体通常依赖于预定义的动作空间和简单的语言指令,难以处理复杂、动态的虚拟环境。它们在理解高级目标、处理多模态输入(如图像和语言)以及泛化到新环境方面存在局限性。此外,缺乏自主学习和持续改进的能力,限制了其在实际应用中的潜力。
核心思路:SIMA 2的核心思路是利用大型语言模型(LLM)Gemini的强大推理和泛化能力,构建一个通用的具身智能体。通过将LLM与具身环境相结合,SIMA 2能够理解复杂指令,进行目标导向的交互,并自主学习新技能。这种方法旨在克服现有具身智能体在环境适应性和学习能力方面的不足。
技术框架:SIMA 2的技术框架主要包括以下几个模块:1) 感知模块:负责从虚拟环境中获取视觉信息,并将其编码为特征向量。2) 语言理解模块:利用Gemini模型理解用户输入的语言指令,并提取关键信息。3) 决策模块:基于感知信息和语言指令,生成智能体的行动策略。4) 执行模块:将行动策略转化为具体的动作,并作用于虚拟环境。5) 自主学习模块:利用Gemini生成任务和奖励信号,引导智能体自主学习新技能。
关键创新:SIMA 2最重要的技术创新点在于将大型语言模型Gemini应用于具身智能体,从而赋予其强大的推理、泛化和自主学习能力。与传统的基于强化学习或模仿学习的具身智能体相比,SIMA 2能够更好地理解复杂指令,适应新环境,并自主发现新的行动策略。此外,利用Gemini进行任务生成和奖励设计的自主学习框架也是一个重要的创新。
关键设计:SIMA 2的关键设计包括:1) 使用Transformer架构构建感知模块和语言理解模块,以捕捉视觉和语言信息中的长程依赖关系。2) 设计合适的损失函数,以优化智能体的行动策略,例如,使用交叉熵损失函数来训练决策模块。3) 利用Gemini生成多样化的任务和奖励信号,以促进智能体的自主学习。4) 通过微调Gemini模型,使其更好地适应具身环境的特点。
🖼️ 关键图片
📊 实验亮点
SIMA 2在多个游戏中取得了显著的性能提升,例如,在某些游戏中,SIMA 2的表现接近甚至超过了人类玩家。此外,SIMA 2展示了强大的泛化能力,能够在未见过的环境中快速适应并完成任务。通过自主学习,SIMA 2能够不断提升自身技能,并在新环境中发现新的行动策略。
🎯 应用场景
SIMA 2具有广泛的应用前景,包括游戏AI、虚拟助手、机器人控制和教育培训等领域。它可以用于创建更智能、更逼真的游戏角色,提供更个性化的虚拟助手服务,实现更灵活的机器人控制,以及开发更有效的教育培训系统。未来,SIMA 2有望应用于物理世界,例如,用于辅助人类完成危险或重复性的任务。
📄 摘要(原文)
We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward active, goal-directed interaction within an embodied environment. Unlike prior work (e.g., SIMA 1) limited to simple language commands, SIMA 2 acts as an interactive partner, capable of reasoning about high-level goals, conversing with the user, and handling complex instructions given through language and images. Across a diverse portfolio of games, SIMA 2 substantially closes the gap with human performance and demonstrates robust generalization to previously unseen environments, all while retaining the base model's core reasoning capabilities. Furthermore, we demonstrate a capacity for open-ended self-improvement: by leveraging Gemini to generate tasks and provide rewards, SIMA 2 can autonomously learn new skills from scratch in a new environment. This work validates a path toward creating versatile and continuously learning agents for both virtual and, eventually, physical worlds.