Magma: A Foundation Model for Multimodal AI Agents

📄 arXiv: 2502.13130v1 📥 PDF

作者: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao

分类: cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

发布日期: 2025-02-18

备注: 29 pages, 16 figures, technical report from MSR

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Magma:用于多模态AI代理的基座模型,提升具身智能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 具身智能 AI代理 视觉-语言模型 机器人操作 UI导航 时空智能 动作规划

📋 核心要点

  1. 现有视觉-语言模型在具身智能方面存在不足,难以有效进行空间推理和动作规划。
  2. Magma模型通过引入Set-of-Mark (SoM)和Trace-of-Mark (ToM)标注,增强了模型在视觉空间中的规划和行动能力。
  3. 实验结果表明,Magma在UI导航和机器人操作等任务上超越了现有模型,并在多模态任务上表现出色。

📝 摘要(中文)

本文提出了Magma,一个用于数字和物理世界中多模态AI代理任务的基座模型。Magma是视觉-语言(VL)模型的重大扩展,它不仅保留了VL模型的理解能力(语言智能),而且还具备在视觉-空间世界中规划和行动的能力(时空智能),并能完成从UI导航到机器人操作的代理任务。为了赋予代理能力,Magma在大量的异构数据集上进行预训练,这些数据集涵盖图像、视频和机器人数据。图像中可操作的视觉对象(例如,GUI中可点击的按钮)通过Set-of-Mark(SoM)进行标注以实现动作定位,视频中的对象运动(例如,人手或机械臂的轨迹)通过Trace-of-Mark(ToM)进行标注以实现动作规划。大量实验表明,SoM和ToM能够产生协同作用,并促进Magma模型获得时空智能,这对于如图1所示的各种任务至关重要。特别地,Magma在UI导航和机器人操作任务上创造了新的最先进的结果,优于先前专门为这些任务定制的模型。在图像和视频相关的多模态任务上,Magma也优于在更大的数据集上训练的流行的大型多模态模型。我们公开了我们的模型和代码,以方便复现。

🔬 方法详解

问题定义:现有视觉-语言模型虽然在理解图像和文本方面表现出色,但在需要与环境交互的具身智能任务中存在局限性。它们缺乏有效的空间推理和动作规划能力,难以完成诸如UI导航和机器人操作等任务。现有方法通常针对特定任务进行定制,泛化能力较弱。

核心思路:Magma的核心思路是通过大规模的异构数据预训练,赋予模型在视觉-空间世界中规划和行动的能力。通过引入Set-of-Mark (SoM)和Trace-of-Mark (ToM)两种标注方式,模型能够学习到可操作对象的定位和对象运动的轨迹,从而实现动作的定位和规划。这种设计使得模型能够更好地理解和利用视觉空间信息,从而完成更复杂的代理任务。

技术框架:Magma的整体框架是一个基于Transformer的视觉-语言模型,它在大量的图像、视频和机器人数据上进行预训练。预训练数据包含SoM和ToM两种标注信息,用于指导模型学习动作定位和规划。模型的主要模块包括视觉编码器、文本编码器和多模态融合模块。视觉编码器负责提取图像和视频的视觉特征,文本编码器负责提取文本的语义特征,多模态融合模块负责将视觉特征和文本特征进行融合,从而得到最终的表示。

关键创新:Magma最重要的技术创新点在于SoM和ToM两种标注方式的引入。SoM用于标注图像中可操作的视觉对象,例如GUI中的按钮,使得模型能够学习到哪些对象是可以交互的以及如何与这些对象进行交互。ToM用于标注视频中对象运动的轨迹,例如人手或机械臂的运动轨迹,使得模型能够学习到如何规划动作以达到特定的目标。这两种标注方式的结合使得模型能够更好地理解和利用视觉空间信息,从而实现更有效的动作定位和规划。

关键设计:在预训练阶段,Magma采用了多种损失函数,包括对比学习损失、掩码语言模型损失和动作预测损失。对比学习损失用于拉近相似样本的距离,推远不相似样本的距离。掩码语言模型损失用于预测被掩盖的文本token。动作预测损失用于预测下一步的动作。在网络结构方面,Magma采用了Transformer架构,并针对视觉和文本数据进行了优化。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Magma在UI导航和机器人操作任务上取得了显著的性能提升,创造了新的state-of-the-art结果,超越了专门为这些任务设计的模型。此外,在图像和视频相关的多模态任务上,Magma也表现出色,与在更大数据集上训练的流行大型多模态模型相比,具有竞争力。

🎯 应用场景

Magma模型具有广泛的应用前景,可应用于智能家居、自动驾驶、人机协作机器人等领域。例如,它可以用于控制智能家居设备,实现自动驾驶汽车的导航,以及辅助人机协作机器人完成复杂的任务。Magma的出现有望推动具身智能的发展,使AI代理能够更好地理解和与物理世界交互。

📄 摘要(原文)

We present Magma, a foundation model that serves multimodal AI agentic tasks in both the digital and physical worlds. Magma is a significant extension of vision-language (VL) models in that it not only retains the VL understanding ability (verbal intelligence) of the latter, but is also equipped with the ability to plan and act in the visual-spatial world (spatial-temporal intelligence) and complete agentic tasks ranging from UI navigation to robot manipulation. To endow the agentic capabilities, Magma is pretrained on large amounts of heterogeneous datasets spanning from images, videos to robotics data, where the actionable visual objects (e.g., clickable buttons in GUI) in images are labeled by Set-of-Mark (SoM) for action grounding, and the object movements (e.g., the trace of human hands or robotic arms) in videos are labeled by Trace-of-Mark (ToM) for action planning. Extensive experiments show that SoM and ToM reach great synergy and facilitate the acquisition of spatial-temporal intelligence for our Magma model, which is fundamental to a wide range of tasks as shown in Fig.1. In particular, Magma creates new state-of-the-art results on UI navigation and robotic manipulation tasks, outperforming previous models that are specifically tailored to these tasks. On image and video-related multimodal tasks, Magma also compares favorably to popular large multimodal models that are trained on much larger datasets. We make our model and code public for reproducibility at https://microsoft.github.io/Magma.