M3: 3D-Spatial MultiModal Memory
作者: Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang
分类: cs.CV, cs.RO
发布日期: 2025-03-20
备注: ICLR2025 homepage: https://m3-spatial-memory.github.io code: https://github.com/MaureenZOU/m3-spatial
💡 一句话要点
M3:提出3D空间多模态记忆系统,用于视觉感知中静态场景的信息保留。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景表示 多模态融合 高斯溅射 特征蒸馏 注意力机制 机器人导航 场景理解
📋 核心要点
- 现有特征溅射方法在高维特征存储和计算上存在约束,且蒸馏特征与基础模型特征之间存在不对齐和信息损失。
- M3通过引入主要场景组件和高斯记忆注意力机制,实现了高效的训练和推理,解决了特征存储和对齐问题。
- 实验结果表明,M3在特征相似性和下游任务上表现出色,并通过可视化验证了高斯记忆注意力的有效性,并在四足机器人上进行了部署。
📝 摘要(中文)
本文提出了一种3D空间多模态记忆(M3)系统,旨在通过视频源保留中等大小静态场景的信息,以供视觉感知使用。M3集成了3D高斯溅射技术与基础模型,构建了一个能够渲染跨粒度特征表示的多模态记忆,涵盖了广泛的知识。研究中,我们发现先前特征溅射工作中的两个关键挑战:(1)为每个高斯基元存储高维特征的计算约束;(2)蒸馏特征与基础模型特征之间的不对齐或信息丢失。为了解决这些挑战,我们提出了具有主要场景组件和高斯记忆注意力的M3,从而实现高效的训练和推理。为了验证M3,我们对特征相似性和下游任务进行了全面的定量评估,以及定性可视化,以突出高斯记忆注意力的像素轨迹。我们的方法涵盖了各种基础模型,包括视觉-语言模型(VLM)、感知模型以及大型多模态和语言模型(LMM/LLM)。此外,为了展示实际应用,我们将M3的特征场部署在四足机器人的室内场景中。值得注意的是,我们声称M3是第一个解决3D特征蒸馏中核心压缩挑战的工作。
🔬 方法详解
问题定义:现有方法在利用3D高斯溅射技术进行场景表示时,面临着存储和处理高维特征的计算瓶颈。此外,如何将从3D场景中提取的特征与预训练的基础模型对齐,避免信息损失,也是一个关键挑战。这些问题限制了3D场景表示在下游任务中的应用。
核心思路:M3的核心思路是将3D高斯溅射技术与基础模型相结合,构建一个多模态记忆系统。通过学习场景的关键组件,并利用高斯记忆注意力机制,M3能够有效地压缩和对齐特征,从而实现高效的场景表示和推理。这种设计旨在克服现有方法在计算效率和信息对齐方面的局限性。
技术框架:M3的整体框架包含以下几个主要模块:1) 3D高斯溅射模块,用于将场景表示为一组高斯基元;2) 特征提取模块,用于从高斯基元中提取特征;3) 主要场景组件分析模块,用于识别场景中的关键组件;4) 高斯记忆注意力模块,用于对齐和融合不同模态的特征;5) 基础模型接口,用于将场景表示应用于下游任务。整个流程包括场景重建、特征提取、特征压缩与对齐、以及下游任务应用等阶段。
关键创新:M3最重要的技术创新点在于其高斯记忆注意力机制,该机制能够有效地对齐和融合从3D场景中提取的特征与基础模型的特征。与现有方法相比,M3能够更好地保留场景中的关键信息,并减少信息损失。此外,M3还通过学习场景的关键组件,实现了更高效的特征压缩。
关键设计:M3的关键设计包括:1) 使用主成分分析(PCA)等方法提取场景的主要组件,以减少特征维度;2) 设计高斯记忆注意力模块,利用注意力机制对齐不同模态的特征;3) 采用对比学习等损失函数,优化特征表示,使其与基础模型的特征空间对齐。具体的参数设置和网络结构需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了M3在特征相似性和下游任务上的有效性。定量结果表明,M3能够显著提高特征的相似度,并提升下游任务的性能。例如,在场景理解任务中,M3的性能优于现有方法,取得了显著的提升。此外,论文还通过可视化展示了高斯记忆注意力的有效性,进一步验证了M3的优越性。
🎯 应用场景
M3具有广泛的应用前景,例如机器人导航、场景理解、虚拟现实和增强现实等领域。它可以帮助机器人在复杂环境中进行定位和导航,理解场景中的物体和关系,并为用户提供更逼真的虚拟体验。此外,M3还可以应用于自动驾驶、智能安防等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
We present 3D Spatial MultiModal Memory (M3), a multimodal memory system designed to retain information about medium-sized static scenes through video sources for visual perception. By integrating 3D Gaussian Splatting techniques with foundation models, M3 builds a multimodal memory capable of rendering feature representations across granularities, encompassing a wide range of knowledge. In our exploration, we identify two key challenges in previous works on feature splatting: (1) computational constraints in storing high-dimensional features for each Gaussian primitive, and (2) misalignment or information loss between distilled features and foundation model features. To address these challenges, we propose M3 with key components of principal scene components and Gaussian memory attention, enabling efficient training and inference. To validate M3, we conduct comprehensive quantitative evaluations of feature similarity and downstream tasks, as well as qualitative visualizations to highlight the pixel trace of Gaussian memory attention. Our approach encompasses a diverse range of foundation models, including vision-language models (VLMs), perception models, and large multimodal and language models (LMMs/LLMs). Furthermore, to demonstrate real-world applicability, we deploy M3's feature field in indoor scenes on a quadruped robot. Notably, we claim that M3 is the first work to address the core compression challenges in 3D feature distillation.