Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

作者: Guofeng Mei, Wei Lin, Luigi Riz, Yujiao Wu, Yiming Wang, Fabio Poiesi

分类: cs.CV, cs.AI

发布日期: 2026-02-26

期刊: CVPR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Fase3D，一种高效无编码器的傅里叶3D大模型，用于处理大规模点云场景。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D大模型 点云处理 傅里叶变换 无编码器 自注意力 空间填充曲线 超点表示

📋 核心要点

现有3D大模型依赖于预训练的视觉编码器，计算成本高昂，难以扩展到大规模点云场景。
Fase3D通过傅里叶变换近似自注意力，结合点云序列化和超点表示，实现了高效的全局上下文建模。
实验表明，Fase3D在保持竞争力的同时，显著降低了计算成本和参数量，提升了效率。

📝 摘要（中文）

本文提出Fase3D，一种高效的、无编码器的、基于傅里叶变换的3D场景大模型。现有的3D数据大模型通常依赖于计算量大的预训练视觉编码器来提取几何特征。虽然最近的2D大模型已经开始消除这种编码器以提高效率和可扩展性，但由于点云的无序性和大规模性，将这种范式扩展到3D仍然具有挑战性。Fase3D通过结合点云序列化和快速傅里叶变换（FFT）来近似自注意力，从而解决了可扩展性和置换不变性的挑战。该设计基于三个关键创新：首先，通过结构化的超点紧凑地表示大型场景。其次，空间填充曲线序列化和FFT实现了高效的全局上下文建模和基于图的token合并。最后，傅里叶增强的LoRA适配器以极低的成本将全局频率感知交互注入到LLM中。Fase3D在计算和参数方面效率显著提高的同时，实现了与基于编码器的3D大模型相当的性能。

🔬 方法详解

问题定义：现有3D大模型依赖于预训练的视觉编码器提取几何特征，计算量大，参数量多，难以扩展到大规模点云场景。点云的无序性和大规模性也使得直接应用2D大模型的无编码器方法变得困难。

核心思路：Fase3D的核心思路是利用快速傅里叶变换（FFT）来近似自注意力机制，从而避免使用计算量大的视觉编码器。通过将点云序列化并进行傅里叶变换，可以在频域中进行全局上下文建模，从而实现高效的特征提取。

技术框架：Fase3D的整体架构包括三个主要阶段：1) 超点表示：将大规模点云分割成结构化的超点，以减少计算量。2) 序列化与傅里叶变换：使用空间填充曲线对超点进行序列化，然后使用FFT将序列化的数据转换到频域。3) LoRA适配器：使用傅里叶增强的LoRA适配器将频域特征注入到LLM中，以实现全局频率感知的交互。

关键创新：Fase3D的关键创新在于使用傅里叶变换来近似自注意力机制，从而避免了使用视觉编码器。这种方法不仅降低了计算成本，还提高了模型的效率和可扩展性。此外，使用空间填充曲线进行序列化和超点表示也是重要的创新点。

关键设计：Fase3D使用空间填充曲线（例如希尔伯特曲线）对超点进行序列化，以保留空间局部性。FFT的参数设置需要根据点云的大小进行调整。LoRA适配器的设计需要考虑如何有效地将频域特征注入到LLM中。损失函数通常包括重建损失和对比学习损失，以确保模型能够学习到有效的特征表示。

🖼️ 关键图片

📊 实验亮点

Fase3D在效率上显著优于基于编码器的3D大模型，在参数量和计算量上都有大幅降低，同时保持了与现有方法相当的性能。具体实验数据未知，但论文强调了其在计算效率上的优势，使其能够处理更大规模的3D场景。

🎯 应用场景

Fase3D可应用于自动驾驶、机器人导航、三维场景理解、虚拟现实等领域。通过高效地处理大规模点云数据，Fase3D可以帮助机器人更好地理解周围环境，从而实现更安全、更智能的交互。此外，Fase3D还可以用于三维场景重建和建模，为虚拟现实应用提供更逼真的体验。

📄 摘要（原文）

Large Multimodal Models (LMMs) that process 3D data typically rely on heavy, pre-trained visual encoders to extract geometric features. While recent 2D LMMs have begun to eliminate such encoders for efficiency and scalability, extending this paradigm to 3D remains challenging due to the unordered and large-scale nature of point clouds. This leaves a critical unanswered question: How can we design an LMM that tokenizes unordered 3D data effectively and efficiently without a cumbersome encoder? We propose Fase3D, the first efficient encoder-free Fourier-based 3D scene LMM. Fase3D tackles the challenges of scalability and permutation invariance with a novel tokenizer that combines point cloud serialization and the Fast Fourier Transform (FFT) to approximate self-attention. This design enables an effective and computationally minimal architecture, built upon three key innovations: First, we represent large scenes compactly via structured superpoints. Second, our space-filling curve serialization followed by an FFT enables efficient global context modeling and graph-based token merging. Lastly, our Fourier-augmented LoRA adapters inject global frequency-aware interactions into the LLMs at a negligible cost. Fase3D achieves performance comparable to encoder-based 3D LMMs while being significantly more efficient in computation and parameters. Project website: https://tev-fbk.github.io/Fase3D.

Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理