BrepLLM: Native Boundary Representation Understanding with Large Language Models

📄 arXiv: 2512.16413v1 📥 PDF

作者: Liyuan Deng, Hao Guo, Yunpeng Bai, Yongkang Dai, Huaxi Huang, Yilei Shi

分类: cs.CV

发布日期: 2025-12-18


💡 一句话要点

BrepLLM:首个原生边界表示理解的大语言模型框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边界表示 大语言模型 跨模态学习 3D几何理解 几何深度学习

📋 核心要点

  1. 现有LLM难以直接处理包含复杂几何和拓扑信息的3D Brep模型,限制了其在3D几何理解方面的应用。
  2. BrepLLM通过两阶段训练,将Brep数据转换为LLM可理解的token序列,实现几何与语言的跨模态对齐。
  3. 实验表明,BrepLLM在3D对象分类和描述任务上取得了SOTA结果,验证了其有效性。

📝 摘要(中文)

当前基于token序列的大语言模型(LLMs)不适合直接处理包含复杂几何和拓扑信息的3D边界表示(Brep)模型。我们提出了BrepLLM,这是第一个使LLMs能够解析和推理原始Brep数据的框架,弥合了结构化3D几何和自然语言之间的模态差距。BrepLLM采用两阶段训练流程:跨模态对齐预训练和多阶段LLM微调。在第一阶段,自适应UV采样策略将Brep转换为具有几何和拓扑信息的图表示。然后,我们设计了一个分层BrepEncoder来提取几何(即面和边)和拓扑的特征,生成单个全局token和一系列节点token。然后,我们通过对比学习将全局token与来自冻结的CLIP文本编码器(ViT-L/14)的文本嵌入对齐。在第二阶段,我们将预训练的BrepEncoder集成到LLM中。然后,我们使用三阶段渐进训练策略对齐其节点token序列:(1)训练一个基于MLP的语义映射,从Brep表示到具有2D-LLM先验的2D表示。(2)执行LLM的微调。(3)设计一个混合查询专家(MQE)来增强几何多样性建模。我们还构建了Brep2Text数据集,包含269,444个Brep-文本问答对。实验表明,BrepLLM在3D对象分类和字幕任务上取得了最先进(SOTA)的结果。

🔬 方法详解

问题定义:现有的大语言模型主要处理文本序列,无法直接理解和推理3D边界表示(Brep)模型中蕴含的复杂几何和拓扑信息。这限制了LLM在CAD、CAM等领域的应用。现有方法通常需要将Brep数据转换为其他形式,如点云或体素,造成信息损失,且计算成本高昂。

核心思路:BrepLLM的核心思路是将Brep数据转换为一种LLM可以理解的token序列,同时保留其几何和拓扑信息。通过跨模态对齐预训练和多阶段LLM微调,使LLM能够直接解析和推理原始Brep数据,从而实现3D几何与自然语言的有效桥接。

技术框架:BrepLLM包含两个主要阶段:跨模态对齐预训练和多阶段LLM微调。在预训练阶段,首先使用自适应UV采样策略将Brep模型转换为图表示。然后,设计一个分层BrepEncoder,提取几何和拓扑特征,生成全局token和节点token序列。全局token通过对比学习与CLIP文本编码器的文本嵌入对齐。在微调阶段,将预训练的BrepEncoder集成到LLM中,并使用三阶段渐进训练策略对齐节点token序列。

关键创新:BrepLLM的关键创新在于:1) 提出了首个直接处理原始Brep数据的LLM框架。2) 设计了分层BrepEncoder,能够有效提取Brep模型的几何和拓扑特征。3) 提出了三阶段渐进训练策略,逐步将Brep表示与LLM对齐。4) 构建了Brep2Text数据集,为Brep理解任务提供了数据支持。

关键设计:BrepEncoder采用分层结构,分别提取面和边的特征,并融合拓扑信息。自适应UV采样策略根据曲率调整采样密度。三阶段渐进训练策略包括:(1) 使用MLP将Brep表示映射到2D空间,利用2D-LLM的先验知识。(2) 对LLM进行微调,使其适应Brep数据。(3) 设计混合查询专家(MQE),增强几何多样性建模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BrepLLM在3D对象分类和描述任务上取得了SOTA结果。具体而言,在3D对象分类任务上,BrepLLM的准确率超过了现有方法X%。在3D对象描述任务上,BrepLLM生成的描述更加准确和完整,能够更好地表达3D模型的几何和拓扑特征。

🎯 应用场景

BrepLLM在CAD/CAM、逆向工程、3D模型检索、智能制造等领域具有广泛的应用前景。它可以用于3D模型的自动描述、设计意图理解、零件的功能分析、以及基于自然语言的3D模型编辑和生成,从而提高设计效率和智能化水平。

📄 摘要(原文)

Current token-sequence-based Large Language Models (LLMs) are not well-suited for directly processing 3D Boundary Representation (Brep) models that contain complex geometric and topological information. We propose BrepLLM, the first framework that enables LLMs to parse and reason over raw Brep data, bridging the modality gap between structured 3D geometry and natural language. BrepLLM employs a two-stage training pipeline: Cross-modal Alignment Pre-training and Multi-stage LLM Fine-tuning. In the first stage, an adaptive UV sampling strategy converts Breps into graphs representation with geometric and topological information. We then design a hierarchical BrepEncoder to extract features from geometry (i.e., faces and edges) and topology, producing both a single global token and a sequence of node tokens. Then we align the global token with text embeddings from a frozen CLIP text encoder (ViT-L/14) via contrastive learning. In the second stage, we integrate the pretrained BrepEncoder into an LLM. We then align its sequence of node tokens using a three-stage progressive training strategy: (1) training an MLP-based semantic mapping from Brep representation to 2D with 2D-LLM priors. (2) performing fine-tuning of the LLM. (3) designing a Mixture-of-Query Experts (MQE) to enhance geometric diversity modeling. We also construct Brep2Text, a dataset comprising 269,444 Brep-text question-answer pairs. Experiments show that BrepLLM achieves state-of-the-art (SOTA) results on 3D object classification and captioning tasks.