AdditiveLLM2: A Multi-modal Large Language Model for Additive Manufacturing

作者: Peter Pak, Amir Barati Farimani

分类: cs.LG

发布日期: 2026-03-23

💡 一句话要点

提出AdditiveLLM2，一种面向增材制造的多模态大语言模型，通过领域自适应预训练实现专业化。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 增材制造 多模态学习 大语言模型 领域自适应 指令调优 视觉语言模型 Gemma 3

📋 核心要点

现有通用大语言模型在增材制造领域知识掌握不足，难以满足专业应用需求。
AdditiveLLM2通过领域自适应预训练和视觉指令调优，使模型具备增材制造领域的专业知识。
实验表明，AdditiveLLM2在增材制造知识问答中准确率超过90%，证明了其有效性。

📝 摘要（中文）

本文介绍了AdditiveLLM2，一种多模态、领域自适应的大语言模型，它基于Gemma 3模型的指令调优变体构建，并使用了相对较小的数据集（约5000万tokens）。该数据集(AdditiveLLM2-OA)由开放获取的增材制造期刊文章组成，从中提取数据用于领域自适应预训练和视觉指令调优过程。使用增材制造基准（包含从已发布资源中编译的增材制造领域特定任务）评估了所开发模型的各个阶段。AdditiveLLM2在基于语言和视觉的任务中均表现出熟练度，在一般增材制造知识方面达到了90%以上的准确率。这种领域自适应预训练和指令调优策略为大语言模型专门化到增材制造等领域提供了一种可访问的方法。

🔬 方法详解

问题定义：论文旨在解决通用大语言模型在增材制造领域知识匮乏的问题。现有通用LLM虽然参数量巨大，但在特定领域，例如增材制造，缺乏足够的训练数据，导致无法准确理解和处理该领域的专业知识和任务。这限制了LLM在增材制造领域的应用。

核心思路：论文的核心思路是利用领域自适应预训练和指令调优，使LLM能够专注于增材制造领域的知识学习。通过在增材制造相关的文本和图像数据上进行预训练，模型可以学习到该领域的特定词汇、概念和关系。然后，通过指令调优，模型可以学会如何根据指令执行增材制造相关的任务。

技术框架：AdditiveLLM2的整体框架包括以下几个主要阶段：1) 数据收集：收集开放获取的增材制造期刊文章，构建AdditiveLLM2-OA数据集。2) 领域自适应预训练：使用AdditiveLLM2-OA数据集对Gemma 3模型进行预训练，使其适应增材制造领域。3) 视觉指令调优：使用包含图像和文本指令的数据集对模型进行调优，使其能够处理多模态输入。4) 评估：使用Additive-Manufacturing-Benchmark评估模型的性能。

关键创新：该论文的关键创新在于提出了一种针对增材制造领域的领域自适应预训练和指令调优方法。与直接使用通用LLM相比，AdditiveLLM2能够更好地理解和处理增材制造领域的专业知识和任务。此外，该论文还构建了一个包含文本和图像数据的增材制造领域数据集，为该领域的研究提供了宝贵的资源。

关键设计：AdditiveLLM2基于Gemma 3模型，并使用了约5000万tokens的AdditiveLLM2-OA数据集进行训练。具体参数设置、损失函数和网络结构等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

AdditiveLLM2在增材制造知识问答任务中取得了超过90%的准确率，证明了其在增材制造领域知识掌握方面的有效性。该结果表明，通过领域自适应预训练和指令调优，可以显著提升LLM在特定领域的性能。具体的对比基线和提升幅度未在摘要中详细说明，属于未知信息。

🎯 应用场景

AdditiveLLM2可应用于增材制造的工艺优化、故障诊断、材料选择、设计辅助等领域。通过理解增材制造的专业知识，该模型可以为工程师提供智能化的决策支持，提高生产效率和产品质量。未来，该模型有望集成到增材制造设备中，实现智能化的生产过程。

📄 摘要（原文）

This work presents AdditiveLLM2 a multi-modal, domain adapted large language model built upon the instruction tuned variant of the Gemma 3 model using a relatively small dataset of around 50 million tokens. The dataset (AdditiveLLM2-OA) consists of open-access additive manufacturing journal articles with data extracted for the domain adaptive pretraining and visual instruction tuning processes. Various stages of the developed model are evaluated with the Additive-Manufacturing-Benchmark which consists of additive manufacturing domain specific tasks compiled published resources. AdditiveLLM2 exhibits proficiency in both language and vision based tasks, achieving accuracies upwards of 90% in general additive manufacturing knowledge. This domain adaptive pretraining and instruction tuning strategy outline an accessible specialization method for large language models to a domain such as additive manufacturing.

AdditiveLLM2: A Multi-modal Large Language Model for Additive Manufacturing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理