Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA

📄 arXiv: 2512.22208v2 📥 PDF

作者: Pu Zhao, Arash Akbari, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Weiyan Shi, Xingchen Xu, Yu Huang, Wei Jiang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang

分类: cs.CL, cs.CV, cs.LG

发布日期: 2025-12-22 (更新: 2026-02-04)


💡 一句话要点

提出Moxin系列多模态开源模型,赋能视觉-语言-动作任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 开源模型 视觉-语言 视觉-语言-动作 模型开放框架 Moxin

📋 核心要点

  1. 现有大型语言模型在多模态任务上存在闭源和定制困难的问题,限制了研究的开放性和可扩展性。
  2. Moxin系列模型旨在提供完全开源的视觉-语言-动作模型,通过开放训练数据、代码和模型权重,促进社区协作。
  3. 实验结果表明,Moxin系列模型在视觉-语言和视觉-语言-动作任务上取得了优异的性能,验证了其有效性。

📝 摘要(中文)

近年来,大型语言模型(LLMs)经历了显著的变革,其受欢迎程度和能力都迅速提升。其中,GPT-4和GPT-o1等专有LLM因其卓越的性能和多功能性而备受AI社区关注。同时,LLaMA和Mistral等开源LLM由于易于定制和部署在各种应用中,为LLM的日益普及做出了巨大贡献。本文介绍了Moxin 7B,这是一个完全开源的LLM,根据模型开放框架开发,超越了简单的模型权重共享,拥抱训练、数据集和实现细节的完全透明性,从而培养一个更具包容性和协作性的研究环境,以维持一个健康的开源生态系统。为了进一步使Moxin具备各种任务的能力,我们基于Moxin开发了三个变体,包括Moxin-VLM、Moxin-VLA和Moxin-Chinese,分别针对视觉-语言、视觉-语言-动作和中文能力。实验表明,我们的模型在各种评估中都取得了优异的性能。我们采用开源框架和开放数据进行训练。我们发布了我们的模型,以及可用于导出这些模型的数据和代码。

🔬 方法详解

问题定义:现有的大型语言模型,尤其是多模态模型,往往是闭源的,这限制了研究人员对其内部机制的理解和定制能力。此外,训练数据和实现细节的不透明也阻碍了社区的协作和模型的进一步发展。因此,需要一种完全开源、透明的多模态模型,以促进更广泛的研究和应用。

核心思路:Moxin系列模型的核心思路是遵循模型开放框架,提供完全透明的训练数据、代码和模型权重。通过开源,鼓励社区参与模型的改进和定制,从而构建一个健康的开源生态系统。同时,针对不同的任务,开发了Moxin-VLM、Moxin-VLA和Moxin-Chinese等变体,以增强模型在视觉-语言、视觉-语言-动作和中文能力方面的表现。

技术框架:Moxin系列模型基于Moxin 7B构建,这是一个完全开源的LLM。Moxin-VLM、Moxin-VLA和Moxin-Chinese等变体通过在Moxin 7B的基础上进行微调和扩展来实现。整体框架包括数据预处理、模型训练、模型评估和模型部署等阶段。

关键创新:Moxin系列模型最重要的技术创新点在于其完全开源的特性。与现有的闭源多模态模型相比,Moxin系列模型提供了更高的透明度和可定制性,从而促进了社区的协作和模型的进一步发展。此外,针对不同的任务,开发了不同的变体,以增强模型在特定领域的表现。

关键设计:论文中提到采用开源框架和开放数据进行训练,但没有提供关于参数设置、损失函数、网络结构等具体技术细节。这些细节可能在发布的代码和数据中提供。

📊 实验亮点

论文中提到Moxin系列模型在各种评估中取得了优异的性能,但没有提供具体的性能数据、对比基线和提升幅度。具体的实验结果需要在发布的论文或代码中查找。

🎯 应用场景

Moxin系列模型可应用于各种视觉-语言和视觉-语言-动作任务,例如图像描述、视觉问答、机器人控制等。其开源特性使其易于定制和部署,可用于教育、研究和商业等领域。未来,Moxin系列模型有望成为多模态人工智能研究的重要基石。

📄 摘要(原文)

Recently, Large Language Models (LLMs) have undergone a significant transformation, marked by a rapid rise in both their popularity and capabilities. Leading this evolution are proprietary LLMs like GPT-4 and GPT-o1, which have captured widespread attention in the AI community due to their remarkable performance and versatility. Simultaneously, open-source LLMs, such as LLaMA and Mistral, have made great contributions to the ever-increasing popularity of LLMs due to the ease to customize and deploy the models across diverse applications. Moxin 7B is introduced as a fully open-source LLM developed in accordance with the Model Openness Framework, which moves beyond the simple sharing of model weights to embrace complete transparency in training, datasets, and implementation detail, thus fostering a more inclusive and collaborative research environment that can sustain a healthy open-source ecosystem. To further equip Moxin with various capabilities in different tasks, we develop three variants based on Moxin, including Moxin-VLM, Moxin-VLA, and Moxin-Chinese, which target the vision-language, vision-language-action, and Chinese capabilities, respectively. Experiments show that our models achieve superior performance in various evaluations. We adopt open-source framework and open data for the training. We release our models, along with the available data and code to derive these models.