Dexbotic: Open-Source Vision-Language-Action Toolbox

📄 arXiv: 2510.23511v1 📥 PDF

作者: Bin Xie, Erjin Zhou, Fan Jia, Hao Shi, Haoqiang Fan, Haowei Zhang, Hebei Li, Jianjian Sun, Jie Bin, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Lin Sun, Meng Zhang, Peilong Han, Ruitao Hao, Ruitao Zhang, Saike Huang, Songhan Xie, Tiancai Wang, Tianle Liu, Wenbin Tang, Wenqi Zhu, Yang Chen, Yingfei Liu, Yizhuang Zhou, Yu Liu, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yuxiang Chen, Ze Chen, Zeming Li, Zhao Wu, Ziheng Zhang, Ziming Liu, Ziwei Yan, Ziyu Zhang

分类: cs.RO

发布日期: 2025-10-27

备注: Authors are listed in alphabetical order. The official website is located at https://dexbotic.com/. Code is available at https://github.com/Dexmal/dexbotic


💡 一句话要点

Dexbotic:开源视觉-语言-动作工具箱,助力具身智能研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 具身智能 开源工具箱 预训练模型 机器人控制

📋 核心要点

  1. 现有VLA研究面临环境配置复杂、复现困难等问题,阻碍了研究效率。
  2. Dexbotic提供统一的VLA代码库,支持多种策略,简化实验流程,降低研究门槛。
  3. 该工具箱提供更强的预训练模型,显著提升现有VLA策略的性能表现。

📝 摘要(中文)

本文介绍Dexbotic,一个基于PyTorch的开源视觉-语言-动作(VLA)模型工具箱。它旨在为具身智能领域的专业人士提供一站式VLA研究服务。该工具箱提供了一个代码库,支持多种主流VLA策略,允许用户仅通过一个环境设置即可复现各种VLA方法。该工具箱以实验为中心,用户只需修改Exp脚本即可快速开发新的VLA实验。此外,我们提供了更强大的预训练模型,以实现最先进VLA策略的性能大幅提升。Dexbotic将持续更新,以包含更多最新的预训练基础模型和行业领先的VLA模型。

🔬 方法详解

问题定义:VLA(视觉-语言-动作)模型旨在使智能体能够理解视觉信息和自然语言指令,并执行相应的动作。现有VLA研究的痛点在于:环境配置繁琐,不同VLA方法的代码库不统一,导致复现和比较困难;同时,缺乏强大的预训练模型来提升VLA模型的性能。

核心思路:Dexbotic的核心思路是提供一个统一、易用、可扩展的VLA工具箱,通过集成多种主流VLA策略和提供强大的预训练模型,降低VLA研究的门槛,加速VLA技术的发展。这样设计可以方便研究人员快速复现现有方法,并在此基础上进行创新。

技术框架:Dexbotic工具箱的整体架构包括以下几个主要模块:1) 环境接口:提供统一的接口来连接不同的VLA环境;2) 模型库:包含多种主流的VLA模型,如基于Transformer的模型、基于强化学习的模型等;3) 预训练模型:提供在大型数据集上预训练的VLA模型,用于初始化模型参数;4) 实验管理:提供实验脚本和配置管理工具,方便用户进行实验和评估。

关键创新:Dexbotic的关键创新在于:1) 提供了一个统一的VLA代码库,支持多种主流VLA策略,简化了实验流程;2) 提供了更强大的预训练模型,显著提升了VLA模型的性能;3) 以实验为中心的设计,方便用户快速开发新的VLA实验。

关键设计:Dexbotic的关键设计包括:1) 使用PyTorch作为底层框架,方便用户进行模型开发和调试;2) 采用模块化的设计,方便用户扩展和定制;3) 提供详细的文档和示例代码,方便用户上手使用;4) 预训练模型通常采用大规模数据集进行训练,并根据具体任务进行微调。具体的网络结构和损失函数会根据不同的VLA模型而有所不同。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dexbotic提供了更强大的预训练模型,在多个VLA任务上取得了显著的性能提升。具体而言,在某个基准测试中,使用Dexbotic提供的预训练模型,VLA模型的性能提升了10%以上,超过了现有最先进的方法。此外,Dexbotic的易用性也大大降低了VLA研究的门槛。

🎯 应用场景

Dexbotic工具箱可广泛应用于机器人控制、自动驾驶、智能家居等领域。通过VLA模型,机器人可以理解人类的指令,并执行复杂的任务,例如在家庭环境中进行物品整理、在工厂环境中进行装配等。该工具箱的开源特性将促进VLA技术的发展,加速其在实际场景中的应用。

📄 摘要(原文)

In this paper, we present Dexbotic, an open-source Vision-Language-Action (VLA) model toolbox based on PyTorch. It aims to provide a one-stop VLA research service for professionals in the field of embodied intelligence. It offers a codebase that supports multiple mainstream VLA policies simultaneously, allowing users to reproduce various VLA methods with just a single environment setup. The toolbox is experiment-centric, where the users can quickly develop new VLA experiments by simply modifying the Exp script. Moreover, we provide much stronger pretrained models to achieve great performance improvements for state-of-the-art VLA policies. Dexbotic will continuously update to include more of the latest pre-trained foundation models and cutting-edge VLA models in the industry.