DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

作者: Taiyi Su, Jian Zhu, Tianjian Wang, Youzhang He, Zitai Huang, Jianjun Zhang, Chong Ma, Hanyang Wang, Tianjiao Zhang, Munan Yin, Weihao Ding, Yi Xu

分类: cs.RO, cs.AI

发布日期: 2026-05-29

备注: 14 pages, 2 figures

💡 一句话要点

DeMaVLA：用于可变形物体操作的通用视觉-语言-动作基础模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 可变形物体操作 机器人学习 流匹配 人机协作 数据聚合 通用操作技能

📋 核心要点

现有VLA系统在可变形物体操作中，通常为不同物体类别训练单独策略，多任务混合训练易受任务干扰。
DeMaVLA通过VLM骨干网络和动作专家，结合流匹配实现连续动作生成，提升可变形物体操作的泛化性。
DeMaVLA通过预训练和人机协作数据聚合，在RoboTwin和真实世界数据集上验证了其有效性。

📝 摘要（中文）

本文提出DeMaVLA，一个用于通用可变形物体操作的视觉-语言-动作（VLA）基础模型。现实世界的家用机器人需要在各种物体、任务条件和家庭环境中获取可重用的操作技能。可变形物体的折叠是一个典型的挑战，要求机器人处理来自随机初始状态的各种类别、几何形状、材料和场景的衣物。现有的VLA系统通常为不同的物体类别训练单独的策略，而简单地混合多任务训练通常会受到任务干扰和性能下降的影响。DeMaVLA采用带有动作专家的VLM骨干网络，并使用流匹配来制定连续动作生成。为了提高效率，动作专家通过修剪每隔一个Transformer层来构建，同时保持与VLM骨干网络的逐层对齐，从而降低训练和推理成本。DeMaVLA首先在约5000小时的精选真实世界双臂演示上进行预训练，以获得通用操作先验。然后，通过人机协作数据聚合（DAgger）流程，在混合折叠数据上进行后训练，该数据聚合了自收集的演示和来自真实机器人故障的纠正轨迹。实验表明，DeMaVLA在RoboTwin上取得了有竞争力的性能，并在我们的家庭折叠基准上取得了强大的真实世界结果。这些结果突出了可扩展的真实世界数据、高效的动作生成和纠正学习对于可变形物体操作中的通用VLA策略的价值。

🔬 方法详解

问题定义：现有VLA系统在处理可变形物体操作任务时，特别是像衣物折叠这类任务，通常需要针对不同的物体类别（如T恤、裤子等）训练独立的策略。这种方法泛化能力差，难以适应真实世界中物体种类繁多的情况。此外，简单地将多个任务混合训练会导致任务间的相互干扰，反而降低整体性能。因此，如何构建一个能够处理多种类别可变形物体，且具有良好泛化能力的VLA模型是本文要解决的核心问题。

核心思路：DeMaVLA的核心思路是构建一个通用的VLA基础模型，该模型能够从大量的真实世界数据中学习到通用的操作先验知识，并能够通过人机协作的方式不断优化策略。具体来说，模型首先通过预训练学习通用操作技能，然后通过后训练，利用人工纠正的失败案例来提升模型在特定任务上的性能。这种方法旨在克服现有方法泛化能力不足和任务干扰的问题。

技术框架：DeMaVLA的技术框架主要包括以下几个模块：1) VLM骨干网络：用于提取视觉和语言特征，作为动作生成的输入。2) 动作专家：负责根据VLM的输出生成连续的动作。3) 流匹配模块：用于将动作专家生成的动作转化为机器人可以执行的动作序列。4) 预训练阶段：利用大量的真实世界双臂操作数据进行预训练，学习通用操作先验。5) 后训练阶段：通过人机协作的数据聚合（DAgger）流程，利用人工纠正的失败案例来提升模型在特定任务上的性能。

关键创新：DeMaVLA的关键创新点在于以下几个方面：1) 提出了一个通用的VLA基础模型，能够处理多种类别的可变形物体操作任务。2) 采用流匹配方法生成连续动作，使得机器人能够更流畅地完成操作任务。3) 通过修剪Transformer层构建高效的动作专家，降低了训练和推理成本。4) 利用人机协作的数据聚合（DAgger）流程，有效地利用了人工纠正的失败案例来提升模型性能。

关键设计：在网络结构方面，动作专家通过剪枝Transformer层来减少计算量，同时保持与VLM骨干网络的层级对齐，保证信息传递的有效性。在训练策略方面，采用了两阶段训练方法，首先进行预训练，学习通用操作先验，然后进行后训练，利用人机协作的数据聚合（DAgger）流程来提升模型在特定任务上的性能。损失函数方面，采用了流匹配损失函数来优化动作生成过程。

🖼️ 关键图片

📊 实验亮点

DeMaVLA在RoboTwin数据集上取得了有竞争力的性能，并在自建的家庭折叠基准测试中表现出色，验证了其在真实世界场景中的有效性。该模型通过预训练和人机协作数据聚合，能够有效地学习通用的操作技能，并能够适应不同的物体类别和任务条件。实验结果表明，DeMaVLA在可变形物体操作任务上具有良好的泛化能力。

🎯 应用场景

DeMaVLA在家庭服务机器人领域具有广阔的应用前景，例如自动整理衣物、叠放毛巾等。此外，该模型还可以应用于工业自动化领域，例如柔性物体的抓取和装配。通过不断积累数据和优化模型，DeMaVLA有望成为一个通用的操作技能学习平台，为各种机器人应用提供支持。

📄 摘要（原文）

Real-world household robots require Vision-Language-Action (VLA) foundation models that can acquire reusable manipulation skills across diverse objects, task conditions, and household environments. Deformable-object folding is a representative challenge, requiring robots to handle clothing items from random initial states across varying categories, geometries, materials, and scenes. However, existing VLA systems commonly train separate policies for different object categories, while naively mixed multi-task training often suffers from task interference and degraded performance. To move beyond category-specific folding policies, we introduce DeMaVLA, a VLA foundation model for generalizable Deformable Manipulation. DeMaVLA adopts a VLM backbone with an action expert and formulates continuous action generation using flow matching. To improve efficiency, the action expert is constructed by pruning every other transformer layer while preserving layer-wise alignment with the VLM backbone, reducing training and inference cost. DeMaVLA is first pre-trained on approximately 5,000 hours of selected real-world dual-arm demonstrations to acquire general manipulation priors. It is then post-trained on mixed folding data that aggregates self-collected demonstrations and corrective trajectories from real-robot failures across multiple folding tasks through a human-in-the-loop Data Aggregation~(DAgger) pipeline. Experiments show that DeMaVLA achieves competitive performance on RoboTwin and strong real-world results on our household folding benchmark. These results highlight the value of scalable real-world data, efficient action generation, and corrective learning for general-purpose VLA policies in deformable-object manipulation.

DeMaVLA: A Vision-Language-Action Foundation Model for Generalizable Deformable Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理