From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

📄 arXiv: 2511.21428v1 📥 PDF

作者: Jiajie Zhang, Sören Schwertfeger, Alexander Kleiner

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-11-26

备注: 10 pages, 5 figures


💡 一句话要点

提出基于隐式动作原语分割的VLA预训练方法,用于工业场景

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: VLA预训练 无监督学习 动作分割 工业机器人 具身智能

📋 核心要点

  1. 现有方法难以有效利用工业视频中大量未标注的人工操作数据,阻碍了VLA模型在工业领域的应用。
  2. 提出一种无监督学习框架,通过运动标记器和隐式动作能量度量,自动发现并分割视频中的动作原语。
  3. 在公共数据集和工业数据集上验证了该方法的有效性,证明其能够提取语义连贯的动作原语,适用于VLA预训练。

📝 摘要(中文)

本文提出了一种新颖的无监督框架,旨在从连续的工业视频流中挖掘大量未标注的人工演示数据,用于视觉-语言-动作(VLA)模型的预训练。该方法首先训练一个轻量级的运动标记器来编码运动动态,然后利用一个无监督的动作分割器,该分割器利用了一种新的“隐式动作能量”度量来发现和分割语义连贯的动作原语。该流程输出分割后的视频片段及其对应的隐式动作序列,为VLA预训练提供直接适用的结构化数据。在公共基准和一个专有的电机装配数据集上的评估表明,该方法能够有效地分割人类在工作站执行的关键任务。通过视觉-语言模型进行的进一步聚类和定量评估证实了所发现的动作原语的语义连贯性。据我们所知,这是第一个全自动端到端系统,用于从非结构化工业视频中提取和组织VLA预训练数据,为制造业中具身人工智能的集成提供了一种可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决如何从海量未标注的工业视频数据中提取有用的信息,用于视觉-语言-动作(VLA)模型的预训练。现有方法通常需要人工标注,成本高昂且难以扩展。此外,工业视频通常是连续的,缺乏明确的动作边界,使得自动分割和理解变得困难。

核心思路:论文的核心思路是通过无监督学习的方式,自动发现和分割视频中的动作原语。首先,利用运动标记器学习视频中的运动模式,然后基于这些运动模式,使用一种新的“隐式动作能量”度量来确定动作的边界。这种方法避免了人工标注的需要,并且能够处理连续的视频流。

技术框架:整个框架包含两个主要模块:运动标记器和动作分割器。运动标记器负责将视频帧编码成运动token,捕捉视频中的运动信息。动作分割器则利用这些运动token,通过计算“隐式动作能量”来确定动作的边界,并将视频分割成一系列动作原语。最后,将分割后的视频片段和对应的隐式动作序列作为VLA模型的预训练数据。

关键创新:论文的关键创新在于提出了“隐式动作能量”这一概念,并将其用于无监督的动作分割。与传统的基于手工特征或监督学习的动作分割方法不同,该方法能够自动学习视频中的运动模式,并根据这些模式来确定动作的边界。这种方法更加灵活,能够适应不同的工业场景。

关键设计:运动标记器可以使用各种现有的视频编码器,例如TimeSformer。隐式动作能量的计算方式是基于运动token之间的相似度,相似度越高,表示该片段属于同一个动作的可能性越大。动作分割器可以使用动态规划算法来寻找最优的分割方案。损失函数的设计需要考虑分割的准确性和动作原语的语义连贯性。

📊 实验亮点

该方法在公共基准和一个专有的电机装配数据集上进行了评估。实验结果表明,该方法能够有效地分割人类在工作站执行的关键任务,并且所发现的动作原语具有良好的语义连贯性。通过与视觉-语言模型进行的定量评估,验证了该方法提取的动作原语的有效性,为VLA模型的预训练提供了高质量的数据。

🎯 应用场景

该研究成果可广泛应用于工业自动化领域,例如机器人操作、质量检测、设备维护等。通过VLA模型,机器人可以理解人类的操作指令,并自主完成复杂的任务。此外,该方法还可以用于分析工人的操作行为,提高生产效率和安全性。未来,该技术有望推动制造业向智能化、柔性化方向发展。

📄 摘要(原文)

We present a novel unsupervised framework to unlock vast unlabeled human demonstration data from continuous industrial video streams for Vision-Language-Action (VLA) model pre-training. Our method first trains a lightweight motion tokenizer to encode motion dynamics, then employs an unsupervised action segmenter leveraging a novel "Latent Action Energy" metric to discover and segment semantically coherent action primitives. The pipeline outputs both segmented video clips and their corresponding latent action sequences, providing structured data directly suitable for VLA pre-training. Evaluations on public benchmarks and a proprietary electric motor assembly dataset demonstrate effective segmentation of key tasks performed by humans at workstations. Further clustering and quantitative assessment via a Vision-Language Model confirm the semantic coherence of the discovered action primitives. To our knowledge, this is the first fully automated end-to-end system for extracting and organizing VLA pre-training data from unstructured industrial videos, offering a scalable solution for embodied AI integration in manufacturing.