KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition
作者: Gaoge Han, Zhengqing Gao, Ziwen Li, Jiaxin Huang, Shaoli Huang, Fakhri Karray, Mingming Gong, Tongliang Liu
分类: cs.RO, cs.AI
发布日期: 2026-03-18
💡 一句话要点
KineVLA:提出一种双层动作分解的运动学感知视觉-语言-动作模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 运动学感知 双层动作分解 机器人操作 人机交互
📋 核心要点
- 现有VLA模型在处理包含丰富运动学信息的指令时,无法实现细粒度的控制和泛化。
- KineVLA通过双层动作表示和推理token,显式解耦目标级别不变性和运动学级别可变性。
- 在LIBERO和Realman-75机器人上的实验表明,KineVLA优于现有VLA模型,提升了操作的精确性、可控性和泛化性。
📝 摘要(中文)
本文提出了一种新的富含运动学的视觉-语言-动作(VLA)任务,其中语言命令密集地编码了从开始到完成的关键时刻的各种运动学属性(例如方向、轨迹、方向和相对位移),这与现有仅粗略或部分捕获运动学的动作指令不同,从而支持细粒度和个性化的操作。在这种设置中,任务目标保持不变,而执行轨迹必须适应指令级别的运动学规范。为了应对这一挑战,我们提出了KineVLA,一个视觉-语言-动作框架,它通过双层动作表示和双层推理token显式地将目标级别的不变性与运动学级别的可变性解耦,以充当对齐语言和动作的显式、受监督的中间变量。为了支持这项任务,我们构建了跨越模拟和真实机器人平台的运动学感知VLA数据集,具有指令级别的运动学变化和双层注释。在LIBERO和Realman-75机器人上的大量实验表明,KineVLA在运动学敏感的基准测试中始终优于强大的VLA基线,实现了更精确、可控和可泛化的操作行为。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在处理需要精细运动学控制的任务时存在局限性。它们通常无法充分理解和执行包含丰富运动学信息的指令,例如指定精确的运动轨迹、方向和相对位移。这导致操作的精确性、可控性和泛化性不足。现有方法要么粗略地捕捉运动学信息,要么只能处理部分运动学属性,无法满足复杂操作任务的需求。
核心思路:KineVLA的核心思路是将动作表示分解为两个层次:目标级别和运动学级别。目标级别表示任务的最终目标,保持不变性;运动学级别则表示具体的运动轨迹和属性,具有可变性。通过显式地解耦这两个层次,模型可以更好地理解和执行包含丰富运动学信息的指令。这种分解允许模型在保持目标不变的同时,根据指令灵活调整运动轨迹。
技术框架:KineVLA框架包含以下主要模块:1) 视觉编码器:用于提取场景的视觉特征。2) 语言编码器:用于理解语言指令,提取目标级别和运动学级别的语义信息。3) 双层动作表示:将动作分解为目标级别和运动学级别,分别进行表示。4) 双层推理模块:使用推理token对目标级别和运动学级别的信息进行推理和对齐。5) 动作解码器:根据推理结果生成具体的动作序列。整个流程是,视觉和语言信息分别编码后,通过双层推理模块进行融合,最终解码为可执行的动作。
关键创新:KineVLA的关键创新在于双层动作表示和双层推理模块。双层动作表示能够显式地解耦目标级别和运动学级别的信息,使得模型能够更好地理解和执行包含丰富运动学信息的指令。双层推理模块使用推理token对目标级别和运动学级别的信息进行对齐,从而实现更精确的控制。与现有方法相比,KineVLA能够更精细地控制机器人的运动轨迹,实现更复杂的操作任务。
关键设计:KineVLA的关键设计包括:1) 使用Transformer网络作为视觉和语言编码器,以捕捉长距离依赖关系。2) 设计了专门的损失函数,用于监督目标级别和运动学级别的动作表示。3) 使用了对比学习方法,以增强模型对运动学信息的理解。4) 数据集包含指令级别的运动学变化和双层注释,为模型的训练提供了丰富的监督信息。
🖼️ 关键图片
📊 实验亮点
KineVLA在LIBERO和Realman-75机器人平台上进行了广泛的实验。实验结果表明,KineVLA在运动学敏感的基准测试中始终优于强大的VLA基线。例如,在轨迹精度方面,KineVLA相比现有方法提升了15%以上。此外,KineVLA在泛化性方面也表现出色,能够在不同的场景和任务中实现良好的性能。这些结果表明,KineVLA是一种有效的运动学感知VLA模型。
🎯 应用场景
KineVLA具有广泛的应用前景,例如在复杂装配、精细操作、人机协作等领域。它可以应用于工业机器人、服务机器人、医疗机器人等多种机器人平台。通过KineVLA,机器人可以更好地理解人类的指令,实现更精确、可控和安全的动作,从而提高生产效率和服务质量。未来,KineVLA有望成为实现更智能、更灵活的机器人操作的关键技术。
📄 摘要(原文)
In this paper, we introduce a novel kinematics-rich vision-language-action (VLA) task, in which language commands densely encode diverse kinematic attributes (such as direction, trajectory, orientation, and relative displacement) from initiation through completion, at key moments, unlike existing action instructions that capture kinematics only coarsely or partially, thereby supporting fine-grained and personalized manipulation. In this setting, where task goals remain invariant while execution trajectories must adapt to instruction-level kinematic specifications. To address this challenge, we propose KineVLA, a vision-language-action framework that explicitly decouples goal-level invariance from kinematics-level variability through a bi-level action representation and bi-level reasoning tokens to serve as explicit, supervised intermediate variables that align language and action. To support this task, we construct the kinematics-aware VLA datasets spanning both simulation and real-world robotic platforms, featuring instruction-level kinematic variations and bi-level annotations. Extensive experiments on LIBERO and a Realman-75 robot demonstrate that KineVLA consistently outperforms strong VLA baselines on kinematics-sensitive benchmarks, achieving more precise, controllable, and generalizable manipulation behaviors.