HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
作者: Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang, Yitian Liu, Zanxin Chen, Chunpu Xu, Haotian Liang, Jiangmiao Pang, Yao Mu, Ping Luo
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-04-15
备注: Project Page: https://tianshuoy.github.io/HiVLA-page/
💡 一句话要点
HiVLA:一种视觉中心的分层具身操作系统,解耦规划与控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身操作 视觉语言模型 分层控制 扩散模型 机器人操作
📋 核心要点
- 端到端VLA模型在机器人操作中面临推理能力与控制精度的根本权衡,直接微调牺牲了VLM的推理能力。
- HiVLA通过解耦高层语义规划和低层运动控制,保留VLM的推理能力,并允许独立优化两个模块。
- 实验表明,HiVLA在长时程任务和精细操作上显著优于现有方法,证明了其有效性。
📝 摘要(中文)
本文提出HiVLA,一种视觉中心的分层具身操作框架,旨在解决端到端视觉-语言-动作(VLA)模型在机器人操作中面临的推理能力与控制精度之间的权衡问题。HiVLA显式地将高层语义规划与低层运动控制解耦。在高层,VLM规划器执行任务分解和视觉定位,生成包含子任务指令和精确目标边界框的结构化计划。在低层,引入了配备级联交叉注意力机制的流匹配扩散Transformer (DiT)动作专家,将计划转化为物理动作。这种设计顺序融合全局上下文、高分辨率的以对象为中心的裁剪和技能语义,使DiT能够专注于鲁棒的执行。解耦架构保留了VLM的零样本推理能力,并允许独立改进两个组件。在模拟和真实世界的实验表明,HiVLA显著优于最先进的端到端基线,尤其擅长长时程技能组合和杂乱场景中小物体的精细操作。
🔬 方法详解
问题定义:现有端到端视觉-语言-动作(VLA)模型在机器人操作任务中,为了获得更好的控制精度,通常需要针对特定任务进行微调。然而,这种微调会牺牲从大型视觉-语言模型(VLM)中继承的强大推理能力,导致模型泛化性差,难以处理复杂任务。因此,如何平衡推理能力和控制精度是当前VLA模型面临的关键问题。
核心思路:HiVLA的核心思路是将高层语义规划与低层运动控制解耦。高层规划器负责利用VLM的强大推理能力进行任务分解和视觉定位,生成结构化的计划。低层动作专家则专注于将这些计划转化为精确的物理动作。通过这种解耦,可以分别优化两个模块,从而在保留VLM推理能力的同时,提高控制精度。
技术框架:HiVLA系统包含两个主要模块:VLM规划器和DiT动作专家。VLM规划器接收视觉输入和任务指令,输出结构化的计划,包括子任务指令和目标对象的边界框。DiT动作专家接收全局上下文、目标对象的裁剪图像和技能语义,通过级联交叉注意力机制融合这些信息,生成控制机器人的动作序列。整个流程是分层的,高层规划指导低层执行。
关键创新:HiVLA的关键创新在于其分层解耦的架构和级联交叉注意力机制。分层解耦架构允许独立优化高层规划和低层控制,避免了端到端微调带来的推理能力损失。级联交叉注意力机制能够有效地融合全局上下文、局部对象信息和技能语义,提高了动作专家的鲁棒性和精度。
关键设计:DiT动作专家使用了流匹配扩散Transformer (DiT)作为其核心架构。级联交叉注意力机制包含三个阶段:首先,全局上下文信息通过交叉注意力与DiT的隐藏状态融合;然后,高分辨率的目标对象裁剪图像通过另一个交叉注意力模块融合;最后,技能语义信息也通过交叉注意力融合。这种顺序融合的方式使得DiT能够逐步聚焦于关键信息,从而生成更精确的动作。
🖼️ 关键图片
📊 实验亮点
HiVLA在模拟和真实世界的实验中均表现出色。在长时程技能组合任务中,HiVLA显著优于端到端基线方法。在杂乱场景中小物体操作任务中,HiVLA也展现出更高的成功率和鲁棒性。具体性能数据在论文中详细展示,证明了HiVLA在复杂操作任务中的优越性。
🎯 应用场景
HiVLA具有广泛的应用前景,可应用于家庭服务机器人、工业自动化、医疗辅助等领域。该系统能够处理复杂的长时程任务,并能精确操作小物体,使其在需要精细操作和复杂环境理解的场景中具有重要价值。未来,HiVLA有望成为通用机器人操作系统的核心组成部分,推动机器人技术的发展。
📄 摘要(原文)
While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.