HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

作者: Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang, Yitian Liu, Zanxin Chen, Chunpu Xu, Haotian Liang, Jiangmiao Pang, Yao Mu, Ping Luo

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-15

备注: Project Page: https://tianshuoy.github.io/HiVLA-page/

💡 一句话要点

HiVLA：一种视觉中心的分层具身操作系统，解耦规划与控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身操作 视觉语言模型 分层控制 扩散模型 机器人操作

📋 核心要点

端到端VLA模型在机器人操作中面临推理能力与控制精度的根本权衡，直接微调牺牲了VLM的推理能力。
HiVLA通过解耦高层语义规划和低层运动控制，保留VLM的推理能力，并允许独立优化两个模块。
实验表明，HiVLA在长时程任务和精细操作上显著优于现有方法，证明了其有效性。

📝 摘要（中文）

本文提出HiVLA，一种视觉中心的分层具身操作框架，旨在解决端到端视觉-语言-动作(VLA)模型在机器人操作中面临的推理能力与控制精度之间的权衡问题。HiVLA显式地将高层语义规划与低层运动控制解耦。在高层，VLM规划器执行任务分解和视觉定位，生成包含子任务指令和精确目标边界框的结构化计划。在低层，引入了配备级联交叉注意力机制的流匹配扩散Transformer (DiT)动作专家，将计划转化为物理动作。这种设计顺序融合全局上下文、高分辨率的以对象为中心的裁剪和技能语义，使DiT能够专注于鲁棒的执行。解耦架构保留了VLM的零样本推理能力，并允许独立改进两个组件。在模拟和真实世界的实验表明，HiVLA显著优于最先进的端到端基线，尤其擅长长时程技能组合和杂乱场景中小物体的精细操作。

🔬 方法详解

问题定义：现有端到端视觉-语言-动作(VLA)模型在机器人操作任务中，为了获得更好的控制精度，通常需要针对特定任务进行微调。然而，这种微调会牺牲从大型视觉-语言模型(VLM)中继承的强大推理能力，导致模型泛化性差，难以处理复杂任务。因此，如何平衡推理能力和控制精度是当前VLA模型面临的关键问题。

核心思路：HiVLA的核心思路是将高层语义规划与低层运动控制解耦。高层规划器负责利用VLM的强大推理能力进行任务分解和视觉定位，生成结构化的计划。低层动作专家则专注于将这些计划转化为精确的物理动作。通过这种解耦，可以分别优化两个模块，从而在保留VLM推理能力的同时，提高控制精度。

技术框架：HiVLA系统包含两个主要模块：VLM规划器和DiT动作专家。VLM规划器接收视觉输入和任务指令，输出结构化的计划，包括子任务指令和目标对象的边界框。DiT动作专家接收全局上下文、目标对象的裁剪图像和技能语义，通过级联交叉注意力机制融合这些信息，生成控制机器人的动作序列。整个流程是分层的，高层规划指导低层执行。

关键创新：HiVLA的关键创新在于其分层解耦的架构和级联交叉注意力机制。分层解耦架构允许独立优化高层规划和低层控制，避免了端到端微调带来的推理能力损失。级联交叉注意力机制能够有效地融合全局上下文、局部对象信息和技能语义，提高了动作专家的鲁棒性和精度。

关键设计：DiT动作专家使用了流匹配扩散Transformer (DiT)作为其核心架构。级联交叉注意力机制包含三个阶段：首先，全局上下文信息通过交叉注意力与DiT的隐藏状态融合；然后，高分辨率的目标对象裁剪图像通过另一个交叉注意力模块融合；最后，技能语义信息也通过交叉注意力融合。这种顺序融合的方式使得DiT能够逐步聚焦于关键信息，从而生成更精确的动作。

🖼️ 关键图片

📊 实验亮点

HiVLA在模拟和真实世界的实验中均表现出色。在长时程技能组合任务中，HiVLA显著优于端到端基线方法。在杂乱场景中小物体操作任务中，HiVLA也展现出更高的成功率和鲁棒性。具体性能数据在论文中详细展示，证明了HiVLA在复杂操作任务中的优越性。

🎯 应用场景

HiVLA具有广泛的应用前景，可应用于家庭服务机器人、工业自动化、医疗辅助等领域。该系统能够处理复杂的长时程任务，并能精确操作小物体，使其在需要精细操作和复杂环境理解的场景中具有重要价值。未来，HiVLA有望成为通用机器人操作系统的核心组成部分，推动机器人技术的发展。

📄 摘要（原文）

While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理