Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model

📄 arXiv: 2605.14950v1 📥 PDF

作者: Tao Lin, Yuxin Du, Jiting Liu, Nuobei Zhu, Yunhe Li, Yuqian Fu, Yinxinyu Chen, Hongyi Cai, Zewei Ye, Bing Cheng, Kai Ye, Yiran Mao, Yilei Zhong, MingKang Dong, Junchi Yan, Gen Li, Bo Zhao

分类: cs.CV, cs.RO

发布日期: 2026-05-14


💡 一句话要点

Evo-Depth:提出轻量级深度增强的视觉-语言-动作模型,提升机器人操作的空间理解能力。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉-语言-动作模型 深度估计 空间理解 轻量级模型

📋 核心要点

  1. 现有VLA模型在精确空间理解方面存在不足,主要原因是依赖缺乏深度信息的2D视觉表示。
  2. Evo-Depth通过轻量级隐式深度编码模块提取深度特征,并利用空间增强模块进行深度感知的空间-语义增强。
  3. Evo-Depth在模拟和真实世界实验中均表现出色,模型尺寸小、内存占用低、推理速度快,且成功率高。

📝 摘要(中文)

视觉-语言-动作模型(VLA)已成为机器人操作领域中一个有前景的范例,它统一了感知、语言理解和动作生成。然而,由于当前的VLA模型主要依赖于缺乏深度信息和详细空间关系的2D视觉表示,因此它们在需要精确空间理解的场景中表现不佳。虽然最近的方法结合了显式的3D输入(如深度图或点云)来解决这个问题,但它们通常会增加系统复杂性,需要额外的传感器,并且容易受到传感噪声和重建误差的影响。另一项工作探索了直接从RGB图像进行隐式3D感知空间建模,而无需额外的传感器,但它通常依赖于大型几何基础模型,从而导致更高的训练和部署成本。为了应对这些挑战,我们提出了Evo-Depth,一个轻量级的深度增强VLA框架,它增强了空间定位操作,而无需依赖额外的传感硬件或牺牲部署效率。Evo-Depth采用轻量级的隐式深度编码模块,从多视角RGB图像中提取紧凑的深度特征。这些特征通过深度感知的调制,被整合到视觉-语言表示中的空间增强模块中,从而实现高效的空间-语义增强。进一步引入了渐进对齐训练策略,以将生成的深度增强表示与下游动作学习对齐。Evo-Depth仅使用0.9B参数,就在四个模拟基准测试中实现了卓越的性能。在真实世界的实验中,Evo-Depth获得了最高的平均成功率,同时还表现出最小的模型尺寸、最低的GPU内存使用率和最高的推理频率。

🔬 方法详解

问题定义:现有视觉-语言-动作模型(VLA)在机器人操作任务中,难以精确理解场景的空间关系,导致操作性能受限。直接使用深度传感器会增加系统复杂性和成本,且易受噪声影响。依赖大型几何基础模型进行隐式3D建模则会增加训练和部署成本。

核心思路:Evo-Depth的核心在于利用轻量级的隐式深度编码模块,从多视角RGB图像中提取紧凑的深度特征,从而在不增加额外硬件成本的前提下,增强VLA模型对空间信息的感知能力。通过深度感知的调制机制,将深度特征融入视觉-语言表示,实现空间-语义的有效融合。

技术框架:Evo-Depth框架主要包含三个模块:1) 轻量级隐式深度编码模块:从多视角RGB图像中提取深度特征。2) 空间增强模块:通过深度感知的调制,将深度特征融入视觉-语言表示。3) 渐进对齐训练策略:将深度增强的表示与下游动作学习对齐。整体流程是,首先利用多视角RGB图像提取深度特征,然后将深度特征融入视觉-语言表示,最后通过渐进对齐训练策略优化模型。

关键创新:Evo-Depth的关键创新在于其轻量级的隐式深度编码模块和深度感知的空间增强模块。与依赖额外深度传感器或大型几何基础模型的方法不同,Evo-Depth仅使用RGB图像即可实现深度信息的有效提取和利用,从而在保证性能的同时,显著降低了模型复杂度和部署成本。

关键设计:Evo-Depth采用轻量级的网络结构设计,以保证模型的部署效率。隐式深度编码模块的具体网络结构未知,但强调了其轻量性。空间增强模块采用深度感知的调制机制,具体实现方式未知,但其目的是实现深度特征与视觉-语言特征的有效融合。渐进对齐训练策略的具体细节未知,但其目的是优化深度增强表示与下游动作学习的对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Evo-Depth在四个模拟基准测试中取得了优异的性能。在真实世界的实验中,Evo-Depth获得了最高的平均成功率,同时模型尺寸最小(0.9B参数),GPU内存使用率最低,推理频率最高。这些结果表明,Evo-Depth在性能、效率和部署成本方面均优于现有方法。

🎯 应用场景

Evo-Depth适用于各种需要精确空间理解的机器人操作任务,例如物体抓取、装配、导航等。其轻量级的设计使其能够部署在资源受限的机器人平台上,具有广泛的应用前景。该研究有助于推动机器人智能化发展,提高机器人在复杂环境中的适应性和操作能力。

📄 摘要(原文)

Vision-Language-Action models have emerged as a promising paradigm for robotic manipulation by unifying perception, language grounding, and action generation. However, they often struggle in scenarios requiring precise spatial understanding, as current VLA models primarily rely on 2D visual representations that lack depth information and detailed spatial relationships. While recent approaches incorporate explicit 3D inputs such as depth maps or point clouds to address this issue, they often increase system complexity, require additional sensors, and remain vulnerable to sensing noise and reconstruction errors. Another line of work explores implicit 3D-aware spatial modeling directly from RGB observations without extra sensors, but it often relies on large geometry foundation models, resulting in higher training and deployment costs. To address these challenges, we propose Evo-Depth, a lightweight depth-enhanced VLA framework that enhances spatially grounded manipulation without relying on additional sensing hardware or compromising deployment efficiency. Evo-Depth employs a lightweight Implicit Depth Encoding Module to extract compact depth features from multi-view RGB images. These features are incorporated into vision-language representations through a Spatial Enhancement Module via depth-aware modulation, enabling efficient spatial-semantic enhancement. A Progressive Alignment Training strategy is further introduced to align the resulting depth-enhanced representations with downstream action learning. With only 0.9B parameters, Evo-Depth achieves superior performance across four simulation benchmarks. In real-world experiments, Evo-Depth attains the highest average success rate while also exhibiting the smallest model size, lowest GPU memory usage, and highest inference frequency among compared methods.