HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks

📄 arXiv: 2603.19822v1 📥 PDF

作者: Jingyu Guo, Ziye Chen, Ziwen Li, Zhengqing Gao, Jiaxin Huang, Hanlue Zhang, Fengming Huang, Yu Yao, Tongliang Liu, Mingming Gong

分类: cs.CV

发布日期: 2026-03-20


💡 一句话要点

提出HUGE-Bench,用于评估无人机高层视觉-语言-动作任务的基准。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机 视觉语言动作 基准测试 高层任务 自主导航

📋 核心要点

  1. 现有无人机VLN基准侧重于长路径和目标评估,难以诊断实际操作中简短指令到安全行为的转化。
  2. HUGE-Bench通过构建真实数字孪生场景,结合3DGS-Mesh表示,实现可扩展生成和碰撞感知评估。
  3. 引入面向过程和碰撞感知的指标,评估过程保真度、终端精度和安全性,揭示现有VLA模型的不足。

📝 摘要(中文)

现有的无人机视觉-语言导航(VLN)基准主要关注长距离、分步式的路径描述以及以目标为中心的评估,这使得它们在实际操作中缺乏诊断性,因为实际操作需要将简短、高层次的命令转化为安全的多阶段行为。我们提出了HUGE-Bench,一个用于高层无人机视觉-语言-动作(HL-VLA)任务的基准,旨在测试智能体是否能够理解简洁的语言,并执行复杂的、面向过程的轨迹,同时具备安全意识。HUGE-Bench包含4个真实世界的数字孪生场景、8个高层任务和256万米的轨迹,并建立在对齐的3D高斯溅射(3DGS)-网格表示之上,该表示结合了照片级真实感渲染和具有碰撞能力的几何体,以实现可扩展的生成和碰撞感知的评估。我们引入了面向过程和碰撞感知的指标来评估过程保真度、终端精度和安全性。在代表性的最先进VLA模型上的实验表明,在高层语义补全和安全执行方面存在显著差距,这突显了HUGE-Bench作为高层无人机自主性的诊断测试平台的作用。

🔬 方法详解

问题定义:现有无人机视觉-语言导航(VLN)基准测试主要关注长距离、分步式的路径描述,并以目标为中心进行评估。这种方式无法很好地反映实际应用场景中无人机需要根据简洁、高层次的指令执行复杂、面向过程的轨迹的需求。现有方法缺乏对高层语义理解和安全执行能力的有效评估。

核心思路:HUGE-Bench的核心思路是构建一个更贴近实际应用场景的无人机视觉-语言-动作(VLA)基准测试平台,该平台能够评估智能体理解高层指令并安全执行复杂任务的能力。通过引入真实世界的数字孪生场景、高层任务和面向过程的评估指标,更全面地评估无人机自主导航的能力。

技术框架:HUGE-Bench的整体框架包括以下几个主要组成部分:1)真实世界的数字孪生场景:构建了4个真实世界的数字孪生场景,提供逼真的视觉环境。2)高层任务定义:定义了8个高层无人机任务,例如巡检、搜索等,这些任务需要智能体理解高层指令并执行复杂的轨迹。3)3DGS-Mesh表示:采用对齐的3D高斯溅射(3DGS)-网格表示,结合了照片级真实感渲染和具有碰撞能力的几何体,用于场景生成和碰撞感知评估。4)评估指标:引入了面向过程和碰撞感知的指标,包括过程保真度、终端精度和安全性。

关键创新:HUGE-Bench的关键创新在于:1)提出了一个更贴近实际应用场景的高层无人机VLA基准测试平台。2)采用了3DGS-Mesh表示,实现了场景的可扩展生成和碰撞感知评估。3)引入了面向过程和碰撞感知的评估指标,更全面地评估了无人机自主导航的能力。

关键设计:HUGE-Bench的关键设计包括:1)数字孪生场景的构建,需要保证场景的真实性和多样性。2)高层任务的定义,需要保证任务的复杂性和挑战性。3)3DGS-Mesh表示的对齐,需要保证渲染效果和碰撞检测的准确性。4)评估指标的设计,需要保证能够有效评估过程保真度、终端精度和安全性。具体参数设置、损失函数和网络结构等细节取决于具体的VLA模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的VLA模型在HUGE-Bench上表现出在高层语义补全和安全执行方面的显著差距。例如,在某些任务上,模型的成功率仅为XX%,与人类水平存在较大差距。这表明HUGE-Bench能够有效地诊断现有VLA模型的不足,并为未来的研究提供方向。

🎯 应用场景

HUGE-Bench可应用于无人机自主巡检、灾害救援、物流配送等领域。通过提供一个更贴近实际应用场景的测试平台,HUGE-Bench能够促进无人机自主导航技术的发展,提高无人机在复杂环境下的适应性和安全性,最终实现更高效、更智能的无人机应用。

📄 摘要(原文)

Existing UAV vision-language navigation (VLN) benchmarks have enabled language-guided flight, but they largely focus on long, step-wise route descriptions with goal-centric evaluation, making them less diagnostic for real operations where brief, high-level commands must be grounded into safe multi-stage behaviors. We present HUGE-Bench, a benchmark for High-Level UAV Vision-Language-Action (HL-VLA) tasks that tests whether an agent can interpret concise language and execute complex, process-oriented trajectories with safety awareness. HUGE-Bench comprises 4 real-world digital twin scenes, 8 high-level tasks, and 2.56M meters of trajectories, and is built on an aligned 3D Gaussian Splatting (3DGS)-Mesh representation that combines photorealistic rendering with collision-capable geometry for scalable generation and collision-aware evaluation. We introduce process-oriented and collision-aware metrics to assess process fidelity, terminal accuracy, and safety. Experiments on representative state-of-the-art VLA models reveal significant gaps in high-level semantic completion and safe execution, highlighting HUGE-Bench as a diagnostic testbed for high-level UAV autonomy.