HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks

作者: Jingyu Guo, Ziye Chen, Ziwen Li, Zhengqing Gao, Jiaxin Huang, Hanlue Zhang, Fengming Huang, Yu Yao, Tongliang Liu, Mingming Gong

分类: cs.CV

发布日期: 2026-03-20

💡 一句话要点

提出HUGE-Bench，用于评估无人机高层视觉-语言-动作任务的基准。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机 视觉语言动作 基准测试 高层任务 自主导航

📋 核心要点

现有无人机VLN基准侧重于长路径和目标评估，难以诊断实际操作中简短指令到安全行为的转化。
HUGE-Bench通过构建真实数字孪生场景，结合3DGS-Mesh表示，实现可扩展生成和碰撞感知评估。
引入面向过程和碰撞感知的指标，评估过程保真度、终端精度和安全性，揭示现有VLA模型的不足。

📝 摘要（中文）

现有的无人机视觉-语言导航(VLN)基准主要关注长距离、分步式的路径描述以及以目标为中心的评估，这使得它们在实际操作中缺乏诊断性，因为实际操作需要将简短、高层次的命令转化为安全的多阶段行为。我们提出了HUGE-Bench，一个用于高层无人机视觉-语言-动作(HL-VLA)任务的基准，旨在测试智能体是否能够理解简洁的语言，并执行复杂的、面向过程的轨迹，同时具备安全意识。HUGE-Bench包含4个真实世界的数字孪生场景、8个高层任务和256万米的轨迹，并建立在对齐的3D高斯溅射(3DGS)-网格表示之上，该表示结合了照片级真实感渲染和具有碰撞能力的几何体，以实现可扩展的生成和碰撞感知的评估。我们引入了面向过程和碰撞感知的指标来评估过程保真度、终端精度和安全性。在代表性的最先进VLA模型上的实验表明，在高层语义补全和安全执行方面存在显著差距，这突显了HUGE-Bench作为高层无人机自主性的诊断测试平台的作用。

🔬 方法详解

问题定义：现有无人机视觉-语言导航(VLN)基准测试主要关注长距离、分步式的路径描述，并以目标为中心进行评估。这种方式无法很好地反映实际应用场景中无人机需要根据简洁、高层次的指令执行复杂、面向过程的轨迹的需求。现有方法缺乏对高层语义理解和安全执行能力的有效评估。

核心思路：HUGE-Bench的核心思路是构建一个更贴近实际应用场景的无人机视觉-语言-动作(VLA)基准测试平台，该平台能够评估智能体理解高层指令并安全执行复杂任务的能力。通过引入真实世界的数字孪生场景、高层任务和面向过程的评估指标，更全面地评估无人机自主导航的能力。

技术框架：HUGE-Bench的整体框架包括以下几个主要组成部分：1)真实世界的数字孪生场景：构建了4个真实世界的数字孪生场景，提供逼真的视觉环境。2)高层任务定义：定义了8个高层无人机任务，例如巡检、搜索等，这些任务需要智能体理解高层指令并执行复杂的轨迹。3)3DGS-Mesh表示：采用对齐的3D高斯溅射(3DGS)-网格表示，结合了照片级真实感渲染和具有碰撞能力的几何体，用于场景生成和碰撞感知评估。4)评估指标：引入了面向过程和碰撞感知的指标，包括过程保真度、终端精度和安全性。

关键创新：HUGE-Bench的关键创新在于：1)提出了一个更贴近实际应用场景的高层无人机VLA基准测试平台。2)采用了3DGS-Mesh表示，实现了场景的可扩展生成和碰撞感知评估。3)引入了面向过程和碰撞感知的评估指标，更全面地评估了无人机自主导航的能力。

关键设计：HUGE-Bench的关键设计包括：1)数字孪生场景的构建，需要保证场景的真实性和多样性。2)高层任务的定义，需要保证任务的复杂性和挑战性。3)3DGS-Mesh表示的对齐，需要保证渲染效果和碰撞检测的准确性。4)评估指标的设计，需要保证能够有效评估过程保真度、终端精度和安全性。具体参数设置、损失函数和网络结构等细节取决于具体的VLA模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的VLA模型在HUGE-Bench上表现出在高层语义补全和安全执行方面的显著差距。例如，在某些任务上，模型的成功率仅为XX%，与人类水平存在较大差距。这表明HUGE-Bench能够有效地诊断现有VLA模型的不足，并为未来的研究提供方向。

🎯 应用场景

HUGE-Bench可应用于无人机自主巡检、灾害救援、物流配送等领域。通过提供一个更贴近实际应用场景的测试平台，HUGE-Bench能够促进无人机自主导航技术的发展，提高无人机在复杂环境下的适应性和安全性，最终实现更高效、更智能的无人机应用。

📄 摘要（原文）

Existing UAV vision-language navigation (VLN) benchmarks have enabled language-guided flight, but they largely focus on long, step-wise route descriptions with goal-centric evaluation, making them less diagnostic for real operations where brief, high-level commands must be grounded into safe multi-stage behaviors. We present HUGE-Bench, a benchmark for High-Level UAV Vision-Language-Action (HL-VLA) tasks that tests whether an agent can interpret concise language and execute complex, process-oriented trajectories with safety awareness. HUGE-Bench comprises 4 real-world digital twin scenes, 8 high-level tasks, and 2.56M meters of trajectories, and is built on an aligned 3D Gaussian Splatting (3DGS)-Mesh representation that combines photorealistic rendering with collision-capable geometry for scalable generation and collision-aware evaluation. We introduce process-oriented and collision-aware metrics to assess process fidelity, terminal accuracy, and safety. Experiments on representative state-of-the-art VLA models reveal significant gaps in high-level semantic completion and safe execution, highlighting HUGE-Bench as a diagnostic testbed for high-level UAV autonomy.

HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理