VISTA: Open-Vocabulary, Task-Relevant Robot Exploration with Online Semantic Gaussian Splatting

📄 arXiv: 2507.01125v1 📥 PDF

作者: Keiko Nagami, Timothy Chen, Javier Yu, Ola Shorinwa, Maximilian Adang, Carlyn Dougherty, Eric Cristofalo, Mac Schwager

分类: cs.RO

发布日期: 2025-07-01

备注: 9 pages, 4 figures


💡 一句话要点

VISTA:基于在线语义高斯溅射的开放词汇、任务相关机器人探索

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人探索 主动探索 语义SLAM 高斯溅射 开放词汇 任务规划 三维重建

📋 核心要点

  1. 现有机器人探索方法难以兼顾任务相关性和环境重建质量,尤其是在开放词汇搜索任务中。
  2. VISTA通过引入视点-语义覆盖度量,指导机器人规划轨迹,同时优化语义相似性和未见区域探索。
  3. 实验表明,VISTA在复杂环境中显著提升了任务成功率和重建质量,并验证了其平台通用性。

📝 摘要(中文)

本文提出了一种名为VISTA(基于视点的图像选择与语义任务感知)的主动探索方法,旨在使机器人能够规划信息丰富的轨迹,从而提高与任务完成最相关的区域的3D地图质量。给定一个开放词汇搜索指令(例如,“找到一个人”),VISTA使机器人能够探索其环境以搜索感兴趣的对象,同时构建场景的实时语义3D高斯溅射重建。机器人通过规划后退水平线轨迹来导航其环境,这些轨迹优先考虑与查询的语义相似性以及对环境中未见区域的探索。为了评估轨迹,VISTA引入了一种新颖、高效的视点-语义覆盖度量,该度量量化了3D场景中的几何视图多样性和任务相关性。在静态数据集上,我们的覆盖度量在计算速度和重建质量方面优于最先进的基线方法FisherRF和Bayes' Rays。在四旋翼硬件实验中,与基线方法相比,VISTA在具有挑战性的地图中实现了6倍更高的成功率,同时在不太具有挑战性的地图中与基线性能相匹配。最后,我们展示了VISTA的平台无关性,通过将其部署在四旋翼无人机和Spot四足机器人上。开源代码将在论文被接受后发布。

🔬 方法详解

问题定义:现有机器人探索方法在开放词汇搜索任务中,难以有效地平衡任务相关区域的探索和环境的整体重建质量。传统方法通常侧重于几何信息或预定义的类别,无法灵活适应新的语义查询,导致探索效率低下和任务成功率降低。此外,实时性和计算效率也是实际应用中的关键挑战。

核心思路:VISTA的核心思路是利用语义信息指导机器人进行主动探索,通过最大化视点-语义覆盖度量来选择最佳轨迹。该度量综合考虑了视点的几何多样性和与任务相关的语义信息,使得机器人能够优先探索既能提供新视角又能提高目标对象可见性的区域。这种方法旨在提高探索效率,并构建更适合任务需求的3D地图。

技术框架:VISTA的整体框架包含以下几个主要模块:1) 语义高斯溅射重建:利用在线高斯溅射技术实时构建场景的3D表示,并融合语义信息。2) 视点-语义覆盖度量计算:针对候选轨迹,计算其视点-语义覆盖度量,该度量综合考虑了视点的几何多样性和与查询的语义相似性。3) 轨迹规划:基于覆盖度量,选择最优轨迹,引导机器人进行探索。4) 运动控制:控制机器人执行选定的轨迹。整个流程是一个循环迭代的过程,不断更新地图和规划轨迹。

关键创新:VISTA的关键创新在于提出了视点-语义覆盖度量。该度量不仅考虑了视点的几何多样性,还融入了与任务相关的语义信息,从而能够更有效地指导机器人进行主动探索。与传统的基于几何或预定义类别的方法相比,VISTA能够灵活适应新的语义查询,并优先探索与任务相关的区域。此外,VISTA采用在线高斯溅射技术,实现了实时3D重建和语义融合。

关键设计:视点-语义覆盖度量的具体计算方式未知,但可以推测其包含两部分:一部分衡量视点的新颖性,例如通过计算视点与已观测区域的视角差异或信息增益;另一部分衡量视点与查询的语义相关性,例如通过计算视点观测到的区域与查询的语义相似度。最终的覆盖度量可能是这两部分的加权组合。具体的权重参数设置未知,可能需要根据实际场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VISTA在四旋翼硬件实验中,与基线方法相比,在具有挑战性的地图中实现了6倍更高的任务成功率,表明其在复杂环境下的优越性能。在静态数据集上,VISTA的覆盖度量在计算速度和重建质量方面优于FisherRF和Bayes' Rays等先进基线方法。此外,VISTA成功部署在四旋翼无人机和Spot四足机器人上,验证了其平台通用性。

🎯 应用场景

VISTA具有广泛的应用前景,例如在搜救任务中,机器人可以根据“寻找幸存者”等指令自主探索未知环境;在安防巡逻中,机器人可以根据“寻找可疑物品”等指令进行目标搜索;在工业巡检中,机器人可以根据“检查设备状态”等指令进行自主巡检。此外,该技术还可以应用于自动驾驶、增强现实等领域,提升环境感知和交互能力。

📄 摘要(原文)

We present VISTA (Viewpoint-based Image selection with Semantic Task Awareness), an active exploration method for robots to plan informative trajectories that improve 3D map quality in areas most relevant for task completion. Given an open-vocabulary search instruction (e.g., "find a person"), VISTA enables a robot to explore its environment to search for the object of interest, while simultaneously building a real-time semantic 3D Gaussian Splatting reconstruction of the scene. The robot navigates its environment by planning receding-horizon trajectories that prioritize semantic similarity to the query and exploration of unseen regions of the environment. To evaluate trajectories, VISTA introduces a novel, efficient viewpoint-semantic coverage metric that quantifies both the geometric view diversity and task relevance in the 3D scene. On static datasets, our coverage metric outperforms state-of-the-art baselines, FisherRF and Bayes' Rays, in computation speed and reconstruction quality. In quadrotor hardware experiments, VISTA achieves 6x higher success rates in challenging maps, compared to baseline methods, while matching baseline performance in less challenging maps. Lastly, we show that VISTA is platform-agnostic by deploying it on a quadrotor drone and a Spot quadruped robot. Open-source code will be released upon acceptance of the paper.