Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning

📄 arXiv: 2509.23107v2 📥 PDF

作者: Yi Wang, Zeyu Xue, Mujie Liu, Tongqin Zhang, Yan Hu, Zhou Zhao, Chenguang Yang, Zhenyu Lu

分类: cs.RO, cs.AI

发布日期: 2025-09-27 (更新: 2025-10-27)


💡 一句话要点

提出时空开放词汇场景图,增强机器人远程操作在时延下的规划鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 远程操作 时空场景图 开放词汇感知 时延鲁棒性 LVLM规划 机器人感知 场景理解

📋 核心要点

  1. 远程操作中,通信时延导致感知状态与操作意图不符,影响命令执行的准确性。
  2. 提出时空开放词汇场景图(ST-OVSG),结合LVLM、时序信息和时延标注,提升规划器对时延的鲁棒性。
  3. 实验表明,ST-OVSG在Replica数据集上节点准确率达74%,且显著提升了时延环境下的规划成功率。

📝 摘要(中文)

本文提出时空开放词汇场景图(ST-OVSG),旨在解决远程操作中因双向通信时延导致的远程感知状态与操作者意图不一致的问题。ST-OVSG利用LVLM构建开放词汇3D对象表示,并通过匈牙利算法和时间匹配代价将其扩展到时域,形成统一的时空场景图。嵌入时延标签使LVLM规划器能够回顾过去场景状态,从而解决时延引起的本地-远程状态不匹配。此外,提出面向任务的子图过滤策略,生成紧凑的规划器输入。ST-OVSG无需微调即可泛化到新类别,并增强规划对时延的鲁棒性。实验表明,该方法在Replica基准测试上实现了74%的节点准确率,优于ConceptGraph。在时延鲁棒性实验中,ST-OVSG辅助的LVLM规划器实现了70.5%的规划成功率。

🔬 方法详解

问题定义:远程操作中,由于通信时延,机器人本地感知到的环境状态与操作员的意图之间存在差异,导致操作员发出的指令可能基于过时的信息,从而导致机器人执行错误或失败。现有方法难以有效处理这种时延带来的状态不确定性,尤其是在动态环境中。

核心思路:核心在于构建一个包含时空信息和时延信息的场景图,使规划器能够回顾过去的状态,从而弥补因时延造成的本地与远程状态之间的差异。通过开放词汇的场景表示,增强了对新物体的泛化能力。

技术框架:整体框架包括:1) 利用LVLM构建开放词汇的3D对象表示;2) 通过匈牙利算法和时间匹配代价将3D对象表示扩展到时域,构建时空场景图;3) 嵌入时延标签,记录每个状态的时间戳;4) 提出面向任务的子图过滤策略,提取与当前任务相关的场景信息;5) 使用LVLM规划器,根据过滤后的场景图生成操作指令。

关键创新:关键创新在于将开放词汇感知、时序信息和时延信息整合到统一的场景图表示中。通过时延标签,LVLM规划器可以回顾过去的状态,从而缓解时延带来的影响。此外,面向任务的子图过滤策略能够减少冗余信息,提高规划效率。

关键设计:时间匹配代价的设计是关键,用于在不同时间步之间关联对象。具体实现可能涉及计算对象之间的距离、外观相似度等特征,并使用匈牙利算法找到最优匹配。面向任务的子图过滤策略可能涉及定义任务相关的属性或关系,并根据这些属性或关系筛选场景图中的节点和边。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ST-OVSG在Replica数据集上实现了74%的节点准确率,显著优于ConceptGraph等基线方法。在模拟时延的实验中,ST-OVSG辅助的LVLM规划器实现了70.5%的规划成功率,表明其在时延环境下具有较强的鲁棒性。这些结果验证了ST-OVSG在增强远程操作规划能力方面的有效性。

🎯 应用场景

该研究成果可应用于高风险或偏远地区的机器人远程操作,例如灾难救援、太空探索、深海作业等。通过提高机器人对时延的鲁棒性,可以减少操作员的工作负担,提高操作安全性,并扩展机器人的应用范围。未来,该技术有望与增强现实等技术结合,为操作员提供更直观、高效的远程操作体验。

📄 摘要(原文)

Teleoperation via natural-language reduces operator workload and enhances safety in high-risk or remote settings. However, in dynamic remote scenes, transmission latency during bidirectional communication creates gaps between remote perceived states and operator intent, leading to command misunderstanding and incorrect execution. To mitigate this, we introduce the Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG), a representation that enriches open-vocabulary perception with temporal dynamics and lightweight latency annotations. ST-OVSG leverages LVLMs to construct open-vocabulary 3D object representations, and extends them into the temporal domain via Hungarian assignment with our temporal matching cost, yielding a unified spatio-temporal scene graph. A latency tag is embedded to enable LVLM planners to retrospectively query past scene states, thereby resolving local-remote state mismatches caused by transmission delays. To further reduce redundancy and highlight task-relevant cues, we propose a task-oriented subgraph filtering strategy that produces compact inputs for the planner. ST-OVSG generalizes to novel categories and enhances planning robustness against transmission latency without requiring fine-tuning. Experiments show that our method achieves 74 percent node accuracy on the Replica benchmark, outperforming ConceptGraph. Notably, in the latency-robustness experiment, the LVLM planner assisted by ST-OVSG achieved a planning success rate of 70.5 percent.