From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

📄 arXiv: 2606.09134v1 📥 PDF

作者: Jiangtao Shuai, Zongxiong Chen, Manfred Hauswirth, Sonja Schimmler

分类: cs.RO, cs.AI, cs.CL, cs.CV, cs.GR

发布日期: 2026-06-08

备注: Accepted to the IEEE ICRA 2026 International Joint Workshop on Ontologies, Semantic Maps and Autonomous Robotics Standardization (J-WOSMARS 2026), Vienna, 2026


💡 一句话要点

提出基于大语言模型的零-shot本体映射方法以解决知识图谱构建问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识图谱 大语言模型 零-shot学习 本体映射 机器人推理 场景理解 自动化技术

📋 核心要点

  1. 核心问题:现有的知识图谱构建方法依赖于手动编制的字典,存在脆弱性和通用性不足的问题。
  2. 方法要点:本文提出利用大语言模型(LLMs)进行零-shot本体映射,自动化场景对象与本体类的映射过程。
  3. 实验或效果:在厨房场景中,LLMs在描述性名称下实现90-96%的准确率,显著优于传统方法。

📝 摘要(中文)

构建知识图谱以支持机器人任务推理是至关重要的,但将场景对象映射到正式本体类的关键瓶颈仍然依赖于脆弱且不具通用性的手动编制字典。本文探讨了大语言模型(LLMs)是否能够作为一种零-shot、无训练的替代方案,自动化这一映射步骤,特别针对通用场景描述(USD)场景。在一个包含125个对象的厨房场景中,使用SOMA-HOME本体,LLMs在描述性名称下实现了90-96%的准确率,而在缩写名称下则为49-89%,显著优于字典和嵌入基线。在完全不透明的名称下,增强上下文的提示可以恢复多达48%的准确率。特征消融实验表明,LLMs主要利用场景图中的语义线索(兄弟名称和父路径);匿名化这些线索会将准确率降低至0-6%,而仅使用几何信息的准确率仅为4-17%。

🔬 方法详解

问题定义:本文旨在解决从3D模拟场景构建知识图谱时,场景对象与正式本体类之间的映射问题。现有方法依赖于手动编制的字典,存在脆弱性和不具通用性的问题,限制了其在不同资产间的应用。

核心思路:论文提出利用大语言模型(LLMs)作为一种零-shot、无训练的替代方案,自动化场景对象的映射过程。通过利用场景图中的语义线索,LLMs能够更准确地识别和分类场景中的对象。

技术框架:整体架构包括数据输入(USD场景)、大语言模型处理、上下文增强提示和输出结果(本体类映射)。主要模块包括场景图解析、语义线索提取和映射结果生成。

关键创新:最重要的技术创新在于将大语言模型应用于知识图谱构建的零-shot本体映射,显著提高了准确率,并减少了对手动字典的依赖。与现有方法相比,LLMs能够更好地利用语义信息进行对象识别。

关键设计:在实验中,采用了上下文增强的提示设计,以提高模型在不透明名称下的准确率。同时,通过特征消融实验,验证了语义线索(如兄弟名称和父路径)对模型性能的关键影响。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,LLMs在描述性名称下实现了90-96%的准确率,而在缩写名称下为49-89%,显著优于传统字典和嵌入基线。上下文增强提示在完全不透明名称下恢复了多达48%的准确率,展示了模型在语义理解上的强大能力。

🎯 应用场景

该研究的潜在应用领域包括机器人任务推理、智能家居系统和自动化场景理解等。通过自动化知识图谱构建,能够显著提高机器人在复杂环境中的决策能力和适应性,未来可能推动智能机器人技术的广泛应用。

📄 摘要(原文)

Constructing knowledge graphs from 3D simulation scenes is essential for robot task reasoning, but the key bottleneck, grounding scene objects to formal ontology classes, still relies on manually curated dictionaries that are brittle and do not generalize across assets. We investigate whether large language models (LLMs) can automate this grounding step for Universal Scene Description (USD) scenes as a zero-shot, training-free alternative. On a kitchen scene (125 objects) with SOMA-HOME Ontology, LLMs achieve 90-96% exact-match accuracy with descriptive names and 49-89% with abbreviated names, substantially outperforming dictionary and embedding baselines. Under fully opaque names, context-augmented prompting recovers up to 48%. Feature ablation reveals that LLMs primarily exploit semantic cues in the scene graph (sibling names and parent paths); anonymizing these cues reduces accuracy to 0-6%, while geometry alone yields only 4-17%.