OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes
作者: Regina Kurkova, Maxim Popov, Sergey Kolyubin
分类: cs.CV, cs.RO
发布日期: 2026-05-26
备注: Code: https://github.com/be2rlab/OSMa-Bench-v2
🔗 代码/项目: GITHUB
💡 一句话要点
OSMa-Bench++:利用提示生成的合成场景,实现操作语义地图的开放式基准测试
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 语义地图 基准测试 机器人操作 合成场景 提示生成 场景理解 VQA
📋 核心要点
- 现有语义地图评估依赖固定数据集,缺乏对操作相关极端情况的覆盖,限制了其在机器人操作中的应用。
- OSMa-Bench++利用提示生成合成场景,实现可控基准测试,并提供场景语义规范,从而更好地评估语义地图。
- 该框架支持在复杂条件下对语义场景表示进行压力测试,提升了基准测试的可扩展性,并与下游操作需求对齐。
📝 摘要(中文)
语义地图方法越来越多地被用作下游机器人推理和操作的中间场景表示,但其评估仍然主要依赖于固定的基准数据集,这些数据集对操作相关的极端情况覆盖有限。本文扩展了OSMa-Bench,使其能够通过提示生成的合成室内场景进行可控的基准测试。我们的流程自动生成场景描述,使用SceneSmith合成相应的环境,并将生成的资源适配为OSMa-Bench兼容的模拟格式。这种适配需要一个重要的中间层,包括语义归一化、材料和纹理修复、着色器回退策略、地面处理、导航设置和受控的光照配置。该设置的一个关键优势是,原始的场景生成提示是预先已知的,因此可以作为预期场景的辅助语义规范。我们利用这一特性,使用提示引导的问题类别扩展了OSMa-Bench的VQA组件。由此产生的框架支持在诸如杂乱、小物体、部分遮挡和光照变化等条件下对语义场景表示进行有针对性的压力测试,并使基准测试更具可扩展性,且更好地与下游操作要求对齐。代码已开源。
🔬 方法详解
问题定义:现有语义地图的评估方法主要依赖于固定的基准数据集,这些数据集在覆盖操作相关的极端情况(如杂乱、小物体、遮挡等)方面存在局限性。这使得评估结果难以泛化到真实的机器人操作场景中,阻碍了语义地图方法在机器人领域的应用。现有方法缺乏对场景语义信息的有效利用,难以进行有针对性的评估。
核心思路:本文的核心思路是利用提示(Prompt)生成合成的室内场景,并将其作为语义地图的基准测试环境。通过控制提示的内容,可以生成具有特定语义特征的场景,从而实现对语义地图方法进行有针对性的评估。同时,利用提示作为场景的语义规范,可以扩展现有的评估指标,例如,通过提示引导的问题回答(VQA)来评估语义地图对场景语义信息的理解能力。
技术框架:OSMa-Bench++的整体框架包括以下几个主要模块:1) 场景描述生成:根据用户提供的提示,自动生成场景的文本描述。2) 场景合成:利用SceneSmith等工具,将场景描述转化为三维场景模型。3) 场景适配:将生成的三维场景模型适配为OSMa-Bench兼容的模拟格式,包括语义归一化、材质和纹理修复、着色器回退策略、地面处理、导航设置和受控的光照配置等。4) 基准测试:利用适配后的场景进行语义地图方法的基准测试,并根据测试结果进行评估。5) 提示引导的VQA:利用场景生成提示作为场景的语义规范,扩展VQA组件,评估语义地图对场景语义信息的理解能力。
关键创新:该论文的关键创新在于:1) 提出了利用提示生成合成场景进行语义地图基准测试的方法,实现了可控的基准测试。2) 利用场景生成提示作为场景的语义规范,扩展了VQA组件,实现了对语义地图语义理解能力的评估。3) 构建了一个完整的场景生成和适配流程,使得可以方便地生成各种具有特定语义特征的场景。
关键设计:在场景适配阶段,论文提出了一系列关键的设计,包括:1) 语义归一化:将不同来源的场景模型中的语义标签进行统一,确保语义一致性。2) 材质和纹理修复:修复场景模型中存在的材质和纹理问题,提高场景的真实感。3) 着色器回退策略:针对不同的渲染引擎,选择合适的着色器,确保场景的渲染效果。4) 地面处理:自动检测和处理场景中的地面,确保机器人可以在场景中自由移动。5) 导航设置:自动生成场景中的导航网格,方便机器人进行导航。
🖼️ 关键图片
📊 实验亮点
OSMa-Bench++通过提示生成合成场景,实现了对语义地图方法在杂乱、小物体、遮挡和光照变化等条件下的压力测试。通过提示引导的VQA,可以评估语义地图对场景语义信息的理解能力。实验结果表明,该框架可以有效地评估和比较不同的语义地图方法,并为算法的改进提供指导。具体性能数据和对比基线信息未知。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。通过提供更具挑战性和可控性的基准测试环境,可以促进语义地图方法的发展,提高机器人在复杂环境中的感知和操作能力。该框架可以用于评估和比较不同的语义地图算法,并为算法的改进提供指导。
📄 摘要(原文)
Semantic mapping methods are increasingly used as intermediate scene representations for downstream robotic reasoning and manipulation, yet their evaluation is still largely tied to fixed benchmark datasets with limited coverage of manipulation-relevant corner cases. In this work, we extend OSMa-Bench toward controllable benchmarking with prompt-generated synthetic indoor scenes. Our pipeline automatically generates scene descriptions, synthesizes corresponding environments with SceneSmith, and adapts the resulting assets into an OSMa-Bench-compatible simulation format. This adaptation requires a nontrivial intermediate layer, including semantic normalization, material and texture repair, shader fallback policies, floor handling, navigation setup, and controlled lighting configuration. A key advantage of the proposed setup is that the original scene-generation prompt is known in advance and can therefore serve as an auxiliary semantic specification of the intended scene. We use this property to extend the VQA component of OSMa-Bench with a prompt-grounded question category. The resulting framework supports targeted stress-testing of semantic scene representations under conditions such as clutter, small objects, partial occlusions, and lighting variation, and makes benchmarking more extensible and better aligned with downstream manipulation requirements. Our code is available at https://github.com/be2rlab/OSMa-Bench-v2.