PInVerify: An Offline Embodied Benchmark for Active Instance Verification

📄 arXiv: 2605.30639v1 📥 PDF

作者: Yuhang Jiang

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-05-28

备注: Accepted as a poster at the Foundation Models Meet Embodied Agents (FMEA) Workshop, CVPR 2026. 44 pages including appendix. Code: https://github.com/Avalon-S/PInVerify

🔗 代码/项目: GITHUB


💡 一句话要点

提出PInVerify离线具身基准,用于主动实例验证任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 主动实例验证 多模态大语言模型 离线基准 机器人导航

📋 核心要点

  1. 现有具身智能体导航到目标物体附近,但缺乏对细粒度实例属性的验证能力,导致无法准确识别目标。
  2. 提出主动实例验证(AIV)任务,智能体通过主动选择视点来判断候选物体是否符合细粒度自然语言描述。
  3. 构建PInVerify离线基准,包含多视角数据和复杂导航环境,并基于MLLM实现了有效的基线模型,为后续研究提供参考。

📝 摘要(中文)

具身智能体在导航到目标物体方面取得了显著进展,但到达目标附近并不能保证智能体找到了正确的实例。细微的属性差异(例如,“白色花卉”与“白色条纹”)通常需要近距离、多视角的检查。本文提出了主动实例验证(AIV)任务,其中智能体主动选择候选物体周围的视点,以确定它是否与细粒度的自然语言描述相匹配。我们将AIV形式化为一个有限范围的决策过程,并引入PInVerify,一个用于AIV的离线具身基准:包含18个物体类别的3000个评估片段,以多视角捕获的形式提供,具有6扇区的导航拓扑,暴露了陷阱视图(可导航但无信息)和无法到达的扇区。作为参考基线,我们围绕设备端规模(≤8B参数)的开源多模态大型语言模型(MLLM)构建了一个免训练的pipeline和一个LoRA微调的端到端智能体,具有属性分解、可见性加权的多视角跟踪器和三种next-best-view(NBV)策略。在对Qwen3-VL(4B/8B)、SenseNova-SI-1.2-InternVL3-8B、CLIP和SigLIP2的评估中,最佳的基于MLLM的基线超过了最佳的embedding基线4.9个百分点;GT-box消融实验显示了+3.1个百分点的检测差距;并且我们没有观察到在测试的NBV策略中主动视点选择带来的可靠收益。一个LoRA微调的智能体(SFT+GSPO)达到了85.6%。PInVerify旨在支持具身AI中主动、细粒度语义验证的进一步研究。

🔬 方法详解

问题定义:论文旨在解决具身智能体在导航到目标物体后,如何准确验证该物体是否为目标实例的问题。现有方法通常只关注导航到目标附近,而忽略了对物体细粒度属性的验证,这在实际应用中会导致错误识别。例如,区分“红色苹果”和“绿色苹果”需要近距离观察和多视角信息。

核心思路:论文的核心思路是将实例验证过程建模为一个主动决策过程。智能体通过主动选择不同的视点来获取更多关于候选物体的信息,并根据这些信息判断该物体是否符合给定的自然语言描述。这种主动探索的方式可以帮助智能体克服单一视角的局限性,提高验证的准确性。

技术框架:整体框架包括以下几个主要模块:1) 环境模拟器:提供多视角的物体图像和导航环境。2) 感知模块:用于提取物体属性特征,可以使用预训练的多模态大语言模型(MLLM)。3) 决策模块:根据当前状态和目标描述,选择下一个最佳视点(NBV)。4) 验证模块:根据收集到的多视角信息,判断候选物体是否为目标实例。论文提供了基于MLLM的免训练pipeline和LoRA微调的端到端agent作为基线。

关键创新:论文的关键创新在于提出了主动实例验证(AIV)任务,并构建了相应的离线基准PInVerify。该基准包含复杂导航环境和细粒度的物体属性描述,能够有效评估智能体的主动探索和验证能力。此外,论文还探索了基于多模态大语言模型(MLLM)的解决方案,并验证了其在AIV任务上的有效性。

关键设计:论文中,NBV策略是关键设计之一。论文测试了三种NBV策略,但没有观察到可靠的增益。此外,论文还使用了属性分解和可见性加权的多视角跟踪器来提高验证的准确性。LoRA微调的agent使用了SFT+GSPO进行训练,达到了85.6%的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于多模态大语言模型(MLLM)的基线在PInVerify基准上表现出色,最佳基线超过了最佳embedding基线4.9个百分点。LoRA微调的智能体(SFT+GSPO)达到了85.6%的性能。GT-box消融实验显示了+3.1个百分点的检测差距,表明物体检测的准确性对AIV任务至关重要。然而,主动视点选择策略并没有带来显著的性能提升,这表明NBV策略仍有改进空间。

🎯 应用场景

该研究成果可应用于机器人辅助购物、智能家居、安防巡检等领域。例如,在机器人辅助购物中,机器人可以根据用户的详细描述,主动探索商品并验证是否符合要求。在智能家居中,机器人可以根据用户的指令,找到并确认特定的物品。在安防巡检中,机器人可以识别并验证特定目标是否存在。

📄 摘要(原文)

Embodied agents have made strong progress in navigating to target objects, but reaching the goal vicinity does not guarantee that the agent has found the correct instance: subtle attribute differences (e.g., "white floral" vs. "white striped") often require close-range, multi-view inspection. We address this gap with Active Instance Verification (AIV), a task in which an agent actively selects viewpoints around a candidate object to decide whether it matches a fine-grained natural-language description. We formalize AIV as a finite-horizon decision process and introduce PInVerify, an offline embodied benchmark for AIV: 3,000 evaluation episodes across 18 object categories, delivered as multi-view captures with a 6-sector navigation topology that exposes trap views (navigable but uninformative) and unreachable sectors. As reference baselines we build a training-free pipeline and a LoRA-fine-tuned end-to-end agent around open-source multimodal large language models (MLLMs) at on-device scale ($\leq$8B parameters), with attribute decomposition, a visibility-weighted multi-view tracker, and three next-best-view (NBV) strategies. In our evaluation across Qwen3-VL (4B/8B), SenseNova-SI-1.2-InternVL3-8B, CLIP, and SigLIP2, the best MLLM-based baseline exceeds the best embedding baseline by 4.9 pp; GT-box ablations show a +3.1 pp detection gap; and we do not observe reliable gains from active viewpoint selection within the tested NBV strategies. A LoRA-fine-tuned agent (SFT+GSPO) reaches 85.6%. PInVerify aims to support further work on active, fine-grained semantic verification in embodied AI. Code: https://github.com/Avalon-S/PInVerify.