VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension

作者: Hyejin Park, Junhyuk Kwon, Suha Kwak, Jungseul Ok

分类: cs.AI, cs.CV

发布日期: 2026-01-19

💡 一句话要点

提出VIRO框架，通过验证机制增强神经符号推理在指代表达理解中的鲁棒性与效率。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指代表达理解 神经符号推理 验证机制 鲁棒性 级联错误

📋 核心要点

现有神经符号REC方法易受级联错误影响，中间推理步骤的错误会累积，导致高置信度的错误结果，尤其是在无目标情况下。
VIRO框架的核心思想是在每个推理算子中加入轻量级验证器，对算子的输出进行验证，从而及时发现并纠正错误。
实验表明，VIRO在平衡准确率上达到了61.1%的最先进水平，同时具有高吞吐量、低失败率和良好的可扩展性。

📝 摘要（中文）

本文提出了一种名为Verification-Integrated Reasoning Operators (VIRO) 的神经符号框架，用于解决指代表达理解 (REC) 任务。该框架旨在解决现有神经符号方法中存在的级联错误问题，这些方法依赖于大型语言模型 (LLM) 和视觉语言模型 (VLM) 进行组合推理，但假设中间推理步骤是准确的。VIRO 通过在推理步骤中嵌入轻量级的算子级验证器来解决这个问题。每个算子执行并验证其输出，例如对象是否存在或空间关系是否成立。当验证条件不满足时，系统能够鲁棒地处理无目标的情况。实验结果表明，该框架达到了最先进的性能，在目标存在和无目标设置下实现了 61.1% 的平衡准确率，并展示了对真实世界第一视角数据的泛化能力。此外，VIRO 在吞吐量方面表现出卓越的计算效率，具有低于 0.3% 的程序失败率，并通过将程序生成与执行分离来实现可扩展性。

🔬 方法详解

问题定义：指代表达理解 (REC) 旨在定位图像中与自然语言查询相对应的区域。现有的神经符号方法虽然具有可解释性和零样本泛化能力，但容易受到级联错误的影响，即中间推理步骤的错误会沿着推理链传播，导致最终结果的错误。尤其是在图像中不存在目标对象时，这种错误会更加明显。

核心思路：VIRO的核心思路是在神经符号推理的每个算子中加入验证机制。通过验证算子的输出，例如对象是否存在或关系是否成立，可以及时发现并纠正错误，从而提高整体推理的鲁棒性。这种设计使得系统能够更好地处理无目标的情况，避免产生高置信度的错误结果。

技术框架：VIRO框架包含程序生成和程序执行两个主要阶段。首先，利用大型语言模型 (LLM) 将自然语言查询分解为结构化的程序。然后，程序执行阶段的每个算子在执行后都会进行验证。如果验证失败，则该算子会返回错误信息，从而避免错误沿着推理链传播。整体架构将程序生成与执行解耦，提高了系统的可扩展性。

关键创新：VIRO最重要的创新点在于引入了算子级别的验证机制。与传统的神经符号方法不同，VIRO不仅执行推理步骤，还验证推理结果的正确性。这种验证机制能够有效地减少级联错误，提高系统在复杂场景下的鲁棒性。

关键设计：VIRO中的验证器是轻量级的，以保证计算效率。验证器的具体实现取决于算子的类型。例如，对于检测对象存在的算子，验证器可以是一个简单的分类器，用于判断检测到的对象是否真实存在。对于判断空间关系的算子，验证器可以是一个几何推理模块，用于验证关系是否符合逻辑。损失函数的设计旨在平衡推理的准确性和验证的效率。

🖼️ 关键图片

📊 实验亮点

VIRO在指代表达理解任务上取得了显著的性能提升，在目标存在和无目标设置下实现了 61.1% 的平衡准确率，超越了现有最先进的方法。此外，VIRO还展示了对真实世界第一视角数据的泛化能力。实验结果还表明，VIRO具有高吞吐量和低失败率，程序失败率低于 0.3%，验证了其高效性和可靠性。

🎯 应用场景

VIRO框架可应用于机器人导航、智能监控、图像搜索等领域。例如，在机器人导航中，机器人可以通过理解自然语言指令来定位目标物体，并利用VIRO的验证机制来避免因感知错误而导致的导航失败。该研究的实际价值在于提高了神经符号推理的可靠性和鲁棒性，未来有望推动人机交互和智能系统的发展。

📄 摘要（原文）

Referring Expression Comprehension (REC) aims to localize the image region corresponding to a natural-language query. Recent neuro-symbolic REC approaches leverage large language models (LLMs) and vision-language models (VLMs) to perform compositional reasoning, decomposing queries 4 structured programs and executing them step-by-step. While such approaches achieve interpretable reasoning and strong zero-shot generalization, they assume that intermediate reasoning steps are accurate. However, this assumption causes cascading errors: false detections and invalid relations propagate through the reasoning chain, yielding high-confidence false positives even when no target is present in the image. To address this limitation, we introduce Verification-Integrated Reasoning Operators (VIRO), a neuro-symbolic framework that embeds lightweight operator-level verifiers within reasoning steps. Each operator executes and validates its output, such as object existence or spatial relationship, thereby allowing the system to robustly handle no-target cases when verification conditions are not met. Our framework achieves state-of-the-art performance, reaching 61.1% balanced accuracy across target-present and no-target settings, and demonstrates generalization to real-world egocentric data. Furthermore, VIRO shows superior computational efficiency in terms of throughput, high reliability with a program failure rate of less than 0.3%, and scalability through decoupled program generation from execution.

VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理