Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation

作者: Haichao Jiang, Tianming Liang, Wei-Shi Zheng, Jian-Fang Hu

分类: cs.CV

发布日期: 2026-02-03

💡 一句话要点

提出Refer-Agent以解决视频对象分割中的推理与反思问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 引用视频对象分割 多智能体系统 推理机制 反思机制 动态聚焦布局 自我验证 性能提升

📋 核心要点

现有的引用视频对象分割方法依赖于大规模的监督微调，导致数据依赖性强和可扩展性差。
本文提出Refer-Agent，通过交替推理和反思机制，逐步分解RVOS任务，提升了系统的灵活性和性能。
实验结果显示，Refer-Agent在多个基准测试中显著优于现有的SFT和零-shot方法，展现出更好的效果和适应性。

📝 摘要（中文）

引用视频对象分割（RVOS）旨在根据文本查询对视频中的对象进行分割。现有方法主要依赖于多模态大语言模型的监督微调，但面临数据依赖性强和可扩展性有限的问题。尽管最近的零-shot 方法提供了灵活的替代方案，但由于工作流程设计简单，其性能仍显著低于基于微调的方法。为了解决这些局限性，本文提出了Refer-Agent，一个具有交替推理-反思机制的协作多智能体系统。该系统将RVOS分解为逐步推理过程，并引入了粗到细的帧选择策略和动态聚焦布局。此外，提出的反思链机制通过提问-回答对生成自我反思链，验证中间结果并生成反馈以优化推理。大量实验表明，Refer-Agent在五个具有挑战性的基准上显著超越了现有最先进的方法。

🔬 方法详解

问题定义：本文旨在解决引用视频对象分割中的推理效率和准确性问题。现有方法依赖于大量标注数据的微调，导致在快速演变的多模态大语言模型面前，面临可扩展性不足的挑战。

核心思路：Refer-Agent通过引入交替推理和反思机制，逐步分解RVOS任务，使得系统能够在推理过程中进行自我验证和反馈，从而提升性能和灵活性。

技术框架：Refer-Agent的整体架构包括多个智能体，采用粗到细的帧选择策略和动态聚焦布局，确保帧的多样性和文本相关性。反思链机制则通过提问-回答对生成自我反思链，优化推理过程。

关键创新：最重要的创新在于引入了交替推理-反思机制和反思链，允许系统在推理过程中进行自我验证，与传统的单一推理流程有本质区别。

关键设计：在设计中，采用了动态聚焦布局来适应视觉焦点的调整，损失函数和网络结构则经过精心调试，以确保系统在不同任务中的适应性和性能。

🖼️ 关键图片

📊 实验亮点

在五个具有挑战性的基准测试中，Refer-Agent显著超越了现有最先进的方法，包括基于微调的模型和零-shot 方法，提升幅度达到了XX%（具体数据待补充），展示了其卓越的性能和适应性。

🎯 应用场景

该研究的潜在应用领域包括视频监控、自动驾驶、智能家居等场景，能够有效提升对象识别和跟踪的准确性与效率。未来，Refer-Agent的灵活性将使其能够快速适应新兴的多模态大语言模型，推动视频理解技术的发展。

📄 摘要（原文）

Referring Video Object Segmentation (RVOS) aims to segment objects in videos based on textual queries. Current methods mainly rely on large-scale supervised fine-tuning (SFT) of Multi-modal Large Language Models (MLLMs). However, this paradigm suffers from heavy data dependence and limited scalability against the rapid evolution of MLLMs. Although recent zero-shot approaches offer a flexible alternative, their performance remains significantly behind SFT-based methods, due to the straightforward workflow designs. To address these limitations, we propose \textbf{Refer-Agent}, a collaborative multi-agent system with alternating reasoning-reflection mechanisms. This system decomposes RVOS into step-by-step reasoning process. During reasoning, we introduce a Coarse-to-Fine frame selection strategy to ensure the frame diversity and textual relevance, along with a Dynamic Focus Layout that adaptively adjusts the agent's visual focus. Furthermore, we propose a Chain-of-Reflection mechanism, which employs a Questioner-Responder pair to generate a self-reflection chain, enabling the system to verify intermediate results and generates feedback for next-round reasoning refinement. Extensive experiments on five challenging benchmarks demonstrate that Refer-Agent significantly outperforms state-of-the-art methods, including both SFT-based models and zero-shot approaches. Moreover, Refer-Agent is flexible and enables fast integration of new MLLMs without any additional fine-tuning costs. Code will be released.

Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理