V-ABS: Action-Observer Driven Beam Search for Dynamic Visual Reasoning

📄 arXiv: 2605.10172v1 📥 PDF

作者: Zhiwei Ning, Xuanang Gao, Jiaxi Cao, Gengming Zhang, Shengnan Ma, Wenwen Tong, Hanming Deng, Jie Yang, Wei Liu

分类: cs.CV, cs.CL

发布日期: 2026-05-11


💡 一句话要点

提出V-ABS框架:通过动作-观察者驱动的束搜索解决多模态大模型动态视觉推理中的IAO偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉推理 束搜索 智能体 监督微调 动态决策 反馈闭环

📋 核心要点

  1. 现有智能体方法在多步视觉推理中忽视执行反馈,导致“想象-行动-观察者”(IAO)偏差,严重影响推理的稳定性和最优性。
  2. 提出V-ABS框架,通过思考者-行动者-观察者迭代机制,结合基于熵的自适应加权算法,动态平衡策略先验与观察反馈。
  3. 构建8万样本的SFT数据集,在八个基准测试中表现优异,Qwen3-VL-8B基线性能平均提升19.7%,验证了方法的有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)在通用感知领域取得了显著成就,但在复杂的多步视觉推理任务中仍面临挑战。尽管现有的智能体方法引入了工具使用,但往往忽视了关键的执行反馈,导致“想象-行动-观察者”(IAO)偏差,即先验想象与观察者反馈之间的错位,从而削弱了推理的稳定性和最优性。为弥补这一差距,本文提出了V-ABS,一种通过思考者-行动者-观察者迭代实现深思熟虑推理的动作-观察者驱动束搜索框架。此外,我们提出了一种基于熵的自适应加权算法,通过动态平衡策略先验与观察反馈之间的置信度来缓解IAO偏差。我们还构建了一个包含8万多条样本的大规模监督微调(SFT)数据集,引导模型为正确的行动路径分配更高的先验置信度。在八个不同基准测试上的实验表明,V-ABS达到了SOTA性能,在Qwen3-VL-8B基线上平均提升了19.7%。

🔬 方法详解

问题定义:论文旨在解决多模态大模型在复杂视觉推理任务中存在的“想象-行动-观察者”(IAO)偏差问题。现有方法在规划阶段往往过度依赖模型内部的先验想象,而忽略了实际执行后的环境反馈,导致推理路径偏离最优解。

核心思路:引入“思考者-行动者-观察者”的闭环迭代机制,将推理过程建模为动态搜索问题。通过引入外部观察反馈,并利用自适应加权机制动态调整先验与反馈的权重,实现对推理路径的实时修正与优化。

技术框架:整体架构基于束搜索(Beam Search)扩展,包含三个核心阶段:思考者(Thinker)负责生成候选动作,行动者(Actor)执行动作并获取环境反馈,观察者(Observer)评估执行结果并更新状态。通过迭代式搜索,模型能够不断修正推理轨迹。

关键创新:核心创新在于提出了动作-观察者驱动的束搜索策略,以及一种基于熵的自适应加权算法。该算法能够根据当前推理步骤的不确定性,动态平衡模型先验与观察反馈的置信度,从而有效缓解IAO偏差。

关键设计:构建了包含80k样本的大规模SFT数据集,专门用于训练模型识别并赋予正确行动路径更高的先验置信度。此外,通过引入熵度量来量化推理过程中的不确定性,作为动态加权的核心依据,确保了搜索过程的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

V-ABS在八个多样化基准测试中均表现出卓越性能。实验结果显示,该方法在Qwen3-VL-8B基线上实现了19.7%的平均性能提升,并在多种开源及闭源模型上展现了跨架构的泛化能力。通过大规模SFT数据集的训练,模型在复杂推理路径的选择上表现出更高的准确性和稳定性,确立了其在动态视觉推理领域的领先地位。

🎯 应用场景

该研究在复杂视觉任务中具有广泛应用潜力,如机器人自主导航、复杂场景下的多步视觉问答、自动化视觉工具调用以及需要长程规划的智能体系统。其通过引入反馈闭环,显著提升了模型在动态环境下的决策可靠性,为构建更具自主性和鲁棒性的多模态智能体提供了技术支撑。

📄 摘要(原文)

Multimodal large language models (MLLMs) have achieved remarkable success in general perception, yet complex multi-step visual reasoning remains a persistent challenge. Although recent agentic approaches incorporate tool use, they often neglect critical execution feedback. Consequently, they suffer from the imagination-action-observer (IAO) bias, a misalignment between prior imagination and observer feedback that undermines reasoning stability and optimality. To bridge this gap, we introduce V-ABS, an action-observer driven beam search framework that enables deliberate reasoning through thinker-actor-observer iterations. We also propose an entropy-based adaptive weighting algorithm to mitigate the IAO bias by dynamically balancing the confidence scores between the policy priors and the observational feedback. Moreover, we construct a large-scale supervised fine-tuning (SFT) dataset comprising over 80k samples to guide the model to assign higher prior confidence to correct action paths. Extensive experiments across eight diverse benchmarks show that V-ABS achieves state-of-the-art performance, delivering an average improvement of 19.7% on the Qwen3-VL-8B baseline and consistent gains across both open-source and proprietary models.