V-ABS: Action-Observer Driven Beam Search for Dynamic Visual Reasoning

作者: Zhiwei Ning, Xuanang Gao, Jiaxi Cao, Gengming Zhang, Shengnan Ma, Wenwen Tong, Hanming Deng, Jie Yang, Wei Liu

分类: cs.CV, cs.CL

发布日期: 2026-05-11

💡 一句话要点

提出V-ABS框架：通过动作-观察者驱动的束搜索解决多模态大模型动态视觉推理中的IAO偏差问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉推理 束搜索 智能体 监督微调 动态决策 反馈闭环

📋 核心要点

现有智能体方法在多步视觉推理中忽视执行反馈，导致“想象-行动-观察者”（IAO）偏差，严重影响推理的稳定性和最优性。
提出V-ABS框架，通过思考者-行动者-观察者迭代机制，结合基于熵的自适应加权算法，动态平衡策略先验与观察反馈。
构建8万样本的SFT数据集，在八个基准测试中表现优异，Qwen3-VL-8B基线性能平均提升19.7%，验证了方法的有效性。

📝 摘要（中文）

多模态大语言模型（MLLMs）在通用感知领域取得了显著成就，但在复杂的多步视觉推理任务中仍面临挑战。尽管现有的智能体方法引入了工具使用，但往往忽视了关键的执行反馈，导致“想象-行动-观察者”（IAO）偏差，即先验想象与观察者反馈之间的错位，从而削弱了推理的稳定性和最优性。为弥补这一差距，本文提出了V-ABS，一种通过思考者-行动者-观察者迭代实现深思熟虑推理的动作-观察者驱动束搜索框架。此外，我们提出了一种基于熵的自适应加权算法，通过动态平衡策略先验与观察反馈之间的置信度来缓解IAO偏差。我们还构建了一个包含8万多条样本的大规模监督微调（SFT）数据集，引导模型为正确的行动路径分配更高的先验置信度。在八个不同基准测试上的实验表明，V-ABS达到了SOTA性能，在Qwen3-VL-8B基线上平均提升了19.7%。

🔬 方法详解

问题定义：论文旨在解决多模态大模型在复杂视觉推理任务中存在的“想象-行动-观察者”（IAO）偏差问题。现有方法在规划阶段往往过度依赖模型内部的先验想象，而忽略了实际执行后的环境反馈，导致推理路径偏离最优解。

核心思路：引入“思考者-行动者-观察者”的闭环迭代机制，将推理过程建模为动态搜索问题。通过引入外部观察反馈，并利用自适应加权机制动态调整先验与反馈的权重，实现对推理路径的实时修正与优化。

技术框架：整体架构基于束搜索（Beam Search）扩展，包含三个核心阶段：思考者（Thinker）负责生成候选动作，行动者（Actor）执行动作并获取环境反馈，观察者（Observer）评估执行结果并更新状态。通过迭代式搜索，模型能够不断修正推理轨迹。

关键创新：核心创新在于提出了动作-观察者驱动的束搜索策略，以及一种基于熵的自适应加权算法。该算法能够根据当前推理步骤的不确定性，动态平衡模型先验与观察反馈的置信度，从而有效缓解IAO偏差。

关键设计：构建了包含80k样本的大规模SFT数据集，专门用于训练模型识别并赋予正确行动路径更高的先验置信度。此外，通过引入熵度量来量化推理过程中的不确定性，作为动态加权的核心依据，确保了搜索过程的鲁棒性。

🖼️ 关键图片

📊 实验亮点

V-ABS在八个多样化基准测试中均表现出卓越性能。实验结果显示，该方法在Qwen3-VL-8B基线上实现了19.7%的平均性能提升，并在多种开源及闭源模型上展现了跨架构的泛化能力。通过大规模SFT数据集的训练，模型在复杂推理路径的选择上表现出更高的准确性和稳定性，确立了其在动态视觉推理领域的领先地位。

🎯 应用场景

该研究在复杂视觉任务中具有广泛应用潜力，如机器人自主导航、复杂场景下的多步视觉问答、自动化视觉工具调用以及需要长程规划的智能体系统。其通过引入反馈闭环，显著提升了模型在动态环境下的决策可靠性，为构建更具自主性和鲁棒性的多模态智能体提供了技术支撑。

📄 摘要（原文）

Multimodal large language models (MLLMs) have achieved remarkable success in general perception, yet complex multi-step visual reasoning remains a persistent challenge. Although recent agentic approaches incorporate tool use, they often neglect critical execution feedback. Consequently, they suffer from the imagination-action-observer (IAO) bias, a misalignment between prior imagination and observer feedback that undermines reasoning stability and optimality. To bridge this gap, we introduce V-ABS, an action-observer driven beam search framework that enables deliberate reasoning through thinker-actor-observer iterations. We also propose an entropy-based adaptive weighting algorithm to mitigate the IAO bias by dynamically balancing the confidence scores between the policy priors and the observational feedback. Moreover, we construct a large-scale supervised fine-tuning (SFT) dataset comprising over 80k samples to guide the model to assign higher prior confidence to correct action paths. Extensive experiments across eight diverse benchmarks show that V-ABS achieves state-of-the-art performance, delivering an average improvement of 19.7% on the Qwen3-VL-8B baseline and consistent gains across both open-source and proprietary models.

V-ABS: Action-Observer Driven Beam Search for Dynamic Visual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理