OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval

作者: Teng Wang, Rong Shan, Jianghao Lin, Junjie Wu, Tianyi Xu, Jianping Zhang, Wenteng Chen, Changwang Zhang, Zhaoxiang Wang, Weinan Zhang, Jun Wang

分类: cs.AI

发布日期: 2026-02-09

💡 一句话要点

提出OSCAR，通过优化引导的Agentic规划解决组合图像检索问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 组合图像检索 Agentic规划 轨迹优化 混合整数规划 视觉语言模型 离线-在线学习 多模态融合

📋 核心要点

现有组合图像检索方法或受限于单模型，或依赖次优的试错探索，难以有效处理复杂的视觉和文本约束。
OSCAR将Agentic CIR重构为轨迹优化问题，通过离线计算最优轨迹并在线引导VLM规划器，实现更高效的检索。
实验表明，OSCAR在多个基准测试中超越现有方法，且仅需少量训练数据即可达到优异性能，泛化能力强。

📝 摘要（中文）

组合图像检索(CIR)需要在异构的视觉和文本约束下进行复杂的推理。现有方法主要分为两种范式：统一嵌入检索，受限于单模型局限性；启发式Agentic检索，受限于次优的试错编排。为此，我们提出了OSCAR，一个用于组合图像检索的优化引导的Agentic规划框架。我们首次将Agentic CIR从启发式搜索过程重新定义为一个有原则的轨迹优化问题。OSCAR没有依赖启发式试错探索，而是采用了一种新颖的离线-在线范式。在离线阶段，我们将CIR建模为原子检索选择和组合的两阶段混合整数规划问题，通过严格的布尔集合运算，从数学上推导出最大化训练样本真实覆盖率的最优轨迹。这些轨迹存储在一个黄金库中，作为在线推理时VLM规划器的上下文演示。在三个公共基准和一个私有工业基准上的大量实验表明，OSCAR始终优于SOTA基线。值得注意的是，它仅使用10%的训练数据就实现了卓越的性能，证明了规划逻辑的强大泛化能力，而不是数据集特定的记忆。

🔬 方法详解

问题定义：组合图像检索(CIR)旨在根据给定的文本查询，在图像库中检索出符合描述的图像。现有方法，如统一嵌入检索，难以有效融合异构的视觉和文本信息，且易受限于单模型的能力。而启发式Agentic检索则依赖于试错探索，效率低下，难以保证检索结果的最优性。因此，如何有效地利用视觉和文本信息，并避免盲目的搜索，是CIR面临的关键挑战。

核心思路：OSCAR的核心思路是将Agentic CIR过程建模为一个轨迹优化问题。通过离线计算最优的检索轨迹，并将其作为在线推理时的指导，从而避免了启发式搜索的盲目性，提高了检索效率和准确性。这种优化引导的策略能够更好地利用视觉和文本信息，实现更有效的组合图像检索。

技术框架：OSCAR框架主要分为离线和在线两个阶段。在离线阶段，首先将CIR问题建模为两阶段混合整数规划问题，包括原子检索选择和组合。然后，通过求解该优化问题，得到最大化训练样本真实覆盖率的最优轨迹，并将其存储在黄金库中。在线阶段，VLM规划器根据黄金库中的轨迹，进行上下文学习，从而引导检索过程。

关键创新：OSCAR最重要的创新在于将Agentic CIR从启发式搜索过程重新定义为一个有原则的轨迹优化问题。通过离线计算最优轨迹，并将其作为在线推理的指导，避免了启发式搜索的盲目性，提高了检索效率和准确性。此外，离线-在线范式也使得模型能够更好地泛化到新的数据集上。

关键设计：在离线阶段，OSCAR使用混合整数规划来建模CIR问题，其中布尔变量用于表示原子检索的选择，整数变量用于表示检索的顺序。目标函数是最大化训练样本的真实覆盖率。在线阶段，VLM规划器使用Transformer架构，以黄金库中的轨迹作为输入，预测下一步的检索动作。损失函数采用交叉熵损失，用于优化VLM规划器的参数。

🖼️ 关键图片

📊 实验亮点

OSCAR在三个公共基准测试和一个私有工业基准测试中均取得了优于SOTA基线的性能。值得注意的是，OSCAR仅使用10%的训练数据就实现了卓越的性能，这表明OSCAR具有很强的泛化能力，能够有效地学习规划逻辑，而不是简单地记忆数据集。

🎯 应用场景

OSCAR在电商、搜索引擎、智能相册等领域具有广泛的应用前景。例如，用户可以通过组合文本描述来精确搜索商品或图片，提高搜索效率和用户体验。此外，该方法还可以应用于智能客服，根据用户的问题描述，检索出相关的知识库条目或解决方案。未来，OSCAR有望进一步扩展到视频检索、跨模态对话等领域。

📄 摘要（原文）

Composed image retrieval (CIR) requires complex reasoning over heterogeneous visual and textual constraints. Existing approaches largely fall into two paradigms: unified embedding retrieval, which suffers from single-model myopia, and heuristic agentic retrieval, which is limited by suboptimal, trial-and-error orchestration. To this end, we propose OSCAR, an optimization-steered agentic planning framework for composed image retrieval. We are the first to reformulate agentic CIR from a heuristic search process into a principled trajectory optimization problem. Instead of relying on heuristic trial-and-error exploration, OSCAR employs a novel offline-online paradigm. In the offline phase, we model CIR via atomic retrieval selection and composition as a two-stage mixed-integer programming problem, mathematically deriving optimal trajectories that maximize ground-truth coverage for training samples via rigorous boolean set operations. These trajectories are then stored in a golden library to serve as in-context demonstrations for online steering of VLM planner at online inference time. Extensive experiments on three public benchmarks and a private industrial benchmark show that OSCAR consistently outperforms SOTA baselines. Notably, it achieves superior performance using only 10% of training data, demonstrating strong generalization of planning logic rather than dataset-specific memorization.

OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理