Do Composed Image Retrieval Benchmarks Require Multimodal Composition?

作者: Matteo Attimonelli, Alessandro De Bellis, Aryo Pradipta Gema, Rohit Saxena, Monica Sekoyan, Wai-Chung Kwan, Claudio Pomo, Alessandro Suglia, Dietmar Jannach, Tommaso Di Noia, Pasquale Minervini

分类: cs.CV, cs.CL

发布日期: 2026-05-14

💡 一句话要点

揭示组合图像检索基准测试中的单模态捷径问题，并提出更严格的评估方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合图像检索 多模态学习 基准测试 单模态捷径 人工验证

📋 核心要点

现有组合图像检索(CIR)基准测试假设模型需要多模态组合才能取得良好性能，但该假设缺乏充分验证。
论文通过分析发现，现有CIR基准测试中存在大量单模态捷径，模型可以通过仅依赖图像或文本信息来解决许多查询。
通过人工验证筛选后的数据集进行重新评估，结果表明模型在真正需要多模态组合的查询上表现下降，揭示了现有基准测试的局限性。

📝 摘要（中文）

组合图像检索(CIR)是一项多模态检索任务，其查询由参考图像和文本修改组成，目标是检索同时满足两者的目标图像。原则上，CIR基准测试的良好性能被认为需要多模态组合，即结合来自参考图像和文本修改的互补信息。然而，本文表明这种假设并非总是成立。在四个广泛使用的CIR基准测试和十一个通用多模态嵌入模型上，很大一部分查询可以使用单一模态解决（从32.2%到83.6%），揭示了普遍存在的单模态捷径。因此，较高的CIR性能可能源于单模态信号，而不是真正的多模态组合。为了更好地理解这个问题，我们进行了两阶段的审计。首先，通过跨模型分析识别捷径可解的查询。其次，我们对4,741个无捷径查询进行人工验证，其中只有1,689个格式良好，常见问题包括模糊的编辑和不匹配的目标。在此验证子集上重新评估模型会揭示出质的不同行为：查询不再能用单一模态解决，成功的检索需要结合两种输入。虽然准确率下降，但对多模态信息的依赖性增加。总的来说，当前的CIR基准测试混淆了捷径可解、有噪声和真正组合的查询，导致对模型在多模态组合方面的能力的过度估计。

🔬 方法详解

问题定义：组合图像检索(CIR)旨在根据参考图像和文本描述的修改来检索目标图像。现有方法通常假设在CIR基准测试上取得良好性能需要模型具备强大的多模态组合能力。然而，现有的CIR基准测试可能包含大量仅通过单模态信息即可解决的“捷径”查询，导致对模型多模态组合能力的过高评估。

核心思路：论文的核心思路是识别并排除CIR基准测试中的单模态捷径查询，从而更准确地评估模型的多模态组合能力。通过跨模型分析和人工验证，筛选出真正需要多模态信息的查询，并在此基础上重新评估现有模型。

技术框架：论文采用两阶段审计框架： 1. 捷径查询识别：通过分析多个多模态模型在同一查询上的表现差异，识别出那些可以仅通过单模态信息解决的查询。 2. 人工验证：对剩余的“无捷径”查询进行人工验证，排除格式错误、描述模糊或目标不匹配的查询，从而获得高质量的、真正需要多模态组合的查询子集。

关键创新：论文的关键创新在于揭示了现有CIR基准测试中普遍存在的单模态捷径问题，并提出了一种系统性的方法来识别和排除这些捷径。这使得对模型多模态组合能力的评估更加准确和可靠。

关键设计： 1. 跨模型分析：利用多个预训练的多模态模型，通过比较它们在同一查询上的预测结果，来判断该查询是否可以通过单模态信息解决。如果多个模型仅依赖图像或文本就能正确检索，则认为该查询存在单模态捷径。 2. 人工验证标准：设计了详细的人工验证标准，用于判断查询的格式是否正确、描述是否清晰、目标图像是否与参考图像和文本描述一致。只有满足所有标准的查询才被认为是高质量的、真正需要多模态组合的查询。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在原始CIR基准测试中，高达83.6%的查询可以通过单模态信息解决。在经过人工验证的无捷径查询子集上重新评估模型后，准确率显著下降，但模型对多模态信息的依赖性增加，表明模型在真正需要多模态组合的查询上表现不佳。

🎯 应用场景

该研究成果可应用于改进多模态检索系统的评估方法，推动更有效的多模态模型设计。通过构建更可靠的基准测试，可以促进在图像编辑、视觉问答、跨模态信息检索等领域的实际应用。

📄 摘要（原文）

Composed Image Retrieval (CIR) is a multimodal retrieval task where a query consists of a reference image and a textual modification, and the goal is to retrieve a target image satisfying both. In principle, strong performance on CIR benchmarks is assumed to require multimodal composition, i.e., combining complementary information from reference image and textual modification. In this work, we show that this assumption does not always hold. Across four widely used CIR benchmarks and eleven Generalist Multimodal Embedding models, a large fraction of queries can be solved using a single modality (from 32.2% to 83.6%), revealing pervasive unimodal shortcuts. Thus, high CIR performance can arise from unimodal signals rather than true multimodal composition. To better understand this issue, we perform a two-stage audit. First, we identify shortcut-solvable queries through cross-model analysis. Second, we conduct human validation on 4,741 shortcut-free queries, of which only 1,689 are well-formed, with common issues including ambiguous edits and mismatched targets. Re-evaluating models on this validated subset reveals qualitatively different behaviour: queries can no longer be solved with a single modality, and successful retrieval requires combining both inputs. While accuracy decreases, reliance on multimodal information increases. Overall, current CIR benchmarks conflate shortcut-solvable, noisy, and genuinely compositional queries, leading to an overestimation of model capability in multimodal composition.

Do Composed Image Retrieval Benchmarks Require Multimodal Composition?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理