Good Scores, Bad Data: A Metric for Multimodal Coherence

📄 arXiv: 2603.25924v1 📥 PDF

作者: Vasundra Srinivasan

分类: cs.CV, cs.AI

发布日期: 2026-03-26

备注: 9 pages, 6 figures, NeurIPS 2024 format


💡 一句话要点

提出多模态一致性评分以解决数据不一致问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态一致性 视觉问答 数据融合 评估指标 人工智能

📋 核心要点

  1. 现有多模态AI系统评估主要依赖下游任务准确性,忽视了数据之间的一致性问题。
  2. 本文提出多模态一致性评分(MCS),通过四个维度评估数据融合质量,独立于下游模型。
  3. 实验结果表明,MCS在三种融合架构中对数据质量的敏感性高于传统任务准确性,且无需重新训练。

📝 摘要(中文)

多模态人工智能系统通常通过下游任务的准确性进行评估,但高准确性并不意味着底层数据是一致的。模型在视觉问答(VQA)中表现良好,但其输入可能相互矛盾。本文提出了多模态一致性评分(MCS),该指标独立于任何下游模型评估融合质量。MCS将一致性分解为身份、一致性、语义和决策四个维度,权重通过Nelder-Mead优化学习。我们在1000张视觉基因组图像上使用DETR、CLIP和ViLT进行评估,并在150张COCO图像上进行验证,无需重新训练。在三种融合架构中,MCS比单纯的任务准确性更敏感(Spearman rho = 0.093 vs. 0.071)。扰动实验确认每个维度独立响应其失效模式,且没有交叉干扰。MCS轻量级,无需人工标注,能够指明问题所在。

🔬 方法详解

问题定义:本文旨在解决多模态AI系统中数据不一致性的问题。现有方法往往仅依赖下游任务的准确性,无法有效评估输入数据的融合质量,导致高准确性可能掩盖潜在的矛盾数据。

核心思路:提出多模态一致性评分(MCS),通过将一致性分解为身份、一致性、语义和决策四个维度,独立评估数据融合的质量。MCS的权重通过Nelder-Mead优化算法进行学习,以确保各维度的有效性。

技术框架:MCS的整体架构包括数据输入、维度分解、权重学习和评分输出四个主要模块。首先对输入数据进行分析,然后根据四个维度进行评分,最后输出综合一致性评分。

关键创新:MCS的最大创新在于其独立于下游模型的评估方式,能够明确指出数据融合中的具体问题,而不仅仅是提供一个整体的准确性指标。

关键设计:MCS的设计中,采用了Nelder-Mead优化算法来学习各维度的权重,确保评分的准确性和可靠性。此外,MCS在实验中表现出对每个维度失效模式的独立响应,避免了交叉干扰。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,MCS在三种不同的融合架构中表现出更高的敏感性,Spearman相关系数为0.093,相较于传统任务准确性0.071有显著提升。此外,MCS能够独立识别每个维度的失效模式,提供更深入的分析。

🎯 应用场景

该研究的潜在应用领域包括视觉问答、图像描述生成和多模态数据分析等。通过提供更准确的数据融合质量评估,MCS可以帮助研究人员和开发者优化多模态AI系统,提高其在实际应用中的表现和可靠性。未来,MCS有望成为多模态系统评估的标准工具,推动相关领域的发展。

📄 摘要(原文)

Multimodal AI systems are evaluated by downstream task accuracy, but high accuracy does not mean the underlying data is coherent. A model can score well on Visual Question Answering (VQA) while its inputs contradict each other. We introduce the Multimodal Coherence Score (MCS), a metric that evaluates fusion quality independent of any downstream model. MCS decomposes coherence into four dimensions, identity, spatial, semantic, and decision, with weights learned via Nelder-Mead optimization. We evaluate on 1,000 Visual Genome images using DETR, CLIP, and ViLT, and validate on 150 COCO images with no retraining. Across three fusion architectures, MCS discriminates quality with higher sensitivity than task accuracy alone (Spearman rho = 0.093 vs. 0.071). Perturbation experiments confirm each dimension responds independently to its failure mode with zero cross-talk. MCS is lightweight, requires no human annotation, and tells you not just that something broke, but what broke.