Towards Annotation-Free Validation of MLLMs: A Vision-Language Logical Consistency Metric

📄 arXiv: 2605.06201v1 📥 PDF

作者: Ying Gu, Mei Chee Leong, Hui Li Tan, Shangbo Mao, Liyuan Li, Nancy Chen

分类: cs.AI

发布日期: 2026-05-07


💡 一句话要点

提出视觉-语言逻辑一致性度量(VL-LCM),实现无需标注的MLLM评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 逻辑一致性 模型评估 无标注验证 因果推理 视觉问答

📋 核心要点

  1. 现有评估过度依赖准确率,容易奖励模型的盲目猜测,且在缺乏真值标注的新兴任务中无法有效验证模型性能。
  2. 提出VL-LCM框架,基于逻辑学中的充分与必要因果关系,在无需人工标注的情况下量化评估多模态模型的逻辑一致性。
  3. 在MMMU和NaturalBench等基准上的实验表明,当前模型逻辑一致性远落后于准确率,验证了该指标作为可靠性评估工具的有效性。

📝 摘要(中文)

当前多模态大模型(MLLM)的评估主要依赖准确率,这可能掩盖模型的盲目猜测,且在缺乏真值(ground-truth)标注的新任务中难以应用。基于逻辑学基本原理,本文提出了一种全新的视觉-语言逻辑一致性度量框架(VL-LCM),旨在评估模型在充分和必要因果关系上的逻辑一致性。该方法无需真值标注,即可在传统的MC-VQA测试及NaturalBench挑战中进行评估。通过对4个前沿系列的11个开源MLLM进行系统性实验,研究发现尽管模型在准确率上进步显著,但逻辑一致性仍存在明显滞后。实验证明了VL-LCM与基于真值的指标具有高度相关性,且在模型选择、验证及无标注任务的可靠性评估中具有广泛应用价值。

🔬 方法详解

问题定义:现有MLLM评估主要依赖准确率(Accuracy),这导致模型可能通过统计相关性而非逻辑推理得出正确答案。此外,在缺乏真值标注的真实场景或新任务中,传统的评估范式完全失效,无法衡量模型的逻辑可靠性。

核心思路:引入逻辑学中的充分条件(Sufficient)与必要条件(Necessary)因果关系,通过考察模型在不同逻辑变体下的回答一致性,构建无需真值的评估指标。如果模型具备真正的逻辑推理能力,其对同一逻辑结构的回答应保持一致。

技术框架:该框架首先对输入问题进行逻辑重构,生成包含因果关系变体的测试集;随后,利用模型对这些变体进行推理,计算模型输出在逻辑约束下的满足程度;最后,通过聚合这些逻辑一致性得分,得出最终的VL-LCM指标。

关键创新:核心创新在于将“逻辑一致性”作为评估模型推理质量的代理指标(Proxy Metric),摆脱了对Ground-Truth的依赖,实现了对模型黑盒推理过程的逻辑审计。

关键设计:设计了针对MC-VQA的逻辑一致性计算公式,通过对比模型在原始问题与逻辑变体问题上的响应分布,量化逻辑偏离度。该方法无需训练,直接作用于模型推理输出,具有极高的通用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究评估了11个主流开源MLLM,发现逻辑一致性与准确率之间存在显著鸿沟。实验结果显示,VL-LCM与基于真值的评估指标具有强相关性,且在不同模型架构下表现出高度的鲁棒性。该指标不仅能揭示模型的逻辑缺陷,还能有效预测模型在未知任务上的可靠性,为模型验证提供了无需标注的新范式。

🎯 应用场景

该方法适用于MLLM的自动化选型与性能基准测试,特别是在缺乏人工标注的工业场景或复杂推理任务中。它能有效识别模型是否存在“幻觉”或逻辑漏洞,为医疗、法律等对逻辑严密性要求极高的领域提供可靠的评估工具,助力构建更可信的AI系统。

📄 摘要(原文)

Dominant accuracy evaluation might reward unwarranted guessing of Large Language Models, and it might not be applicable to novel tasks for model validation without ground-truth (gt) annotation. Based on basic logic principle, we propose a novel framework to evaluate the vision-language logical consistency of MLLMs on both sufficient and necessary cause-effect relations. We define Vision-Language Logical Consistency Metric (VL-LCM) on traditional MC-VQA tests, and recent NaturalBench tests without the need for gt annotation. Through systematic experiments on representative VL benchmark MMMU and recent VL challenges like NaturalBench, we evaluated 11 recent open-source MLLMs from 4 frontier families. Our findings reveal that, despite significant progress of recent MLLMs on accuracy, logical consistency lags behind significantly. Extensive evaluations on the correlations of VL-LCM with metrics on gt, the reliability of LCM, and the relation of VL-LCM with response distribution justify the validity and applicability of VL-LCM even without gt annotation. Our findings suggest that, beyond accuracy, logical consistency could be employed for both accuracy and reliability. VL-LCM can also be employed for MLLM selection, validation, and reliable answer justification in novel tasks without gt annotation.