MLLM-based Textual Explanations for Face Comparison

📄 arXiv: 2603.16629v1 📥 PDF

作者: Redwan Sony, Anil K Jain, Ross Arun

分类: cs.CV, cs.AI

发布日期: 2026-03-17

备注: Accepted at 14th International Workshop on Biometrics and Forensics (IWBF)

🔗 代码/项目: GITHUB


💡 一句话要点

分析MLLM在人脸比对中生成解释的可靠性,揭示其幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 人脸识别 可解释性 似然比 幻觉问题

📋 核心要点

  1. 现有方法缺乏对MLLM在人脸识别中生成解释的可靠性评估,尤其是在复杂场景下。
  2. 本文通过分析MLLM生成的解释,并引入似然比框架评估解释的证据强度,揭示其局限性。
  3. 实验表明,MLLM即使做出正确决策,其解释也常依赖于虚构属性,且引入传统信息不能保证解释的可靠性。

📝 摘要(中文)

本文系统性地分析了多模态大型语言模型(MLLM)在无约束人脸验证任务中生成自然语言解释的可靠性,特别关注了在具有挑战性的IJB-S数据集上极端姿态变化和监控图像的影响。研究结果表明,即使MLLM能够做出正确的人脸验证决策,其生成的解释也经常依赖于无法验证或虚构的面部属性,缺乏视觉证据支持。此外,本文还研究了将传统人脸识别系统的信息(如分数和决策)与输入图像相结合的效果。虽然这些信息可以提高分类验证性能,但并不能始终如一地产生可信的解释。为了评估解释的质量,本文引入了一种基于似然比的框架来衡量文本解释的证据强度。研究结果突出了当前MLLM在可解释人脸识别方面的根本局限性,并强调了在生物识别应用中对可靠和值得信赖的解释进行原则性评估的必要性。

🔬 方法详解

问题定义:论文旨在解决人脸比对任务中,利用多模态大语言模型(MLLM)生成自然语言解释时,解释的可靠性和可信度问题。现有方法缺乏对MLLM生成解释的系统性评估,尤其是在无约束条件下,MLLM容易产生幻觉,即生成与图像内容不符的解释。

核心思路:论文的核心思路是通过分析MLLM生成的解释,并结合传统人脸识别系统的输出,评估解释的可靠性。同时,引入基于似然比的框架,量化文本解释的证据强度,从而更全面地评估MLLM在可解释人脸识别中的表现。

技术框架:论文的技术框架主要包括以下几个阶段:1) 使用MLLM对人脸图像进行比对,并生成自然语言解释;2) 将传统人脸识别系统的分数和决策与图像一起输入MLLM,观察其对解释的影响;3) 利用基于似然比的框架,评估MLLM生成的解释的证据强度;4) 在IJB-S数据集上进行实验,分析MLLM在不同场景下的表现。

关键创新:论文的关键创新在于:1) 系统性地分析了MLLM在无约束人脸验证任务中生成解释的可靠性,揭示了其幻觉问题;2) 引入了一种基于似然比的框架,用于量化文本解释的证据强度,从而更全面地评估MLLM的解释能力。

关键设计:论文的关键设计包括:1) 使用IJB-S数据集,该数据集包含具有挑战性的姿态变化和监控图像;2) 将传统人脸识别系统的分数和决策作为额外信息输入MLLM,以观察其对解释的影响;3) 使用似然比作为评估解释证据强度的指标,该指标能够量化解释对验证决策的支持程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使MLLM能够做出正确的人脸验证决策,其生成的解释也经常依赖于无法验证或虚构的面部属性。引入传统人脸识别系统的分数和决策可以提高分类验证性能,但并不能始终如一地产生可信的解释。基于似然比的评估框架进一步证实了当前MLLM在可解释人脸识别方面的局限性。

🎯 应用场景

该研究成果可应用于安全监控、身份验证等领域,提升人脸识别系统的可信度和透明度。通过改进MLLM的解释能力,可以帮助用户更好地理解和信任人脸识别系统的决策,从而提高系统的接受度和应用范围。未来的研究可以探索如何减少MLLM的幻觉,并生成更可靠、更具解释性的自然语言描述。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have recently been proposed as a means to generate natural-language explanations for face recognition decisions. While such explanations facilitate human interpretability, their reliability on unconstrained face images remains underexplored. In this work, we systematically analyze MLLM-generated explanations for the unconstrained face verification task on the challenging IJB-S dataset, with a particular focus on extreme pose variation and surveillance imagery. Our results show that even when MLLMs produce correct verification decisions, the accompanying explanations frequently rely on non-verifiable or hallucinated facial attributes that are not supported by visual evidence. We further study the effect of incorporating information from traditional face recognition systems, viz., scores and decisions, alongside the input images. Although such information improves categorical verification performance, it does not consistently lead to faithful explanations. To evaluate the explanations beyond decision accuracy, we introduce a likelihood-ratio-based framework that measures the evidential strength of textual explanations. Our findings highlight fundamental limitations of current MLLMs for explainable face recognition and underscore the need for a principled evaluation of reliable and trustworthy explanations in biometric applications. Code is available at https://github.com/redwankarimsony/LR-MLLMFR-Explainability.