Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

作者: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu

分类: cs.CV, cs.LG

发布日期: 2025-02-19 (更新: 2025-02-24)

备注: Accepted by ICLR 2025. Code: https://github.com/sycny/SelfSynthX

💡 一句话要点

提出基于自合成数据的视觉拒绝采样框架，提升多模态大模型的认知和可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 视觉语言模型 可解释性 自合成数据 视觉拒绝采样

📋 核心要点

现有LMMs在细粒度视觉推理方面存在不足，难以识别领域特定目标并提供合理预测解释。
提出视觉拒绝采样框架，通过自合成数据迭代微调，提升模型认知能力和可解释性。
实验结果表明，该方法能有效提高专业视觉分类任务的准确性和可解释性。

📝 摘要（中文）

大型多模态模型（LMMs），或称视觉-语言模型（VLMs），在各种视觉任务中展现了令人印象深刻的能力。然而，它们在细粒度视觉推理方面常常表现不佳，无法识别特定领域的任务目标，并且不能为其预测提供合理的解释。为了解决上述挑战，我们提出了一种新颖的视觉拒绝采样框架，利用自合成数据来提高LMMs的认知能力和可解释性。具体而言，视觉微调需要图像、查询和目标答案。我们的方法首先合成包含人类可验证视觉特征的可解释答案。这些特征基于专家定义的概念，并根据它们与图像内容的对齐情况进行精心选择。在每一轮微调之后，我们应用一种无奖励模型的过滤机制来选择最高质量的可解释答案，用于下一轮微调。这种合成数据生成和微调的迭代过程逐步提高了模型生成准确且合理解释的能力。实验结果表明，我们的方法在提高专业视觉分类任务的准确性和可解释性方面是有效的。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）在细粒度视觉推理任务中表现不佳的问题。现有方法难以让模型识别特定领域的任务目标，并且模型给出的预测缺乏可解释性，无法提供合理的依据。这限制了LMMs在专业领域的应用。

核心思路：论文的核心思路是利用自合成数据来迭代地提升LMMs的认知能力和可解释性。通过生成包含人类可验证视觉特征的可解释答案，并使用视觉拒绝采样框架进行过滤和选择，逐步引导模型学习更准确和合理的解释。这种方法避免了对大量人工标注数据的依赖，并能够针对特定领域进行优化。

技术框架：整体框架包含以下几个主要阶段：1) 可解释答案合成：基于专家定义的视觉概念，生成包含人类可验证视觉特征的可解释答案。这些特征与图像内容对齐。2) 视觉微调：使用合成的数据对LMM进行微调，提升其生成准确答案和解释的能力。3) 视觉拒绝采样：使用无奖励模型的过滤机制，选择高质量的可解释答案，用于下一轮微调。这个过程迭代进行，直到模型达到预期的性能。

关键创新：最重要的创新点在于使用自合成数据和视觉拒绝采样框架来提升LMMs的可解释性。与传统的依赖人工标注数据的方法不同，该方法能够自动生成高质量的训练数据，并针对特定领域进行优化。此外，无奖励模型的过滤机制能够有效地选择最有价值的训练样本，提高训练效率。

关键设计：在可解释答案合成阶段，需要仔细选择专家定义的视觉概念，并确保这些概念与图像内容对齐。在视觉拒绝采样阶段，需要设计有效的过滤机制，以选择高质量的可解释答案。具体的参数设置和网络结构取决于所使用的LMM和具体的任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在专业视觉分类任务中显著提高了模型的准确性和可解释性。与基线方法相比，该方法在多个数据集上取得了明显的性能提升，并且能够生成更合理、更易于理解的解释。具体的性能数据和提升幅度在论文中有详细的展示。

🎯 应用场景

该研究成果可应用于医疗影像诊断、工业质检、遥感图像分析等领域。通过提高模型的可解释性，可以帮助专业人员更好地理解模型的预测结果，从而做出更准确的决策。此外，该方法还可以用于开发更可靠、更值得信赖的AI系统。

📄 摘要（原文）

Large Multimodal Models (LMMs), or Vision-Language Models (VLMs), have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address the above challenge, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, and carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of synthetic data generation and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理