Reasoning-Driven Multimodal LLM for Domain Generalization

📄 arXiv: 2602.23777v1 📥 PDF

作者: Zhipeng Xu, Zilong Wang, Xinyang Jiang, Dongsheng Li, De Cheng, Nannan Wang

分类: cs.AI

发布日期: 2026-02-27

备注: Accepted at ICLR 2026 (Poster)


💡 一句话要点

提出RD-MLDG框架,利用多模态LLM的推理能力提升领域泛化性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域泛化 多模态学习 大型语言模型 推理链 自监督学习

📋 核心要点

  1. 现有领域泛化方法主要关注视觉特征不变性,忽略了多模态LLM的推理能力。
  2. RD-MLDG框架利用推理链推导图像类别,通过多任务交叉训练和自对齐推理正则化解决推理优化难题。
  3. 实验表明,RD-MLDG在多个标准数据集上取得了SOTA性能,验证了推理在领域泛化中的有效性。

📝 摘要(中文)

本文致力于解决深度学习中的领域泛化(DG)问题。与大多数侧重于强制视觉特征不变性的DG方法不同,本文利用多模态大型语言模型(MLLM)的推理能力,探索构建推理链以推导图像类别,从而在领域偏移下实现更鲁棒的预测。为此,我们系统地研究了推理在DG中的作用,使用了DomainBed-Reasoning数据集,该数据集是DomainBed的扩展,其中每个样本都配有与类别相关的推理链。我们的分析揭示了两个关键挑战:(i)使用推理链微调MLLM进行分类比直接标签监督更具挑战性,因为模型必须在标签预测之前优化复杂的推理序列;(ii)监督信号和微调MLLM之间推理模式的不匹配导致语义丰富性(信息丰富但难以优化)和优化效率(易于优化但信息较少)之间的权衡。为了解决这些问题,我们提出了RD-MLDG(Reasoning-Driven Multimodal LLM for Domain Generalization)框架,该框架包含两个组件:(i)MTCT(Multi-Task Cross-Training),它引入了一个额外的直接分类路径来指导推理监督;(ii)SARR(Self-Aligned Reasoning Regularization),它通过迭代自标记来保留推理链的语义丰富性,同时减轻推理模式的不匹配。在标准DomainBed数据集(PACS、VLCS、OfficeHome、TerraInc)上的实验表明,RD-MLDG实现了最先进的性能,突出了推理作为鲁棒的域外泛化的有希望的补充信号。

🔬 方法详解

问题定义:领域泛化旨在训练一个模型,使其在未见过的目标领域上也能表现良好。现有方法主要集中在学习领域不变的视觉特征,但忽略了图像类别之间的语义关系以及利用多模态信息进行推理的能力。直接使用MLLM进行领域泛化面临推理链优化困难和推理模式不匹配的问题。

核心思路:本文的核心思路是利用MLLM的推理能力,通过构建推理链来辅助图像分类,从而提高模型在领域偏移下的鲁棒性。通过引入多任务学习和自对齐正则化,解决推理链优化困难和推理模式不匹配的问题,从而更好地利用推理信息。

技术框架:RD-MLDG框架包含两个主要组件:MTCT(Multi-Task Cross-Training)和SARR(Self-Aligned Reasoning Regularization)。MTCT通过引入额外的直接分类路径来指导推理监督,加速推理链的优化。SARR通过迭代自标记来保留推理链的语义丰富性,同时减轻推理模式的不匹配。整体流程是先使用MTCT进行预训练,然后使用SARR进行微调。

关键创新:RD-MLDG的关键创新在于将多模态LLM的推理能力引入领域泛化问题,并提出了MTCT和SARR两种方法来解决推理链优化和推理模式匹配的问题。与现有方法相比,RD-MLDG不仅关注视觉特征,还利用了图像类别之间的语义关系,从而提高了模型的泛化能力。

关键设计:MTCT采用多任务学习,同时进行推理链预测和直接分类。SARR使用迭代自标记,首先使用模型预测推理链,然后使用预测的推理链作为新的监督信号进行训练。损失函数包括推理链预测损失、直接分类损失和自对齐正则化损失。具体的网络结构基于预训练的MLLM,例如BLIP-2或Flamingo。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RD-MLDG在PACS、VLCS、OfficeHome和TerraInc等标准DomainBed数据集上取得了SOTA性能。例如,在PACS数据集上,RD-MLDG的平均准确率超过了现有最佳方法,证明了其有效性。消融实验也验证了MTCT和SARR两个组件的有效性。

🎯 应用场景

该研究成果可应用于各种需要领域泛化的场景,例如自动驾驶、医学图像分析、遥感图像分类等。通过利用多模态信息和推理能力,可以提高模型在复杂环境下的鲁棒性和可靠性,降低对大量标注数据的依赖,具有重要的实际应用价值。

📄 摘要(原文)

This paper addresses the domain generalization (DG) problem in deep learning. While most DG methods focus on enforcing visual feature invariance, we leverage the reasoning capability of multimodal large language models (MLLMs) and explore the potential of constructing reasoning chains that derives image categories to achieve more robust predictions under domain shift. To this end, we systematically study the role of reasoning in DG using DomainBed-Reasoning, a newly constructed extension of DomainBed dataset, in which each sample is paired with class-relevant reasoning chains. Our analysis reveals two key challenges: (i) fine-tuning MLLMs with reasoning chains for classification is more challenging than direct label supervision, since the model must optimize complex reasoning sequences before label prediction; and (ii) mismatches in reasoning patterns between supervision signals and fine-tuned MLLMs lead to a trade-off between semantic richness (informative but harder to optimize) and optimization efficiency (easier to optimize but less informative). To address these issues, we propose RD-MLDG (Reasoning-Driven Multimodal LLM for Domain Generalization), a framework with two components: (i) MTCT (Multi-Task Cross-Training), which introduces an additional direct classification pathway to guide reasoning supervision; and (ii) SARR (Self-Aligned Reasoning Regularization), which preserves the semantic richness of reasoning chains while mitigating reasoning-pattern mismatches via iterative self-labeling. Experiments on standard DomainBed datasets (PACS, VLCS, OfficeHome, TerraInc) demonstrate that RD-MLDG achieves state-of-the-art performances, highlighting reasoning as a promising complementary signal for robust out-of-domain generalization.