Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

作者: Ayan Banerjee, Kuntal Thakur, Sandeep Gupta

分类: cs.CV

发布日期: 2026-03-12

期刊: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2026, pp. 2380-2391

💡 一句话要点

提出GenEval，融合人类知识的多模态学习用于单源域泛化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单源域泛化 视觉语言模型 人类知识融合 低秩适应 医学图像分析 糖尿病视网膜病变 癫痫发作起始区

📋 核心要点

现有方法难以在未知因果因素差异下实现跨域泛化，缺乏客观评估域差异的手段。
GenEval通过VLM结合人类知识，利用LoRA微调基础模型，弥合因果差距，提升单源域泛化能力。
在DR和SOZ数据集上，GenEval显著提升了单源域泛化性能，平均准确率分别提升9.4%和1.8%。

📝 摘要（中文）

在眼底图像糖尿病视网膜病变（DR）分级和静息态fMRI癫痫发作起始区（SOZ）检测等关键任务中，跨域图像分类的泛化仍然具有挑战性。当域在未知的因果因素上存在差异时，实现跨域泛化非常困难，并且没有既定的方法来客观地评估这些差异，因为通常无法直接获取来自数据收集者的元数据或协议级别信息。我们首先引入域一致性边界（DCB），这是一个理论框架，用于评估域在未知因果因素上是否发散。在此基础上，我们提出GenEval，一种多模态视觉语言模型（VLM）方法，它通过低秩适应（LoRA）将基础模型（例如MedGemma-4B）与人类知识相结合，以弥合因果差距并增强单源域泛化（SDG）。在八个DR和两个SOZ数据集上，GenEval实现了卓越的SDG性能，平均准确率分别为69.2%（DR）和81%（SOZ），分别优于最强的基线9.4%和1.8%。

🔬 方法详解

问题定义：论文旨在解决单源域泛化（SDG）问题，即模型仅在一个源域上训练，但需要在多个目标域上表现良好。现有方法在处理未知因果因素导致的域差异时表现不佳，且缺乏客观评估域差异的有效方法。这限制了模型在实际应用中的泛化能力，尤其是在医学图像分析等领域，不同数据集可能来自不同的设备、协议或人群。

核心思路：论文的核心思路是利用视觉语言模型（VLM）结合人类知识来弥合不同域之间的因果差距。通过将图像信息与人类对疾病的理解相结合，模型可以更好地理解图像的语义信息，从而提高泛化能力。具体来说，论文使用低秩适应（LoRA）来微调预训练的VLM模型，使其适应特定的任务。

技术框架：GenEval的技术框架主要包括以下几个步骤：1) 使用域一致性边界（DCB）评估域之间的差异；2) 利用预训练的视觉语言模型（如MedGemma-4B）提取图像和文本特征；3) 使用LoRA微调VLM模型，使其适应特定的任务；4) 在多个目标域上评估模型的泛化性能。

关键创新：论文的关键创新在于：1) 提出了域一致性边界（DCB）这一理论框架，用于评估域在未知因果因素上的差异；2) 提出了GenEval，一种将人类知识融入VLM的SDG方法，通过LoRA微调，有效提升了模型的泛化能力。与现有方法相比，GenEval能够更好地处理未知因果因素导致的域差异，从而实现更好的泛化性能。

关键设计：论文使用了MedGemma-4B作为基础VLM模型，并使用LoRA进行微调。LoRA通过引入低秩矩阵来更新模型参数，从而减少了需要训练的参数数量，提高了训练效率。论文还设计了特定的损失函数来优化模型的性能。具体的参数设置和损失函数细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

GenEval在八个DR数据集和两个SOZ数据集上进行了评估，结果表明，GenEval在DR数据集上平均准确率为69.2%，在SOZ数据集上平均准确率为81%，分别优于最强的基线9.4%和1.8%。这些结果表明，GenEval能够有效地提高单源域泛化性能，尤其是在医学图像分析等领域。

🎯 应用场景

该研究成果可广泛应用于医学图像分析领域，例如糖尿病视网膜病变分级、癫痫发作起始区检测等。通过提高模型的泛化能力，可以减少对大量标注数据的依赖，降低医疗成本，并为患者提供更准确的诊断。未来，该方法还可以扩展到其他领域，例如自动驾驶、机器人等，以提高模型在复杂环境中的适应能力。

📄 摘要（原文）

Generalizing image classification across domains remains challenging in critical tasks such as fundus image-based diabetic retinopathy (DR) grading and resting-state fMRI seizure onset zone (SOZ) detection. When domains differ in unknown causal factors, achieving cross-domain generalization is difficult, and there is no established methodology to objectively assess such differences without direct metadata or protocol-level information from data collectors, which is typically inaccessible. We first introduce domain conformal bounds (DCB), a theoretical framework to evaluate whether domains diverge in unknown causal factors. Building on this, we propose GenEval, a multimodal Vision Language Models (VLM) approach that combines foundational models (e.g., MedGemma-4B) with human knowledge via Low-Rank Adaptation (LoRA) to bridge causal gaps and enhance single-source domain generalization (SDG). Across eight DR and two SOZ datasets, GenEval achieves superior SDG performance, with average accuracy of 69.2% (DR) and 81% (SOZ), outperforming the strongest baselines by 9.4% and 1.8%, respectively.

Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理