Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
作者: Ayan Banerjee, Kuntal Thakur, Sandeep Gupta
分类: cs.CV
发布日期: 2026-03-12
期刊: Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2026, pp. 2380-2391
💡 一句话要点
提出GenEval,融合人类知识的多模态学习用于单源域泛化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单源域泛化 视觉语言模型 人类知识融合 低秩适应 医学图像分析 糖尿病视网膜病变 癫痫发作起始区
📋 核心要点
- 现有方法难以在未知因果因素差异下实现跨域泛化,缺乏客观评估域差异的手段。
- GenEval通过VLM结合人类知识,利用LoRA微调基础模型,弥合因果差距,提升单源域泛化能力。
- 在DR和SOZ数据集上,GenEval显著提升了单源域泛化性能,平均准确率分别提升9.4%和1.8%。
📝 摘要(中文)
在眼底图像糖尿病视网膜病变(DR)分级和静息态fMRI癫痫发作起始区(SOZ)检测等关键任务中,跨域图像分类的泛化仍然具有挑战性。当域在未知的因果因素上存在差异时,实现跨域泛化非常困难,并且没有既定的方法来客观地评估这些差异,因为通常无法直接获取来自数据收集者的元数据或协议级别信息。我们首先引入域一致性边界(DCB),这是一个理论框架,用于评估域在未知因果因素上是否发散。在此基础上,我们提出GenEval,一种多模态视觉语言模型(VLM)方法,它通过低秩适应(LoRA)将基础模型(例如MedGemma-4B)与人类知识相结合,以弥合因果差距并增强单源域泛化(SDG)。在八个DR和两个SOZ数据集上,GenEval实现了卓越的SDG性能,平均准确率分别为69.2%(DR)和81%(SOZ),分别优于最强的基线9.4%和1.8%。
🔬 方法详解
问题定义:论文旨在解决单源域泛化(SDG)问题,即模型仅在一个源域上训练,但需要在多个目标域上表现良好。现有方法在处理未知因果因素导致的域差异时表现不佳,且缺乏客观评估域差异的有效方法。这限制了模型在实际应用中的泛化能力,尤其是在医学图像分析等领域,不同数据集可能来自不同的设备、协议或人群。
核心思路:论文的核心思路是利用视觉语言模型(VLM)结合人类知识来弥合不同域之间的因果差距。通过将图像信息与人类对疾病的理解相结合,模型可以更好地理解图像的语义信息,从而提高泛化能力。具体来说,论文使用低秩适应(LoRA)来微调预训练的VLM模型,使其适应特定的任务。
技术框架:GenEval的技术框架主要包括以下几个步骤:1) 使用域一致性边界(DCB)评估域之间的差异;2) 利用预训练的视觉语言模型(如MedGemma-4B)提取图像和文本特征;3) 使用LoRA微调VLM模型,使其适应特定的任务;4) 在多个目标域上评估模型的泛化性能。
关键创新:论文的关键创新在于:1) 提出了域一致性边界(DCB)这一理论框架,用于评估域在未知因果因素上的差异;2) 提出了GenEval,一种将人类知识融入VLM的SDG方法,通过LoRA微调,有效提升了模型的泛化能力。与现有方法相比,GenEval能够更好地处理未知因果因素导致的域差异,从而实现更好的泛化性能。
关键设计:论文使用了MedGemma-4B作为基础VLM模型,并使用LoRA进行微调。LoRA通过引入低秩矩阵来更新模型参数,从而减少了需要训练的参数数量,提高了训练效率。论文还设计了特定的损失函数来优化模型的性能。具体的参数设置和损失函数细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
GenEval在八个DR数据集和两个SOZ数据集上进行了评估,结果表明,GenEval在DR数据集上平均准确率为69.2%,在SOZ数据集上平均准确率为81%,分别优于最强的基线9.4%和1.8%。这些结果表明,GenEval能够有效地提高单源域泛化性能,尤其是在医学图像分析等领域。
🎯 应用场景
该研究成果可广泛应用于医学图像分析领域,例如糖尿病视网膜病变分级、癫痫发作起始区检测等。通过提高模型的泛化能力,可以减少对大量标注数据的依赖,降低医疗成本,并为患者提供更准确的诊断。未来,该方法还可以扩展到其他领域,例如自动驾驶、机器人等,以提高模型在复杂环境中的适应能力。
📄 摘要(原文)
Generalizing image classification across domains remains challenging in critical tasks such as fundus image-based diabetic retinopathy (DR) grading and resting-state fMRI seizure onset zone (SOZ) detection. When domains differ in unknown causal factors, achieving cross-domain generalization is difficult, and there is no established methodology to objectively assess such differences without direct metadata or protocol-level information from data collectors, which is typically inaccessible. We first introduce domain conformal bounds (DCB), a theoretical framework to evaluate whether domains diverge in unknown causal factors. Building on this, we propose GenEval, a multimodal Vision Language Models (VLM) approach that combines foundational models (e.g., MedGemma-4B) with human knowledge via Low-Rank Adaptation (LoRA) to bridge causal gaps and enhance single-source domain generalization (SDG). Across eight DR and two SOZ datasets, GenEval achieves superior SDG performance, with average accuracy of 69.2% (DR) and 81% (SOZ), outperforming the strongest baselines by 9.4% and 1.8%, respectively.