Re-M3Dr: Rebalanced MultiModal Mean Deviation Regression

📄 arXiv: 2605.26513v1 📥 PDF

作者: Haojie Yin, Chengcheng Feng, Tianyi Liu, Tianqi Zhang, Kaizhu Huang

分类: cs.CV

发布日期: 2026-05-26


💡 一句话要点

提出Re-M3Dr,解决多模态医学影像融合中视场缺损评估的性能退化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医学影像 视场缺损 平均偏差 对比学习 梯度调制 眼科疾病

📋 核心要点

  1. 现有方法在视场缺损评估中,仅依赖OCT数据预测平均偏差MD,忽略了眼底摄影FP的互补信息。
  2. Re-M3Dr通过自适应边缘监督对比学习增强单模态特征,并利用感知锐度的梯度调制稳定多模态联合优化。
  3. 实验结果表明,Re-M3Dr在公共和私有数据集上,相比现有最优多模态方法,MSE平均降低29%。

📝 摘要(中文)

平均偏差(MD)是评估眼科视场缺损的关键指标。虽然之前的工作主要集中于仅从光学相干断层扫描(OCT)预测MD,但将OCT与眼底摄影(FP)相结合可以提供互补信息,从而提高性能。特别是在应用复杂的多目标优化时,这一点更为明显,正如常见的多模态分类中所记录的那样。然而,我们的研究表明,在这种医学影像场景中,多模态融合的性能比单模态模型更差。通过详细分析,我们发现根本原因是数据分布和模态学习冲突之间的耦合不平衡。这种不平衡扭曲了优化格局,导致训练不稳定。为了解决这个挑战,我们提出了一种新的多模态回归框架——Rebalanced MultiModal Mean Deviation Regression (Re-M3Dr)。我们通过基于自适应边缘的监督对比学习来增强单模态表示。然后,我们的框架通过感知锐度的梯度调制来稳定联合优化。在公共和私人临床数据集上的实验结果表明,与SOTA多模态学习方法相比,MSE平均降低了29%,证明了Re-M3Dr的优越性。

🔬 方法详解

问题定义:论文旨在解决多模态医学影像(OCT和FP)融合在视场缺损评估中性能退化的问题。现有方法通常只使用OCT数据预测平均偏差MD,或者直接将多模态信息融合,但实验发现直接融合效果反而不如单模态。痛点在于数据分布不平衡以及模态学习冲突导致优化困难,训练不稳定。

核心思路:论文的核心思路是解决数据分布和模态学习之间的不平衡问题。首先,通过监督对比学习增强单模态特征的表达能力,使其更具区分性。然后,通过感知锐度的梯度调制来稳定多模态联合优化过程,避免陷入局部最优。

技术框架:Re-M3Dr框架主要包含两个阶段:1) 单模态特征增强阶段:使用自适应边缘的监督对比学习,分别对OCT和FP数据进行特征提取和表示学习。2) 多模态融合与回归阶段:将增强后的单模态特征进行融合,并使用感知锐度的梯度调制来优化回归模型,预测平均偏差MD。

关键创新:论文的关键创新在于发现了多模态医学影像融合中数据不平衡和模态冲突的问题,并提出了相应的解决方案。具体来说,自适应边缘的监督对比学习能够有效提升单模态特征的表达能力,而感知锐度的梯度调制则能够稳定多模态联合优化过程,避免训练不稳定。

关键设计:在单模态特征增强阶段,使用了自适应边缘的监督对比损失函数,该损失函数能够根据样本的难易程度动态调整边缘大小,从而更好地学习具有区分性的特征表示。在多模态融合阶段,使用了感知锐度的梯度调制方法,该方法能够根据损失函数的锐度调整梯度的大小,从而避免陷入局部最优。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Re-M3Dr在公共和私有临床数据集上进行了评估,实验结果表明,与当前最优的多模态学习方法相比,Re-M3Dr在平均偏差MD预测的均方误差(MSE)上平均降低了29%。这表明Re-M3Dr能够更准确地预测视场缺损程度,具有显著的性能提升。

🎯 应用场景

Re-M3Dr可应用于眼科疾病的辅助诊断和视场缺损评估,帮助医生更准确地判断患者的病情。该方法具有潜力推广到其他医学影像多模态融合场景,例如脑部疾病诊断、肿瘤检测等,提升诊断效率和准确性,具有重要的临床应用价值。

📄 摘要(原文)

Mean Deviation (MD) is a critical metric for assessing visual field loss in ophthalmology. While previous work has focused solely on predicting MD from Optical Coherence Tomography (OCT), it is intuitive to assume that combining OCT with another imaging of fundus photography (FP) could improve performance, as two ophthalmic medical imaging provide complementary information. This is particularly expected when sophisticated multi-objective optimization is applied, as documented in common multimodal classification. Surprisingly, our investigations reveal that multimodal fusion in this medical imaging scenario performs worse than unimodal model. Through detailed analysis, we identify the root cause as a coupled imbalance between data distribution and modality learning conflict. This imbalance distorts the optimization landscape, leading to unstable training. To address this challenge, we propose the method of Rebalanced MultiModal Mean Deviation Regression (Re-M3Dr), a novel multimodal regression framework. We enhance unimodal representation through adaptive margin based supervised contrastive learning. Then, our framework stabilizes the joint optimization with the sharpness-aware gradient modulation. Experimental results on both public and private clinical datasets show average 29\% reduction in MSE compared to SOTA multimodal learning methods, demonstrating the superiority of Re-M3Dr. The code is available in the supplementary materials.