LoFi: Location-Aware Fine-Grained Representation Learning for Chest X-ray

作者: Myeongkyun Kang, Yanting Yang, Xiaoxiao Li

分类: cs.CV, cs.AI

发布日期: 2026-03-19

💡 一句话要点

提出LoFi，利用位置感知细粒度表征学习提升胸部X光片检索和短语定位性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 胸部X光片 细粒度表征学习 位置感知 图像检索 短语定位 医学影像 对比学习

📋 核心要点

现有对比模型缺乏区域级监督，视觉语言模型捕获细粒度表征能力不足，导致胸部X光片检索和短语定位性能受限。
LoFi通过联合优化sigmoid、captioning和位置感知captioning损失，利用区域级监督促进细粒度表征学习。
实验表明，LoFi在MIMIC-CXR和PadChest-GR数据集上，检索和短语定位性能均优于现有方法。

📝 摘要（中文）

细粒度表征学习对于胸部X光片的检索和短语定位至关重要，因为临床相关的发现通常在空间上是局限的。然而，对比模型缺乏区域级别的监督，以及大型视觉语言模型在外部验证中捕获细粒度表征的能力有限，导致这些任务的性能欠佳。为了解决这些限制，我们提出了位置感知细粒度表征学习（LoFi），它使用轻量级大型语言模型联合优化sigmoid损失、captioning损失和位置感知captioning损失。位置感知captioning损失通过grounding和密集captioning目标实现区域级别的监督，从而促进细粒度表征学习。在此基础上，我们将细粒度编码器集成到基于检索的上下文学习中，以增强胸部X光片在不同设置下的grounding能力。大量实验表明，我们的方法在MIMIC-CXR和PadChest-GR上实现了卓越的检索和短语定位性能。

🔬 方法详解

问题定义：论文旨在解决胸部X光片检索和短语定位任务中，由于临床发现的空间局限性，现有方法无法有效学习细粒度表征的问题。现有方法，如对比学习模型，缺乏区域级别的监督信号，而大型视觉语言模型在处理此类细粒度任务时，泛化能力不足，导致性能瓶颈。

核心思路：论文的核心思路是引入位置感知的细粒度表征学习，通过位置感知captioning损失，将区域级别的监督信息融入到表征学习过程中。这样可以使模型更好地理解图像中不同区域的语义信息，从而提升检索和短语定位的准确性。

技术框架：LoFi的整体框架包含一个轻量级的大型语言模型，用于生成图像的caption和位置感知的caption。模型同时优化三个损失函数：sigmoid损失（用于分类）、captioning损失（用于生成全局描述）和位置感知captioning损失（用于生成区域描述）。在推理阶段，将学习到的细粒度编码器集成到基于检索的上下文学习框架中，以增强grounding能力。

关键创新：LoFi的关键创新在于引入了位置感知captioning损失，它通过grounding和密集captioning目标，实现了区域级别的监督。这种方法有效地弥补了现有方法在区域级别监督方面的不足，使得模型能够学习到更加细粒度的图像表征。

关键设计：位置感知captioning损失的设计是关键。具体来说，模型需要预测图像中特定区域的描述，并与真实描述进行对比。这需要模型能够识别图像中的不同区域，并理解这些区域的语义信息。此外，轻量级大型语言模型的选择也很重要，需要在计算效率和表征能力之间进行权衡。具体的参数设置和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

LoFi在MIMIC-CXR和PadChest-GR数据集上进行了广泛的实验，结果表明，该方法在检索和短语定位任务上均取得了显著的性能提升。具体的性能数据和对比基线需要在论文中查找（未知），但摘要中明确指出LoFi实现了“卓越的检索和短语定位性能”。

🎯 应用场景

该研究成果可应用于医学影像辅助诊断、智能报告生成等领域。通过提升胸部X光片的检索和短语定位精度，医生可以更快速、准确地找到病灶区域，提高诊断效率和准确性。未来，该技术有望推广到其他医学影像模态，为临床决策提供更强大的支持。

📄 摘要（原文）

Fine-grained representation learning is crucial for retrieval and phrase grounding in chest X-rays, where clinically relevant findings are often spatially confined. However, the lack of region-level supervision in contrastive models and the limited ability of large vision language models to capture fine-grained representations in external validation lead to suboptimal performance on these tasks. To address these limitations, we propose Location-aware Fine-grained representation learning (LoFi), which jointly optimizes sigmoid, captioning, and location-aware captioning losses using a lightweight large language model. The location-aware captioning loss enables region-level supervision through grounding and dense captioning objectives, thereby facilitating fine-grained representation learning. Building upon these representations, we integrate a fine-grained encoder into retrieval-based in-context learning to enhance chest X-ray grounding across diverse settings. Extensive experiments demonstrate that our method achieves superior retrieval and phrase grounding performance on MIMIC-CXR and PadChest-GR.

LoFi: Location-Aware Fine-Grained Representation Learning for Chest X-ray

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理