S-Chain: Structured Visual Chain-of-Thought For Medicine

📄 arXiv: 2510.22728v1 📥 PDF

作者: Khai Le-Duc, Duy M. H. Nguyen, Phuong T. H. Trinh, Tien-Phat Nguyen, Nghiem T. Diep, An Ngo, Tung Vu, Trinh Vuong, Anh-Tien Nguyen, Mau Nguyen, Van Trung Hoang, Khai-Nguyen Nguyen, Hy Nguyen, Chris Ngo, Anji Liu, Nhat Ho, Anne-Christin Hauschild, Khanh Xuan Nguyen, Thanh Nguyen-Tang, Pengtao Xie, Daniel Sonntag, James Zou, Mathias Niepert, Anh Totti Nguyen

分类: cs.LG, cs.CV

发布日期: 2025-10-26

备注: First version


💡 一句话要点

提出S-Chain数据集,用于提升医学视觉语言模型的可解释性和视觉 grounding 准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉语言模型 视觉问答 思维链 视觉Grounding 数据集 可解释性 多模态学习

📋 核心要点

  1. 医学VLM需要准确预测和文本解释与视觉证据的对齐,但缺乏大规模专家标注数据集支持精确视觉 grounding 的逐步推理。
  2. 论文提出S-Chain数据集,包含专家标注医学图像、边界框和结构化视觉CoT,将视觉区域与推理步骤明确链接。
  3. 实验表明,使用S-Chain进行SV-CoT监督,能显著提高医学VLM的可解释性、grounding保真度和鲁棒性。

📝 摘要(中文)

医学视觉语言模型(VLMs)中可靠的推理不仅需要准确的预测,还需要文本解释与视觉证据之间的透明对齐。尽管思维链(CoT)提示在医学视觉问答(VQA)中显示出潜力,但尚无大规模专家级数据集捕获具有精确视觉 grounding 的逐步推理。我们推出了 S-Chain,这是首个包含 12,000 张专家标注的医学图像的大规模数据集,带有边界框和结构化视觉 CoT(SV-CoT),明确地将视觉区域链接到推理步骤。该数据集还支持 16 种语言,总共超过 70 万个 VQA 对,具有广泛的多语言适用性。我们使用 S-Chain 对最先进的医学 VLM(ExGra-Med、LLaVA-Med)和通用 VLM(Qwen2.5-VL、InternVL2.5)进行了基准测试,结果表明 SV-CoT 监督显著提高了可解释性、grounding 保真度和鲁棒性。除了基准测试之外,我们还研究了它与检索增强生成(RAG)的协同作用,揭示了领域知识和视觉 grounding 在自回归推理过程中的相互作用。最后,我们提出了一种新的机制,加强了视觉证据和推理之间的对齐,提高了可靠性和效率。S-Chain 为 grounded 医学推理建立了一个新的基准,并为更值得信赖和可解释的医学 VLM 铺平了道路。

🔬 方法详解

问题定义:医学视觉问答(VQA)任务需要模型不仅给出正确的答案,还要提供可信的推理过程,并能将推理过程与图像中的相关区域对应起来。现有的方法缺乏大规模的、具有专家标注的、包含视觉 grounding 信息的思维链数据,导致模型难以进行可靠的推理和解释。

核心思路:论文的核心思路是构建一个大规模的、结构化的视觉思维链数据集(S-Chain),该数据集包含医学图像、问题、答案、推理步骤以及与每个推理步骤相关的图像区域(bounding box)。通过在该数据集上训练模型,可以提升模型在医学VQA任务中的推理能力、可解释性和视觉 grounding 准确性。

技术框架:S-Chain数据集的构建流程主要包括以下几个步骤:1) 收集医学图像和问题;2) 由医学专家对问题进行解答,并给出推理步骤;3) 医学专家为每个推理步骤标注相关的图像区域(bounding box);4) 将数据翻译成多种语言,以支持多语言应用。基于S-Chain数据集,论文还研究了检索增强生成(RAG)与SV-CoT的协同作用,并提出了一种新的机制来加强视觉证据和推理之间的对齐。

关键创新:S-Chain数据集是首个大规模的、具有专家标注的、包含视觉 grounding 信息的医学视觉思维链数据集。它明确地将视觉区域链接到推理步骤,为训练可解释的医学VLM提供了新的数据基础。此外,论文提出的加强视觉证据和推理对齐的机制,进一步提升了模型的可靠性和效率。

关键设计:S-Chain数据集包含12,000张医学图像,超过70万个VQA对,支持16种语言。数据集中的每个VQA对都包含问题、答案、推理步骤以及与每个推理步骤相关的图像区域(bounding box)。论文使用S-Chain数据集对多个医学VLM和通用VLM进行了基准测试,并研究了SV-CoT监督对模型性能的影响。此外,论文还探索了RAG与SV-CoT的协同作用,并提出了一种新的机制来加强视觉证据和推理之间的对齐。具体的技术细节(如损失函数、网络结构等)在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

S-Chain数据集的基准测试表明,SV-CoT监督显著提高了医学VLM(ExGra-Med, LLaVA-Med)和通用VLM(Qwen2.5-VL, InternVL2.5)的可解释性、grounding 保真度和鲁棒性。具体性能提升数据在论文中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于辅助医生进行诊断和治疗决策,提高医疗效率和准确性。通过提供可解释的推理过程和视觉证据,增强医生对AI系统的信任度。未来可扩展到其他医学影像领域,并应用于医学教育和培训。

📄 摘要(原文)

Faithful reasoning in medical vision-language models (VLMs) requires not only accurate predictions but also transparent alignment between textual rationales and visual evidence. While Chain-of-Thought (CoT) prompting has shown promise in medical visual question answering (VQA), no large-scale expert-level dataset has captured stepwise reasoning with precise visual grounding. We introduce S-Chain, the first large-scale dataset of 12,000 expert-annotated medical images with bounding boxes and structured visual CoT (SV-CoT), explicitly linking visual regions to reasoning steps. The dataset further supports 16 languages, totaling over 700k VQA pairs for broad multilingual applicability. Using S-Chain, we benchmark state-of-the-art medical VLMs (ExGra-Med, LLaVA-Med) and general-purpose VLMs (Qwen2.5-VL, InternVL2.5), showing that SV-CoT supervision significantly improves interpretability, grounding fidelity, and robustness. Beyond benchmarking, we study its synergy with retrieval-augmented generation, revealing how domain knowledge and visual grounding interact during autoregressive reasoning. Finally, we propose a new mechanism that strengthens the alignment between visual evidence and reasoning, improving both reliability and efficiency. S-Chain establishes a new benchmark for grounded medical reasoning and paves the way toward more trustworthy and explainable medical VLMs.