OctoMed: Data Recipes for State-of-the-Art Multimodal Medical Reasoning

📄 arXiv: 2511.23269v1 📥 PDF

作者: Timothy Ossowski, Sheng Zhang, Qianchu Liu, Guanghui Qin, Reuben Tan, Tristan Naumann, Junjie Hu, Hoifung Poon

分类: cs.AI

发布日期: 2025-11-28


💡 一句话要点

OctoMed:通过数据配方实现医学多模态推理的最优性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学大型语言模型 多模态推理 数据配方 监督微调 结构化推理 临床应用 知识图谱

📋 核心要点

  1. 医学大型语言模型训练面临泛化性和鲁棒性挑战,需要高质量、多样化的数据。
  2. 论文提出一种基于结构化推理轨迹的数据配方,用于监督微调医学多模态模型。
  3. 实验表明,该方法在多个医学基准任务上实现了开源模型的最佳性能,并能自我校准推理轨迹。

📝 摘要(中文)

高质量且精心策划的数据是训练医学大型语言模型的基础,它直接影响模型对未见临床任务的泛化能力和鲁棒性。本文研究了训练和数据管理策略,旨在开发一种在医学领域中具有鲁棒性的多模态推理模型。该工作侧重于监督微调(SFT),并探索了利用结构化推理轨迹的数据配方。通过提出的数据配方,实验扩展到超过800万个样本和68亿个响应token的数据集,在各种分布外的医学基准任务中实现了开源模型的最佳性能。结果表明,通过管理具有不同结构化推理轨迹长度的高质量、多样化的训练数据集,可以使微调模型能够根据下游任务自我校准其推理轨迹长度,而无需显式监督。本文提出了关键见解,描述了数据管理策略,并概述了开发鲁棒的医学视觉-语言推理系统的后续步骤。

🔬 方法详解

问题定义:现有医学大型语言模型在处理复杂临床推理任务时,泛化能力和鲁棒性不足。主要痛点在于缺乏高质量、多样化的训练数据,特别是能够体现结构化推理过程的数据,导致模型难以有效学习和应用医学知识。

核心思路:论文的核心思路是通过精心设计数据配方,构建包含丰富结构化推理轨迹的训练数据集,并利用监督微调(SFT)方法训练模型。这种方法旨在让模型学习到更准确、更可靠的医学推理过程,从而提高其在各种临床任务中的表现。

技术框架:整体框架包括数据收集与清洗、结构化推理轨迹生成、数据增强、模型训练和评估等几个主要阶段。首先,从各种医学知识库和临床记录中收集原始数据。然后,利用专家知识或自动化方法生成结构化推理轨迹,例如诊断步骤、治疗方案等。接着,通过数据增强技术扩充数据集。最后,使用SFT方法在大型语言模型上进行微调,并在多个医学基准任务上进行评估。

关键创新:最重要的技术创新点在于提出了有效的数据配方,该配方能够生成包含不同长度和复杂度的结构化推理轨迹的训练数据。与传统的仅包含输入-输出对的数据集相比,这种数据配方能够更好地引导模型学习医学推理过程,从而提高模型的泛化能力和鲁棒性。

关键设计:数据配方包含多个关键设计。例如,使用不同的模板和规则生成不同类型的推理轨迹;采用数据增强技术,如随机替换、插入和删除等,增加数据的多样性;根据任务的复杂程度调整推理轨迹的长度;使用特定的损失函数,例如交叉熵损失或序列到序列损失,优化模型的训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用提出的数据配方训练的模型在多个分布外的医学基准任务上取得了开源模型的最佳性能。具体而言,在某些任务上,模型的准确率提升了显著的百分比,超过了现有的基线模型。此外,实验还证明,通过管理具有不同结构化推理轨迹长度的数据集,模型能够自我校准推理轨迹长度,而无需显式监督。

🎯 应用场景

该研究成果可应用于智能辅助诊断、个性化治疗方案推荐、医学知识问答等领域。通过提升医学多模态模型的推理能力,可以帮助医生更准确地进行诊断和治疗,提高医疗效率和质量,并为患者提供更好的医疗服务。未来,该技术有望在远程医疗、健康管理等领域发挥更大的作用。

📄 摘要(原文)

High-quality and carefully curated data is a cornerstone of training medical large language models, as it directly impacts both generalization and robustness to unseen clinical tasks. We investigate strategies for training and data curation to develop a robust multimodal reasoning model in the medical domain. Our work focuses on supervised fine-tuning (SFT) and explores data recipes that leverage structured reasoning traces. Using our proposed data recipe, we scale experiments to a dataset of over 8 million examples and 6.8 billion response tokens, achieving state-of-the-art performance among open-source models across diverse out-of-distribution medical benchmark tasks. Our results further indicate that curating a high-quality, diverse training dataset with varying structured reasoning trace lengths enables the fine-tuned model to self-calibrate its reasoning trajectory lengths based on the downstream task, without explicit supervision. We present key insights, describe the data curation strategy, and outline next steps toward developing robust medical vision-language reasoning system.