CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

📄 arXiv: 2601.13262v1 📥 PDF

作者: Eric Onyame, Akash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen, Chirag Agarwal

分类: cs.AI, cs.CL

发布日期: 2026-01-19


💡 一句话要点

提出CURE-MED框架,解决LLM在多语言医疗推理中逻辑性和语言一致性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言医疗推理 强化学习 课程学习 代码切换 语言一致性

📋 核心要点

  1. 现有大型语言模型在多语言医疗推理中表现不佳,逻辑性和语言一致性存在问题,限制了其在多语言医疗场景的应用。
  2. CURE-MED框架采用课程学习的强化学习方法,结合代码切换感知的监督微调和群体相对策略优化,提升逻辑正确性和语言稳定性。
  3. 实验结果表明,CURE-MED在13种语言上优于现有基线,并在7B和32B参数规模下分别实现了显著的语言一致性和逻辑正确性提升。

📝 摘要(中文)

大型语言模型(LLM)在单语数学和常识推理方面表现出色,但在多语言医疗推理应用中仍然不可靠,阻碍了它们在多语言医疗环境中的部署。为了解决这个问题,我们首先推出了CUREMED-BENCH,这是一个高质量的多语言医疗推理数据集,包含开放式的推理查询,具有唯一的、可验证的答案,涵盖13种语言,包括阿姆哈拉语、约鲁巴语和斯瓦希里语等代表性不足的语言。在此数据集的基础上,我们提出了CURE-MED,这是一个课程学习的强化学习框架,它集成了代码切换感知的监督微调和群体相对策略优化,以共同提高逻辑正确性和语言稳定性。在13种语言中,我们的方法始终优于强大的基线,并能有效地扩展,在7B参数下达到85.21%的语言一致性和54.35%的逻辑正确性,在32B参数下达到94.96%的语言一致性和70.04%的逻辑正确性。这些结果支持LLM中可靠和公平的多语言医疗推理。代码和数据集可在https://cure-med.github.io/上找到。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多语言医疗推理任务中的不足。现有LLM虽然在单语环境下表现良好,但在处理多语言医疗推理时,逻辑正确性和语言一致性都存在问题。这阻碍了LLM在多语言医疗保健环境中的实际应用,因为医疗决策需要高度的准确性和可靠性。现有方法难以兼顾不同语言的特性,并且缺乏针对医疗推理的专门优化。

核心思路:论文的核心思路是利用课程学习的强化学习框架,逐步引导LLM学习多语言医疗推理。通过代码切换感知的监督微调,使模型能够理解和处理不同语言之间的转换。同时,采用群体相对策略优化,鼓励模型在逻辑正确性和语言一致性之间取得平衡。这种方法旨在使LLM能够更可靠地进行多语言医疗推理,从而提高其在实际医疗场景中的应用价值。

技术框架:CURE-MED框架包含以下主要阶段:1) 数据准备:构建CUREMED-BENCH多语言医疗推理数据集,包含13种语言的开放式推理查询。2) 代码切换感知的监督微调:使用CUREMED-BENCH数据集对LLM进行微调,使其能够理解和处理不同语言之间的代码切换。3) 强化学习训练:使用群体相对策略优化算法,训练LLM在逻辑正确性和语言一致性之间取得平衡。奖励函数的设计旨在鼓励模型生成既符合逻辑又具有语言一致性的答案。4) 模型评估:在CUREMED-BENCH数据集上评估模型的性能,包括逻辑正确性和语言一致性。

关键创新:论文的关键创新点在于:1) CUREMED-BENCH数据集:构建了一个高质量的多语言医疗推理数据集,涵盖多种语言,包括一些代表性不足的语言。2) 课程学习的强化学习框架:采用课程学习的思想,逐步引导LLM学习多语言医疗推理。3) 代码切换感知的监督微调:使模型能够更好地理解和处理不同语言之间的转换。4) 群体相对策略优化:鼓励模型在逻辑正确性和语言一致性之间取得平衡。

关键设计:CURE-MED框架的关键设计包括:1) 代码切换策略:在监督微调阶段,采用不同的代码切换策略,例如随机切换和基于规则的切换,以提高模型的鲁棒性。2) 奖励函数设计:在强化学习阶段,设计了一个综合考虑逻辑正确性和语言一致性的奖励函数。逻辑正确性通过验证模型生成的答案是否与ground truth一致来衡量。语言一致性通过计算模型在不同语言之间生成的答案的相似度来衡量。3) 群体相对策略优化:使用群体相对策略优化算法,鼓励模型在逻辑正确性和语言一致性之间取得平衡。该算法通过比较不同模型的性能,选择最优的模型进行更新。

📊 实验亮点

实验结果表明,CURE-MED框架在13种语言上均优于现有基线模型。在7B参数规模下,CURE-MED实现了85.21%的语言一致性和54.35%的逻辑正确性;在32B参数规模下,CURE-MED实现了94.96%的语言一致性和70.04%的逻辑正确性。这些结果表明,CURE-MED能够有效地提高LLM在多语言医疗推理中的性能。

🎯 应用场景

CURE-MED框架具有广泛的应用前景,可用于构建多语言医疗诊断助手、智能问诊系统和医学知识库。该研究有助于提高医疗服务的可及性和公平性,特别是在资源匮乏和语言多样性高的地区。未来,该技术有望应用于远程医疗、跨境医疗和全球健康等领域,为全球患者提供更优质的医疗服务。

📄 摘要(原文)

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/