Reason2Decide: Rationale-Driven Multi-Task Learning
作者: H M Quamran Hasan, Housam Khalifa Bashier, Jiayi Dai, Mi-Young Kim, Randy Goebel
分类: cs.AI, cs.CL
发布日期: 2025-12-23
💡 一句话要点
Reason2Decide:一种基于理由驱动的多任务学习框架,提升临床决策支持系统的预测精度和解释一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 临床决策支持 多任务学习 理由生成 可解释性 暴露偏差 Scheduled Sampling 医疗AI
📋 核心要点
- 现有临床决策支持系统难以兼顾预测精度和解释一致性,暴露偏差导致生成的解释与预测结果不符。
- Reason2Decide采用两阶段训练框架,首先训练理由生成,然后联合训练标签预测和理由生成,并使用scheduled sampling缓解暴露偏差。
- 实验表明,Reason2Decide在多个医疗数据集上优于其他微调基线和零样本LLM,且对不同来源的理由具有鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)在临床决策支持系统中面临一个关键挑战:如何在实现高预测精度的同时,生成与预测结果一致的解释。现有方法存在暴露偏差,导致解释与预测不一致。我们提出了Reason2Decide,一个两阶段训练框架,旨在解决自我理性化中的关键挑战,包括暴露偏差和任务分离。在第一阶段,模型训练生成理由;在第二阶段,模型联合训练标签预测和理由生成,并应用scheduled sampling逐步从依赖真实标签过渡到依赖模型预测。我们在三个医疗数据集上评估了Reason2Decide,包括一个专有的分诊数据集和公开的生物医学问答数据集。在不同模型规模下,Reason2Decide在预测(F1)和理由保真度(BERTScore、BLEU、LLM-as-a-Judge)方面优于其他微调基线和一些零样本LLM。在分诊任务中,Reason2Decide对LLM生成、护士撰写和护士后处理的理由具有鲁棒性。实验表明,仅在第一阶段使用LLM生成的理由,Reason2Decide就优于其他微调变体,表明LLM生成的理由适合预训练模型,从而减少对人工标注的依赖。值得注意的是,Reason2Decide在模型规模比现有基础模型小40倍的情况下实现了这些提升,使得资源受限的部署也能获得可解释的临床推理。
🔬 方法详解
问题定义:临床决策支持系统需要提供准确的预测结果,同时给出合理的解释,以增强用户的信任度和可理解性。然而,现有方法在训练过程中容易受到暴露偏差的影响,即模型在训练时依赖于真实的标签或理由,而在推理时则依赖于自身的预测,导致生成的解释与预测结果不一致。
核心思路:Reason2Decide的核心思路是通过两阶段训练来解耦理由生成和决策预测,并利用scheduled sampling来缓解暴露偏差。第一阶段专注于理由生成,使模型能够学习生成高质量的理由。第二阶段联合训练理由生成和决策预测,并逐步从依赖真实标签过渡到依赖模型预测,从而使模型能够生成与自身预测一致的理由。
技术框架:Reason2Decide包含两个主要阶段: 1. 理由生成阶段:使用大型语言模型(LLM)生成或人工标注的理由数据对模型进行训练,使其能够生成高质量的理由。 2. 联合训练阶段:同时训练标签预测和理由生成任务。使用scheduled sampling策略,在训练初期更多地依赖真实标签进行预测,随着训练的进行,逐渐增加对模型自身预测的依赖。
关键创新:Reason2Decide的关键创新在于其两阶段训练框架和scheduled sampling策略。两阶段训练解耦了理由生成和决策预测,使得模型能够更好地学习生成高质量的理由。Scheduled sampling缓解了暴露偏差,使得模型能够生成与自身预测一致的理由。此外,该方法可以使用LLM生成的理由进行预训练,减少了对人工标注数据的依赖。
关键设计: * Scheduled Sampling:使用一个schedule函数来控制在训练过程中使用真实标签和模型预测的比例。该函数可以是一个线性函数或指数函数,具体参数需要根据数据集进行调整。 * 损失函数:联合训练阶段使用多任务损失函数,包括标签预测的交叉熵损失和理由生成的语言模型损失。两个损失的权重需要根据数据集进行调整。 * 模型结构:可以使用各种Transformer模型作为Reason2Decide的基础模型,例如BERT、RoBERTa等。
🖼️ 关键图片
📊 实验亮点
Reason2Decide在三个医疗数据集上进行了评估,包括一个专有的分诊数据集和公开的生物医学问答数据集。实验结果表明,Reason2Decide在预测(F1)和理由保真度(BERTScore、BLEU、LLM-as-a-Judge)方面优于其他微调基线和一些零样本LLM。在分诊任务中,Reason2Decide对LLM生成、护士撰写和护士后处理的理由具有鲁棒性。更重要的是,Reason2Decide在模型规模比现有基础模型小40倍的情况下实现了这些提升。
🎯 应用场景
Reason2Decide可应用于各种临床决策支持系统,例如疾病诊断、治疗方案选择、风险评估等。该方法能够提供准确的预测结果,并生成与预测结果一致的解释,从而增强医护人员的信任度和可理解性,辅助其做出更明智的决策。此外,该方法还可以减少对人工标注数据的依赖,降低开发成本。
📄 摘要(原文)
Despite the wide adoption of Large Language Models (LLM)s, clinical decision support systems face a critical challenge: achieving high predictive accuracy while generating explanations aligned with the predictions. Current approaches suffer from exposure bias leading to misaligned explanations. We propose Reason2Decide, a two-stage training framework that addresses key challenges in self-rationalization, including exposure bias and task separation. In Stage-1, our model is trained on rationale generation, while in Stage-2, we jointly train on label prediction and rationale generation, applying scheduled sampling to gradually transition from conditioning on gold labels to model predictions. We evaluate Reason2Decide on three medical datasets, including a proprietary triage dataset and public biomedical QA datasets. Across model sizes, Reason2Decide outperforms other fine-tuning baselines and some zero-shot LLMs in prediction (F1) and rationale fidelity (BERTScore, BLEU, LLM-as-a-Judge). In triage, Reason2Decide is rationale source-robust across LLM-generated, nurse-authored, and nurse-post-processed rationales. In our experiments, while using only LLM-generated rationales in Stage-1, Reason2Decide outperforms other fine-tuning variants. This indicates that LLM-generated rationales are suitable for pretraining models, reducing reliance on human annotations. Remarkably, Reason2Decide achieves these gains with models 40x smaller than contemporary foundation models, making clinical reasoning more accessible for resource-constrained deployments while still providing explainable decision support.