Not All Tokens Matter Equally: Dynamic In-context Vector Distillation with Decisive-Token Supervision for Long-form Medical Report Generation
作者: Ning Wu, Rui Liu, Xinkun Lin, Weixing Chen, Jinxi Xiang, Tao Wei, Lina Yao, Mingjie Li
分类: cs.CL, cs.CV, cs.LG
发布日期: 2026-05-26
备注: Preprint. 20 pages, 6 figures
💡 一句话要点
DIVE:通过关键Token监督的动态上下文向量蒸馏,用于生成长篇医学报告
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学报告生成 长文本生成 蒸馏学习 关键Token监督 动态向量蒸馏
📋 核心要点
- 现有方法在长文本生成中,对所有token一视同仁,忽略了关键token(如病理相关token和EOS)的重要性,导致性能下降。
- DIVE框架通过关键token监督和状态条件动态引导,提升关键token的权重,并使注入信号适应解码过程中的漂移。
- 实验结果表明,DIVE在医学报告生成任务中,显著提升了BLEU-4、ROUGE-L和RadGraph F1等指标,表现优于现有方法。
📝 摘要(中文)
本文提出了一种名为DIVE的冻结骨干网络蒸馏框架,旨在解决长篇医学报告生成任务中,现有方法对所有输出token同等对待的问题。DIVE通过两种互补机制来解决这一问题:关键token监督通过提升病理相关token和序列结束(EOS)事件的交叉熵贡献,确保内容保真度和终止的学习;状态条件动态引导使用隐藏状态相关的适配器取代固定的开放循环残差,允许注入的信号随着解码的漂移而适应。在MIMIC-CXR和CheXpert Plus数据集上,使用两个医学VLM骨干网络的实验表明,DIVE在词汇和临床代理指标上始终名列前茅,在所有数据集-骨干网络设置中实现了最佳的BLEU-4、ROUGE-L和RadGraph F1,并在粗粒度标签级别的CheXbert F1上保持竞争力。
🔬 方法详解
问题定义:长篇医学报告生成任务中,现有基于蒸馏的方法将所有输出token视为同等重要,忽略了关键token(如病理相关token和EOS token)对报告质量的决定性作用。这种均匀处理方式导致模型对关键信息的学习不足,尤其是在自回归解码过程中,容易偏离teacher-forced的轨迹,产生内容失真或无法正确终止的问题。
核心思路:DIVE的核心思路是通过差异化地对待不同的token,加强对关键token的监督,并使蒸馏过程能够动态适应解码状态的变化。具体来说,DIVE通过关键token监督来平衡不同token的损失贡献,并利用状态条件动态引导来调整蒸馏信号的注入方式,从而提高长篇报告的生成质量。
技术框架:DIVE框架包含两个主要模块:关键token监督模块和状态条件动态引导模块。关键token监督模块通过对病理相关token和EOS token的交叉熵损失进行加权,来提升模型对这些关键信息的学习。状态条件动态引导模块则使用一个与隐藏状态相关的适配器网络,来动态调整注入的蒸馏信号,使其能够适应解码过程中的状态变化。整体流程是,首先利用关键token监督模块训练模型,然后在解码阶段,利用状态条件动态引导模块动态调整蒸馏信号,生成最终的医学报告。
关键创新:DIVE的关键创新在于其差异化的token处理方式和动态的蒸馏信号调整机制。与现有方法将所有token同等对待不同,DIVE通过关键token监督来加强对重要信息的学习。此外,DIVE还通过状态条件动态引导,使蒸馏信号能够适应解码过程中的状态变化,从而提高生成报告的质量和稳定性。
关键设计:关键token监督模块中,病理相关token和EOS token的权重是超参数,需要根据具体任务进行调整。状态条件动态引导模块中,适配器网络通常是一个小型的前馈神经网络,其输入是解码器的隐藏状态,输出是用于调整蒸馏信号的权重。损失函数是加权交叉熵损失,其中关键token的权重高于其他token。网络结构采用常见的Transformer结构,并在此基础上添加了适配器网络。
🖼️ 关键图片
📊 实验亮点
DIVE在MIMIC-CXR和CheXpert Plus数据集上,使用两个医学VLM骨干网络进行了实验。实验结果表明,DIVE在BLEU-4、ROUGE-L和RadGraph F1等指标上均取得了最佳性能,并在CheXbert F1上保持竞争力。例如,在某个数据集和骨干网络配置下,DIVE的RadGraph F1比现有最佳方法提高了超过5个百分点。
🎯 应用场景
DIVE框架可应用于各种长文本生成任务,尤其是在需要高度关注关键信息的领域,如医疗报告生成、法律文档生成等。该研究有助于提高生成文本的质量、准确性和可靠性,减少人工干预,提高工作效率。未来,该方法可以进一步扩展到其他模态,例如视频和音频,以生成更丰富的多模态内容。
📄 摘要(原文)
Distilling demonstration effects into hidden-space interventions offers a lightweight alternative to full finetuning. However, existing multimodal variants are mostly evaluated on short-form tasks, where outputs end after a few tokens. Extending these methods to long-form generation exposes a fundamental yet underexamined limitation: token-level distillation implicitly treats all output tokens as equally informative, but long-form outputs are dominated by high-frequency template and grammatical tokens, while the tokens that actually determine output quality are sparsely distributed. In medical report generation (MRG), two such decisive tokens stand out: pathology-related tokens that determine diagnostic content, and the end-of-sequence (EOS) event that determines termination. Both receive insufficient supervision under uniform cross-entropy, and autoregressive decoding further compounds the problem by drifting away from teacher-forced trajectories. We propose DIVE, a frozen-backbone distillation framework that addresses long-form report generation through two complementary mechanisms matched to these failures. Decisive-token supervision restores supervision balance by upweighting the cross-entropy contribution of pathology-related tokens and the EOS event, ensuring that content fidelity and termination are learned during training rather than imposed at decoding time. State-conditioned dynamic steering replaces fixed open-loop residuals with hidden-state-dependent adapters, allowing the injected signal to adapt as decoding drifts. Experiments on MIMIC-CXR and CheXpert Plus with two medical VLM backbones show that DIVE consistently ranks among the strongest methods across lexical and clinical-proxy metrics. Our method achieves the best BLEU-4, ROUGE-L, and RadGraph F1 in all dataset--backbone settings, while remaining competitive on coarse label-level CheXbert F1.