VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization
作者: Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin
分类: cs.CL, cs.LG
发布日期: 2026-03-11
备注: Paper submitted to AMIA 2026 Annual Symposium
💡 一句话要点
提出VERI-DPO以解决临床摘要中的证据对齐问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 临床摘要 证据对齐 声明验证 直接偏好优化 大语言模型 电子健康记录 信息整合
📋 核心要点
- 现有的基于LLM的临床摘要生成方法常常引入不支持的陈述,导致信息的准确性和完整性不足。
- VERI-DPO通过声明验证挖掘偏好,并利用直接偏好优化(DPO)将这些偏好整合到摘要生成器中,以提高摘要的质量。
- 实验结果表明,VERI-DPO显著降低了不支持声明的比例,同时提高了摘要的有效性,展示了其在临床应用中的潜力。
📝 摘要(中文)
简要医院病程(BHC)叙述必须在临床上有用且忠实于碎片化的电子健康记录(EHR)证据。基于大语言模型(LLM)的临床摘要生成器仍然会引入不支持的陈述,而对齐可能导致遗漏(“少说”退化)。我们提出了VERI-DPO,该方法利用声明验证来挖掘偏好,并通过直接偏好优化(DPO)将其提炼到摘要生成器中。在MIMIC-III-Ext-VeriFact-BHC数据集上,我们训练了一个检索增强的验证器,以单标记格式标记声明-证据对为支持、不支持或未涉及。验证器对从候选BHC中抽样的句子级声明进行评分,并将边际聚合为覆盖感知效用,以挖掘长度控制的、矛盾锚定的偏好对。在保留患者中,验证器挖掘的偏好根据矛盾密度分离候选,VERI-DPO将不支持声明率从10.7%降低到1.9%(本地验证器评判)和从11.6%降低到6.4%(GPT-4o评判),同时将有效性从76.7%提高到82.5%,并保持信息长度。
🔬 方法详解
问题定义:本论文旨在解决临床摘要生成中存在的证据对齐问题,现有方法常常导致生成的摘要包含不支持的陈述,影响临床决策的准确性。
核心思路:VERI-DPO的核心思路是通过声明验证来挖掘和优化临床摘要中的偏好,从而确保生成的摘要既有用又忠实于EHR证据。
技术框架:该方法的整体架构包括一个检索增强的验证器和一个直接偏好优化模块。验证器负责对声明-证据对进行标记和评分,而DPO模块则将挖掘的偏好整合到摘要生成过程中。
关键创新:VERI-DPO的主要创新在于结合了声明验证与直接偏好优化,能够有效减少不支持声明的生成,并提高摘要的有效性,这在现有方法中尚未实现。
关键设计:在设计上,验证器使用单标记格式进行声明-证据对的标记,并通过覆盖感知效用来挖掘长度控制的偏好对。此外,损失函数和网络结构经过精心设计,以确保生成摘要的质量和信息量。
🖼️ 关键图片
📊 实验亮点
在实验中,VERI-DPO显著降低了不支持声明的比例,从10.7%降至1.9%(本地验证器评判),从11.6%降至6.4%(GPT-4o评判),同时有效性从76.7%提升至82.5%。这些结果表明该方法在提高临床摘要质量方面的显著优势。
🎯 应用场景
VERI-DPO的研究成果在临床信息系统中具有广泛的应用潜力,能够提高电子健康记录摘要的质量,帮助医生更准确地获取患者信息,从而改善临床决策。此外,该方法也可扩展到其他需要信息整合和验证的领域,如法律文书和科学文献的摘要生成。
📄 摘要(原文)
Brief Hospital Course (BHC) narratives must be clinically useful yet faithful to fragmented EHR evidence. LLM-based clinical summarizers still introduce unsupported statements, and alignment can encourage omissions ("say-less" degeneration). We introduce VERI-DPO, which uses claim verification to mine preferences and distill them into the summarizer with Direct Preference Optimization (DPO). On MIMIC-III-Ext-VeriFact-BHC (100 ICU patients; patient-level splits), we train a retrieval-augmented verifier to label claim-evidence pairs as Supported, Not Supported, or Not Addressed via a single-token format. The verifier scores sentence-level claims from sampled BHC candidates and aggregates margins into a coverage-aware utility to mine length-controlled, contradiction-anchored preference pairs. On held-out patients, verifier-mined preferences separate candidates by contradiction density, and VERI-DPO reduces Not Supported claim rates from 10.7% to 1.9% (local verifier judge) and from 11.6% to 6.4% (GPT-4o judge), while improving validity from 76.7% to 82.5% and maintaining informative length.