Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment

作者: Sayantan Kumar, Shahriar Noroozizadeh, Juyong Kim, Jeremy C. Weiss

分类: cs.CL, cs.AI, cs.LG, stat.ML

发布日期: 2026-05-14

备注: Sayantan Kumar, Shahriar Noroozizadeh, Juyong Kim (authors contributed equally)

💡 一句话要点

提出检索增强的多模态对齐框架，用于临床时间线重建，提升时间戳精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 临床时间线重建 多模态对齐 检索增强 电子健康记录 自然语言处理

📋 核心要点

临床叙述缺乏时间精确性，EHR数据遗漏大量临床事件，导致临床时间线重建不准确。
提出检索增强的多模态对齐框架，利用文本和EHR数据互补信息，提升时间线重建精度。
实验表明，该方法提高了绝对时间戳准确性，并在大多数模型中提高了时间一致性，且不影响事件匹配率。

📝 摘要（中文）

精确的临床时间线重建对于建模患者轨迹和预测复杂异质性疾病（如脓毒症）的风险至关重要。非结构化临床叙述提供了语义丰富且上下文完整的患者病程描述，但缺乏时间精确性，事件时间存在歧义。结构化电子健康记录(EHR)数据提供了精确的时间锚点，但遗漏了大量具有临床意义的事件。本文提出了一种检索增强的多模态对齐框架，弥合了这一差距，提高了从文本中提取的绝对临床时间线的时间精度。该方法将时间线重建建模为一个基于图的多步骤过程：首先从叙述中提取中心锚事件以构建初始时间支架，然后将非中心事件相对于该支架进行放置，最后使用检索到的结构化EHR行作为外部时间证据来校准时间线。在MIMIC-III和MIMIC-IV上的i2m4基准测试中，使用指令调整的大型语言模型评估表明，我们的多模态流程始终提高绝对时间戳准确性(AULTC)，并在几乎所有评估模型中提高了时间一致性，且不影响事件匹配率。此外，我们的经验差距分析表明，34.8%的文本衍生事件完全不存在于表格记录中，这表明对齐这些模态可以产生比单独使用任何一种来源更具时间真实性和临床信息量的患者轨迹重建。

🔬 方法详解

问题定义：论文旨在解决临床时间线重建中，仅依赖文本或EHR数据所导致的时间精度不足和信息不完整的问题。现有方法要么依赖非结构化文本，缺乏精确的时间戳；要么依赖结构化EHR数据，但丢失了大量临床事件信息。这限制了对患者轨迹的准确建模和风险预测。

核心思路：论文的核心思路是利用文本和EHR数据的互补性。文本提供丰富的上下文信息和事件描述，而EHR数据提供精确的时间锚点。通过检索增强的多模态对齐，将文本中的事件与EHR数据中的时间信息进行关联，从而提高时间线重建的精度和完整性。

技术框架：该框架包含以下主要步骤：1) 锚事件提取：从临床叙述中提取关键的锚事件，构建初始的时间骨架。2) 事件相对位置确定：将非关键事件相对于锚事件进行定位，确定它们在时间骨架上的相对位置。3) EHR检索与校准：从EHR数据中检索相关的时间信息，用于校准时间线，提高时间戳的准确性。整个过程可以看作是一个基于图的多步骤过程。

关键创新：该方法的核心创新在于将检索增强与多模态对齐相结合。通过检索相关的EHR数据，为文本中的事件提供外部的时间证据，从而提高了时间线重建的精度。此外，该方法还能够发现文本中存在但EHR数据中缺失的事件，从而提高了时间线的完整性。

关键设计：论文使用指令调整的大型语言模型进行事件提取和关系推断。时间线重建被建模为一个图结构，节点表示事件，边表示事件之间的时序关系。损失函数的设计旨在最大化时间戳的准确性和时间一致性。具体的参数设置和网络结构在论文中进行了详细描述，但未在此处详细展开。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在i2m4基准测试中，使用指令调整的大型语言模型评估，始终提高绝对时间戳准确性(AULTC)，并在几乎所有评估模型中提高了时间一致性，且不影响事件匹配率。经验差距分析表明，34.8%的文本衍生事件完全不存在于表格记录中，证明了多模态融合的必要性。

🎯 应用场景

该研究成果可应用于临床决策支持系统，帮助医生更准确地了解患者的病程发展，预测疾病风险，并制定个性化的治疗方案。此外，该技术还可用于医疗数据分析和研究，例如，分析不同治疗方案对患者预后的影响，或发现新的疾病风险因素。未来，该技术有望在智能医疗领域发挥重要作用。

📄 摘要（原文）

Reconstructing precise clinical timelines is essential for modeling patient trajectories and forecasting risk in complex, heterogeneous conditions like sepsis. While unstructured clinical narratives offer semantically rich and contextually complete descriptions of a patient's course, they often lack temporal precision and contain ambiguous event timing. Conversely, structured electronic health record (EHR) data provides precise temporal anchors but misses a substantial portion of clinically meaningful events. We introduce a retrieval-augmented multimodal alignment framework that bridges this gap to improve the temporal precision of absolute clinical timelines extracted from text. Our approach formulates timeline reconstruction as a graph-based multistep process: it first extracts central anchor events from narratives to build an initial temporal scaffold, places non-central events relative to this backbone, and then calibrates the timeline using retrieved structured EHR rows as external temporal evidence. Evaluated using instruction-tuned large language models on the i2m4 benchmark spanning MIMIC-III and MIMIC-IV, our multimodal pipeline consistently improves absolute timestamp accuracy (AULTC) and improves temporal concordance across nearly all evaluated models over unimodal text-only reconstruction, without compromising event match rates. Furthermore, our empirical gap analysis reveals that 34.8% of text-derived events are entirely absent from tabular records, demonstrating that aligning these modalities can produce a more temporally faithful and clinically informative reconstruction of patient trajectories than either source alone.

Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理