From Token to Token Pair: Efficient Prompt Compression for Large Language Models in Clinical Prediction

作者: Mingcheng Zhu, Zhiyao Luo, Yu Liu, Tingting Zhu

分类: cs.CL, cs.LG

发布日期: 2026-05-12

备注: 21 pages, 6 figures, 13 tables

💡 一句话要点

提出MedTPE方法，用于临床预测中LLM的EHR序列高效压缩。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电子健康记录 大型语言模型 token压缩 临床预测 无损压缩

📋 核心要点

现有方法在压缩EHR序列时，要么增加计算负担，要么损失临床信息，无法兼顾效率与信息完整性。
MedTPE通过合并频繁共现的医学token对，实现无损压缩，并采用依赖感知替换策略保持计算复杂度。
实验表明，MedTPE显著减少了token长度和推理延迟，同时保持甚至提升了临床预测的性能和格式合规性。

📝 摘要（中文）

大型语言模型（LLM）通过将电子健康记录（EHR）处理为自然语言序列，在死亡率预测和表型分析等临床预测任务中展现出潜力。然而，纵向或高频EHR通常产生过长的token序列，导致高昂的计算成本，甚至降低性能。现有的解决方案要么增加压缩模块，要么移除不太重要的token，这会引入额外的推理延迟或存在丢失临床信息的风险。为了在不增加额外成本或损失性能的情况下实现token序列的无损压缩，我们提出了一种分层方法Medical Token-Pair Encoding (MedTPE)，它扩展了EHR序列的标准token化。MedTPE将频繁共现的医学token对合并为复合token，通过依赖感知的替换策略提供无损压缩，同时保持计算复杂度。仅对LLM参数中仅占0.5-1.0%的新引入token的嵌入进行自监督学习微调。在真实世界数据集上进行的两个临床场景的实验表明，MedTPE将输入token长度最多减少31%，推理延迟减少34-63%，同时在多个LLM和四个临床预测任务中保持甚至提高了预测性能和输出格式的合规性。此外，MedTPE在不同的输入上下文长度上表现出鲁棒性，并具有推广到科学和金融领域以及不同语言的能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在处理电子健康记录（EHR）进行临床预测时，由于EHR序列过长导致的计算成本高昂和性能下降问题。现有方法，如增加压缩模块或移除token，存在引入额外延迟或丢失关键临床信息的风险。因此，需要一种既能有效压缩EHR序列，又能保持信息完整性和计算效率的方法。

核心思路：论文的核心思路是Medical Token-Pair Encoding (MedTPE)，通过将频繁共现的医学token对合并为新的复合token来实现无损压缩。这种方法避免了信息损失，并通过依赖感知的替换策略，确保计算复杂度不会显著增加。通过只微调少量新增token的嵌入，降低了训练成本。

技术框架：MedTPE方法主要包含以下几个阶段：1) Token化：使用标准的token化方法将EHR序列转换为token序列。2) Token对识别：识别在EHR数据集中频繁共现的医学token对。3) Token对合并：将识别出的token对合并为新的复合token，并更新词汇表。4) 依赖感知替换：在替换token对时，考虑token之间的依赖关系，确保替换后的序列仍然保持语义的完整性。5) 微调：使用自监督学习方法，仅对新引入的复合token的嵌入进行微调。

关键创新：MedTPE的关键创新在于其无损压缩的特性和依赖感知的替换策略。与现有方法相比，MedTPE能够在不损失临床信息的前提下，显著减少token序列的长度，从而降低计算成本。依赖感知的替换策略保证了压缩后的序列仍然能够准确地表达原始EHR信息。

关键设计：MedTPE的关键设计包括：1) Token对频率阈值：设定一个阈值来确定哪些token对应该被合并。2) 依赖关系建模：使用例如共现矩阵或知识图谱来建模token之间的依赖关系。3) 自监督学习目标：选择合适的自监督学习目标，例如Masked Language Modeling (MLM)，来微调新token的嵌入。4) 微调比例：仅微调新增token的embedding，避免全量微调带来的计算开销。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MedTPE在临床预测任务中，可以将输入token长度减少高达31%，推理延迟降低34-63%，同时保持甚至提高了预测性能和输出格式的合规性。例如，在死亡率预测任务中，MedTPE在多个LLM上都取得了与基线方法相当或更好的性能，同时显著降低了计算成本。

🎯 应用场景

MedTPE方法具有广泛的应用前景，可应用于各类需要处理长序列数据的医疗场景，如疾病诊断、药物研发、患者风险预测等。该方法还可以推广到其他领域，如金融、法律等，以提高LLM在这些领域的应用效率和准确性。未来，MedTPE有望成为处理长序列数据的通用解决方案。

📄 摘要（原文）

By processing electronic health records (EHRs) as natural language sequences, large language models (LLMs) have shown potential in clinical prediction tasks such as mortality prediction and phenotyping. However, longitudinal or highly frequent EHRs often yield excessively long token sequences that result in high computational costs and even reduced performance. Existing solutions either add modules for compression or remove less important tokens, which introduce additional inference latency or risk losing clinical information. To achieve lossless compression of token sequences without additional cost or loss of performance, we propose Medical Token-Pair Encoding (MedTPE), a layered method that extends standard tokenisation for EHR sequences. MedTPE merges frequently co-occurring medical token pairs into composite tokens, providing lossless compression while preserving the computational complexity through a dependency-aware replacement strategy. Only the embeddings of the newly introduced tokens of merely 0.5-1.0% of the LLM's parameters are fine-tuned via self-supervised learning. Experiments on real-world datasets for two clinical scenarios demonstrate that MedTPE reduces input token length by up to 31% and inference latency by 34-63%, while maintaining or even improving both predictive performance and output format compliance across multiple LLMs and four clinical prediction tasks. Furthermore, MedTPE demonstrates robustness across different input context lengths and generalisability to scientific and financial domains and different languages.

From Token to Token Pair: Efficient Prompt Compression for Large Language Models in Clinical Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理