LLMs can construct powerful representations and streamline sample-efficient supervised learning

📄 arXiv: 2603.11679v1 📥 PDF

作者: Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag

分类: cs.AI

发布日期: 2026-03-12


💡 一句话要点

利用LLM构建强大表征,简化样本高效的监督学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 上下文学习 数据表征 特征工程 医疗健康

📋 核心要点

  1. 现实世界数据集复杂异构,传统监督学习受限于人工设计的输入表征,需要大量领域知识。
  2. 提出一种基于LLM的agentic pipeline,通过全局和局部规则将原始文本序列化输入转换为标准化格式。
  3. 在EHRSHOT临床任务中,该方法显著优于传统模型、LLM基线和临床基础模型,且易于审计和部署。

📝 摘要(中文)

随着现实世界数据集变得越来越复杂和异构,监督学习常常受到输入表征设计的瓶颈限制。对时间序列、自由文本和结构化记录等多模态数据进行建模,通常需要大量的领域特定工程。我们提出了一种agentic pipeline来简化这一过程。首先,LLM分析一小部分但多样化的文本序列化输入示例,进行上下文学习,以合成一个全局规则,该规则充当提取和组织证据的程序化规范。然后,该规则用于将输入的原始文本序列化转换为更标准化的格式,以供下游模型使用。我们还描述了局部规则,即由LLM生成的任务条件摘要。在EHRSHOT基准测试的15项临床任务中,我们基于规则的方法显著优于传统的计数特征模型、基于原始文本序列化的LLM基线以及在更多数量级数据上预训练的临床基础模型。除了性能之外,规则还为运营医疗保健环境提供了几个优势,例如易于审计、规模化部署的成本效益,并且可以转换为表格表示,从而解锁大量的机器学习技术。

🔬 方法详解

问题定义:现有监督学习方法在处理复杂异构数据时,依赖于人工设计的输入表征,这需要大量的领域知识和工程投入。尤其是在医疗领域,电子病历数据包含时间序列、自由文本和结构化记录等多种模态,如何有效地将这些数据转换为下游模型可用的表征是一个挑战。现有的方法,如计数特征模型,无法充分利用文本信息,而直接使用LLM处理原始文本序列化数据,效果往往不佳。

核心思路:论文的核心思路是利用LLM的上下文学习能力,从少量样本中学习数据特征,并生成可用于数据转换的规则(rubrics)。这些规则可以看作是领域知识的程序化表示,能够指导模型从原始文本中提取关键信息,并将其组织成标准化的格式。通过这种方式,可以减少对人工特征工程的依赖,并提高模型的性能。

技术框架:该方法包含一个agentic pipeline,主要分为以下几个阶段:1) LLM分析:LLM接收一小部分多样化的文本序列化输入示例,并进行上下文学习。2) 规则合成:LLM根据输入示例合成全局规则(global rubric),该规则定义了如何从原始文本中提取和组织证据。同时,还可以生成任务条件摘要,即局部规则(local rubric)。3) 数据转换:利用合成的规则,将原始文本序列化输入转换为标准化的格式。4) 下游模型:将转换后的数据输入到下游模型进行训练和预测。

关键创新:该方法最重要的创新点在于利用LLM自动生成数据转换规则,从而减少了对人工特征工程的依赖。与传统的特征工程方法相比,该方法能够更好地利用LLM的上下文学习能力,从少量样本中学习数据特征,并生成更有效的表征。与直接使用LLM处理原始文本序列化数据相比,该方法通过规则的引导,能够更准确地提取关键信息,并提高模型的性能。

关键设计:论文中,规则的设计是关键。全局规则用于定义通用的数据提取和组织方式,而局部规则则根据具体的任务进行调整。LLM的选择和prompt的设计也会影响规则的质量。此外,如何将规则转换为可执行的程序化规范,以及如何将转换后的数据输入到下游模型,也是需要考虑的关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于规则的方法在EHRSHOT基准测试的15项临床任务中,显著优于传统的计数特征模型、基于原始文本序列化的LLM基线以及临床基础模型。具体来说,该方法在多个任务上取得了SOTA结果,并且在某些任务上的提升幅度超过10%。这表明该方法能够有效地利用LLM的上下文学习能力,生成高质量的数据表征,并提高模型的性能。

🎯 应用场景

该研究成果可广泛应用于医疗健康领域,例如疾病诊断、风险预测和个性化治疗。通过自动生成数据转换规则,可以减少对领域专家的依赖,降低模型开发的成本,并提高模型的性能。此外,该方法还可以应用于其他领域,例如金融、法律和教育等,只要数据具有一定的结构化特征,就可以利用LLM生成规则进行数据转换。

📄 摘要(原文)

As real-world datasets become increasingly complex and heterogeneous, supervised learning is often bottlenecked by input representation design. Modeling multimodal data for downstream tasks, such as time-series, free text, and structured records, often requires non-trivial domain-specific engineering. We propose an agentic pipeline to streamline this process. First, an LLM analyzes a small but diverse subset of text-serialized input examples in-context to synthesize a global rubric, which acts as a programmatic specification for extracting and organizing evidence. This rubric is then used to transform naive text-serializations of inputs into a more standardized format for downstream models. We also describe local rubrics, which are task-conditioned summaries generated by an LLM. Across 15 clinical tasks from the EHRSHOT benchmark, our rubric-based approaches significantly outperform traditional count-feature models, naive text-serialization-based LLM baselines, and a clinical foundation model, which is pretrained on orders of magnitude more data. Beyond performance, rubrics offer several advantages for operational healthcare settings such as being easy to audit, cost-effectiveness to deploy at scale, and they can be converted to tabular representations that unlock a swath of machine learning techniques.