LLMs can construct powerful representations and streamline sample-efficient supervised learning

作者: Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag

分类: cs.AI

发布日期: 2026-03-12

💡 一句话要点

利用LLM构建强大表征，简化样本高效的监督学习

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM 上下文学习 数据表征 特征工程 医疗健康

📋 核心要点

现实世界数据集复杂异构，传统监督学习受限于人工设计的输入表征，需要大量领域知识。
提出一种基于LLM的agentic pipeline，通过全局和局部规则将原始文本序列化输入转换为标准化格式。
在EHRSHOT临床任务中，该方法显著优于传统模型、LLM基线和临床基础模型，且易于审计和部署。

📝 摘要（中文）

随着现实世界数据集变得越来越复杂和异构，监督学习常常受到输入表征设计的瓶颈限制。对时间序列、自由文本和结构化记录等多模态数据进行建模，通常需要大量的领域特定工程。我们提出了一种agentic pipeline来简化这一过程。首先，LLM分析一小部分但多样化的文本序列化输入示例，进行上下文学习，以合成一个全局规则，该规则充当提取和组织证据的程序化规范。然后，该规则用于将输入的原始文本序列化转换为更标准化的格式，以供下游模型使用。我们还描述了局部规则，即由LLM生成的任务条件摘要。在EHRSHOT基准测试的15项临床任务中，我们基于规则的方法显著优于传统的计数特征模型、基于原始文本序列化的LLM基线以及在更多数量级数据上预训练的临床基础模型。除了性能之外，规则还为运营医疗保健环境提供了几个优势，例如易于审计、规模化部署的成本效益，并且可以转换为表格表示，从而解锁大量的机器学习技术。

🔬 方法详解

问题定义：现有监督学习方法在处理复杂异构数据时，依赖于人工设计的输入表征，这需要大量的领域知识和工程投入。尤其是在医疗领域，电子病历数据包含时间序列、自由文本和结构化记录等多种模态，如何有效地将这些数据转换为下游模型可用的表征是一个挑战。现有的方法，如计数特征模型，无法充分利用文本信息，而直接使用LLM处理原始文本序列化数据，效果往往不佳。

核心思路：论文的核心思路是利用LLM的上下文学习能力，从少量样本中学习数据特征，并生成可用于数据转换的规则（rubrics）。这些规则可以看作是领域知识的程序化表示，能够指导模型从原始文本中提取关键信息，并将其组织成标准化的格式。通过这种方式，可以减少对人工特征工程的依赖，并提高模型的性能。

技术框架：该方法包含一个agentic pipeline，主要分为以下几个阶段：1) LLM分析：LLM接收一小部分多样化的文本序列化输入示例，并进行上下文学习。2) 规则合成：LLM根据输入示例合成全局规则（global rubric），该规则定义了如何从原始文本中提取和组织证据。同时，还可以生成任务条件摘要，即局部规则（local rubric）。3) 数据转换：利用合成的规则，将原始文本序列化输入转换为标准化的格式。4) 下游模型：将转换后的数据输入到下游模型进行训练和预测。

关键创新：该方法最重要的创新点在于利用LLM自动生成数据转换规则，从而减少了对人工特征工程的依赖。与传统的特征工程方法相比，该方法能够更好地利用LLM的上下文学习能力，从少量样本中学习数据特征，并生成更有效的表征。与直接使用LLM处理原始文本序列化数据相比，该方法通过规则的引导，能够更准确地提取关键信息，并提高模型的性能。

关键设计：论文中，规则的设计是关键。全局规则用于定义通用的数据提取和组织方式，而局部规则则根据具体的任务进行调整。LLM的选择和prompt的设计也会影响规则的质量。此外，如何将规则转换为可执行的程序化规范，以及如何将转换后的数据输入到下游模型，也是需要考虑的关键设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于规则的方法在EHRSHOT基准测试的15项临床任务中，显著优于传统的计数特征模型、基于原始文本序列化的LLM基线以及临床基础模型。具体来说，该方法在多个任务上取得了SOTA结果，并且在某些任务上的提升幅度超过10%。这表明该方法能够有效地利用LLM的上下文学习能力，生成高质量的数据表征，并提高模型的性能。

🎯 应用场景

该研究成果可广泛应用于医疗健康领域，例如疾病诊断、风险预测和个性化治疗。通过自动生成数据转换规则，可以减少对领域专家的依赖，降低模型开发的成本，并提高模型的性能。此外，该方法还可以应用于其他领域，例如金融、法律和教育等，只要数据具有一定的结构化特征，就可以利用LLM生成规则进行数据转换。

📄 摘要（原文）

As real-world datasets become increasingly complex and heterogeneous, supervised learning is often bottlenecked by input representation design. Modeling multimodal data for downstream tasks, such as time-series, free text, and structured records, often requires non-trivial domain-specific engineering. We propose an agentic pipeline to streamline this process. First, an LLM analyzes a small but diverse subset of text-serialized input examples in-context to synthesize a global rubric, which acts as a programmatic specification for extracting and organizing evidence. This rubric is then used to transform naive text-serializations of inputs into a more standardized format for downstream models. We also describe local rubrics, which are task-conditioned summaries generated by an LLM. Across 15 clinical tasks from the EHRSHOT benchmark, our rubric-based approaches significantly outperform traditional count-feature models, naive text-serialization-based LLM baselines, and a clinical foundation model, which is pretrained on orders of magnitude more data. Beyond performance, rubrics offer several advantages for operational healthcare settings such as being easy to audit, cost-effectiveness to deploy at scale, and they can be converted to tabular representations that unlock a swath of machine learning techniques.

LLMs can construct powerful representations and streamline sample-efficient supervised learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理