Test-Time Learning for Large Language Models

作者: Jinwu Hu, Zhitian Zhang, Guohao Chen, Xutao Wen, Chao Shuai, Wei Luo, Bin Xiao, Yuanqing Li, Mingkui Tan

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-05-27

备注: Accepted by ICML2025

💡 一句话要点

提出TLM：一种面向大语言模型的测试时学习方法，提升领域知识适应能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 测试时学习 领域适应 困惑度最小化 低秩适应 自监督学习

📋 核心要点

大语言模型在特定领域和处理语言变体时泛化能力不足，存在分布偏移问题。
TLM通过最小化无标签测试数据的输入困惑度，实现LLM在测试时的自监督性能提升。
TLM采用样本高效学习策略，选择高困惑度样本进行更新，并使用LoRA缓解灾难性遗忘。

📝 摘要（中文）

大型语言模型（LLM）通过大规模预训练展现了卓越的涌现能力，但在泛化到特定领域和处理多样化语言变体（即分布偏移）方面仍面临严峻挑战。本文提出了一种针对LLM的测试时学习（TTL）范式，名为TLM，它仅使用无标签测试数据，在测试阶段动态地将LLM适应到目标领域。具体而言，我们首先通过实验证据和理论分析表明，最小化无标签测试数据的输入困惑度可以提高LLM预测的准确性。基于此，我们将LLM的测试时学习过程定义为输入困惑度最小化，从而实现LLM性能的自监督提升。此外，我们观察到高困惑度的样本对于模型优化更有信息量。因此，我们引入了一种样本高效学习策略，主动选择并强调这些高困惑度的样本进行测试时更新。最后，为了缓解灾难性遗忘并确保适应稳定性，我们采用低秩适应（LoRA）代替全参数优化，从而在保留模型更多原始知识的同时，实现轻量级的模型更新。我们引入了AdaptEval基准用于TTL，并通过实验证明，与原始LLM相比，TLM在领域知识适应方面至少提高了20%的性能。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在面对特定领域或不同语言风格的数据时，泛化能力不足的问题。现有方法通常依赖于额外的领域数据进行微调，但获取和标注这些数据成本高昂。此外，直接使用预训练的LLM在这些领域上的表现往往不尽如人意，存在知识缺失或不适应的问题。

核心思路：论文的核心思路是利用测试时学习（Test-Time Learning, TTL）范式，在不依赖额外标注数据的情况下，仅使用无标签的测试数据来动态调整LLM，使其适应目标领域。关键在于通过最小化输入困惑度来优化模型，因为较低的困惑度意味着模型更好地理解输入数据，从而提高预测准确性。

技术框架：TLM的整体框架包含以下几个主要阶段：1) 困惑度计算：使用LLM计算无标签测试数据的困惑度。2) 样本选择：根据困惑度选择信息量更大的高困惑度样本。3) 模型更新：使用选定的样本，通过最小化困惑度来更新LLM的参数。4) 适应性评估：在更新后的模型上评估性能。整个过程是自监督的，不需要人工标注。

关键创新：TLM的关键创新在于将输入困惑度最小化作为LLM测试时学习的目标函数。与传统的微调方法不同，TLM不需要额外的标注数据，而是利用模型自身的预测能力来指导学习过程。此外，样本高效学习策略和LoRA的使用进一步提高了学习效率和稳定性。

关键设计：TLM的关键设计包括：1) 困惑度损失函数：使用交叉熵损失函数来衡量模型预测的困惑度。2) 样本选择策略：选择困惑度高于某个阈值的样本进行更新，阈值可以根据数据集的特性进行调整。3) LoRA配置：选择合适的LoRA秩（rank）和学习率，以平衡模型更新的幅度和稳定性。实验中使用了AdaptEval基准进行评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TLM在AdaptEval基准上相比原始LLM至少提升了20%的性能，证明了其在领域知识适应方面的有效性。通过对比不同样本选择策略和LoRA配置，验证了高困惑度样本选择和LoRA对模型性能的积极影响。此外，实验还展示了TLM在不同领域和数据集上的泛化能力。

🎯 应用场景

TLM具有广泛的应用前景，例如可以应用于医疗、金融、法律等专业领域，提升LLM在这些领域的问答、文本生成等任务上的性能。此外，TLM还可以用于处理不同语言风格或方言的文本，增强LLM的鲁棒性和适应性。该研究有助于推动LLM在实际场景中的应用，降低模型部署和维护的成本。

📄 摘要（原文）

While Large Language Models (LLMs) have exhibited remarkable emergent capabilities through extensive pre-training, they still face critical limitations in generalizing to specialized domains and handling diverse linguistic variations, known as distribution shifts. In this paper, we propose a Test-Time Learning (TTL) paradigm for LLMs, namely TLM, which dynamically adapts LLMs to target domains using only unlabeled test data during testing. Specifically, we first provide empirical evidence and theoretical insights to reveal that more accurate predictions from LLMs can be achieved by minimizing the input perplexity of the unlabeled test data. Based on this insight, we formulate the Test-Time Learning process of LLMs as input perplexity minimization, enabling self-supervised enhancement of LLM performance. Furthermore, we observe that high-perplexity samples tend to be more informative for model optimization. Accordingly, we introduce a Sample Efficient Learning Strategy that actively selects and emphasizes these high-perplexity samples for test-time updates. Lastly, to mitigate catastrophic forgetting and ensure adaptation stability, we adopt Low-Rank Adaptation (LoRA) instead of full-parameter optimization, which allows lightweight model updates while preserving more original knowledge from the model. We introduce the AdaptEval benchmark for TTL and demonstrate through experiments that TLM improves performance by at least 20% compared to original LLMs on domain knowledge adaptation.

Test-Time Learning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理