Query-Conditioned Test-Time Self-Training for Large Language Models
作者: Chaehee Song, Minseok Seo, Yeeun Seong, Doyi Kim, Changick Kim
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-13
备注: 17 pages, 4 figures
💡 一句话要点
提出查询条件自训练QueST,提升大语言模型在推理任务中的测试时自适应能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 测试时自适应 自训练 查询条件 推理任务
📋 核心要点
- 现有测试时优化方法依赖外部数据或通用自监督目标,缺乏针对特定查询的适应性。
- QueST通过输入查询本身构建结构相关的problem--solution对,实现查询条件下的自训练。
- 实验表明,QueST在数学和科学推理基准测试中,显著优于现有的测试时优化方法。
📝 摘要(中文)
大型语言模型(LLMs)通常以固定参数部署,其性能通常通过在推理时分配更多计算资源来提高。虽然这种测试时扩展可能有效,但它无法纠正模型的错误概念或使模型适应单个查询的特定结构。测试时优化通过在推理期间启用参数更新来解决此限制,但现有方法要么依赖于外部数据,要么优化缺乏查询特定对齐的通用自监督目标。本文提出了查询条件测试时自训练(QueST),该框架使用直接从输入查询导出的监督来调整推理期间的模型参数。我们的关键见解是,输入查询本身编码了足够的潜在信号,可以构建结构相关的problem--solution对。基于此,QueST生成此类查询条件对,并将其用作测试时参数高效微调的监督。然后,使用自适应模型生成最终答案,从而在没有任何外部数据的情况下实现查询特定的自适应。在七个数学推理基准和GPQA-Diamond科学推理基准上,QueST始终优于强大的测试时优化基线。这些结果表明,查询条件自训练是LLM中测试时自适应的有效且实用的范例。
🔬 方法详解
问题定义:现有的大语言模型在推理时通常采用固定参数,难以适应特定查询的结构和细微差别。测试时优化虽然可以通过更新参数来解决这个问题,但现有方法要么依赖外部数据,要么使用通用的自监督目标,无法针对特定查询进行有效优化。这导致模型在面对结构复杂的查询时,性能提升有限。
核心思路:QueST的核心思路是利用输入查询本身所蕴含的潜在信息,构建与查询相关的problem--solution对,作为自监督信号来微调模型。作者认为,查询本身包含了足够的结构信息,可以用于生成与该查询相关的训练数据,从而实现针对特定查询的自适应。
技术框架:QueST框架主要包含以下几个步骤:1) 查询条件数据生成:基于输入查询,生成结构相关的problem--solution对。具体方法未知。2) 参数高效微调:使用生成的problem--solution对,对大语言模型进行参数高效的微调。3) 答案生成:使用微调后的模型生成最终答案。整个过程无需外部数据,实现了完全基于查询本身的自适应。
关键创新:QueST的关键创新在于提出了查询条件自训练的概念,即利用输入查询本身的信息来构建自监督信号,从而实现针对特定查询的测试时自适应。与现有方法相比,QueST无需外部数据,并且能够更好地利用查询的结构信息,从而实现更有效的模型微调。
关键设计:关于查询条件数据生成的具体方法未知。参数高效微调的具体实现方式未知,可能采用了诸如LoRA等技术。损失函数的设计也未知,但推测是基于生成的problem--solution对,采用对比学习或生成式学习的损失函数。
🖼️ 关键图片
📊 实验亮点
QueST在七个数学推理基准测试和GPQA-Diamond科学推理基准测试中,均取得了显著的性能提升,超越了现有的测试时优化基线。具体提升幅度未知,但结果表明,查询条件自训练是一种有效且实用的测试时自适应方法。
🎯 应用场景
QueST具有广泛的应用前景,可以应用于各种需要大语言模型进行推理的任务中,例如数学问题求解、科学推理、代码生成等。通过在测试时对模型进行自适应调整,可以显著提高模型在特定任务上的性能,从而提升用户体验和解决问题的效率。该方法尤其适用于数据稀缺或难以获取的场景。
📄 摘要(原文)
Large language models (LLMs) are typically deployed with fixed parameters, and their performance is often improved by allocating more computation at inference time. While such test-time scaling can be effective, it cannot correct model misconceptions or adapt the model to the specific structure of an individual query. Test-time optimization addresses this limitation by enabling parameter updates during inference, but existing approaches either rely on external data or optimize generic self-supervised objectives that lack query-specific alignment. In this work, we propose Query-Conditioned Test-Time Self-Training (QueST), a framework that adapts model parameters during inference using supervision derived directly from the input query. Our key insight is that the input query itself encodes latent signals sufficient for constructing structurally related problem--solution pairs. Based on this, QueST generates such query-conditioned pairs and uses them as supervision for parameter-efficient fine-tuning at test time. The adapted model is then used to produce the final answer, enabling query-specific adaptation without any external data. Across seven mathematical reasoning benchmarks and the GPQA-Diamond scientific reasoning benchmark, QueST consistently outperforms strong test-time optimization baselines. These results demonstrate that query-conditioned self-training is an effective and practical paradigm for test-time adaptation in LLMs.