Training-Free Test-Time Contrastive Learning for Large Language Models

📄 arXiv: 2604.13552v1 📥 PDF

作者: Kaiwen Zheng, Kai Zhou, Jinwu Hu, Te Gu, Mingkai Peng, Fei Liu

分类: cs.CL, cs.AI

发布日期: 2026-04-15

备注: Accepted by Findings ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出TF-TTCL,一种免训练的测试时对比学习框架,提升大语言模型在分布偏移下的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 测试时自适应 对比学习 免训练 分布偏移 推理 知识蒸馏 规则检索

📋 核心要点

  1. 现有测试时自适应方法依赖梯度更新,成本高且需白盒访问,免训练方法则缺乏动态性和外部指导。
  2. TF-TTCL通过“探索-反思-引导”循环,从LLM自身推理经验中提取监督信息,实现动态在线改进。
  3. 实验表明,TF-TTCL在多种任务上优于零样本基线和代表性TTA方法,提升了LLM的鲁棒推理能力。

📝 摘要(中文)

大语言模型(LLMs)展现出强大的推理能力,但其性能在分布偏移下通常会下降。现有的测试时自适应(TTA)方法依赖于基于梯度的更新,需要白盒访问权限和大量开销,而免训练的替代方案要么是静态的,要么依赖于外部指导。本文提出了一种免训练的测试时对比学习框架TF-TTCL,该框架使冻结的LLM能够通过从自身的推理经验中提取监督信息来在线改进。具体来说,TF-TTCL通过三个核心模块实现了一个动态的“探索-反思-引导”循环:1)语义查询增强,首先通过多智能体角色扮演来多样化问题视图,以生成不同的推理轨迹;2)对比经验蒸馏,然后捕获优越和劣等轨迹之间的语义差距,将其提炼成显式的文本规则;3)上下文规则检索,最后在推理过程中激活这些存储的规则,以动态地引导冻结的LLM朝着鲁棒的推理模式发展,同时避免观察到的错误。在封闭式推理任务和开放式评估任务上的大量实验表明,TF-TTCL在在线评估下始终优于强大的零样本基线和具有代表性的TTA方法。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对分布偏移时性能下降的问题。现有测试时自适应方法通常需要梯度更新,计算开销大,且需要访问模型内部参数(白盒访问)。而免训练的方法要么是静态的,无法根据新的数据进行调整,要么依赖于外部的指导信息,增加了额外的复杂性。

核心思路:TF-TTCL的核心思路是让LLM从自身的推理经验中学习,通过对比学习的方式,区分好的推理轨迹和坏的推理轨迹,并将这种区分转化为显式的规则,用于指导后续的推理过程。这种方法不需要梯度更新,也不依赖于外部数据,而是完全基于LLM自身的推理过程进行学习。

技术框架:TF-TTCL包含三个主要模块:1) 语义查询增强(Semantic Query Augmentation):通过多智能体角色扮演,从不同的角度看待问题,生成多个不同的推理轨迹。2) 对比经验蒸馏(Contrastive Experience Distillation):对比不同的推理轨迹,找出优劣轨迹之间的语义差距,并将这些差距提炼成显式的文本规则。3) 上下文规则检索(Contextual Rule Retrieval):在推理过程中,根据当前上下文检索相关的规则,并利用这些规则来引导LLM的推理过程。

关键创新:TF-TTCL的关键创新在于提出了一种完全免训练的测试时对比学习框架,它不需要梯度更新,也不依赖于外部数据,而是完全基于LLM自身的推理过程进行学习。通过“探索-反思-引导”的循环,LLM可以动态地适应新的数据分布,提高推理的鲁棒性。

关键设计:语义查询增强模块使用多智能体角色扮演来生成不同的推理轨迹,具体实现方式未知。对比经验蒸馏模块通过对比学习损失来区分优劣轨迹,损失函数的具体形式未知。上下文规则检索模块根据上下文检索相关规则,检索算法的具体细节未知。论文中没有明确给出关键参数设置、损失函数和网络结构的具体细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TF-TTCL在封闭式推理任务和开放式评估任务上都取得了显著的性能提升,优于零样本基线和代表性的TTA方法。具体的性能数据和提升幅度在论文中给出,但摘要中未明确说明具体数值。该方法无需训练,易于部署,具有很强的实用价值。

🎯 应用场景

TF-TTCL具有广泛的应用前景,可以应用于各种需要大语言模型进行推理的场景,尤其是在数据分布不断变化的动态环境中。例如,可以用于智能客服、自动驾驶、金融风控等领域,提高LLM在实际应用中的可靠性和鲁棒性,降低模型维护和重新训练的成本。

📄 摘要(原文)

Large language models (LLMs) demonstrate strong reasoning capabilities, but their performance often degrades under distribution shift. Existing test-time adaptation (TTA) methods rely on gradient-based updates that require white-box access and need substantial overhead, while training-free alternatives are either static or depend on external guidance. In this paper, we propose Training-Free Test-Time Contrastive Learning TF-TTCL, a training-free adaptation framework that enables a frozen LLM to improve online by distilling supervision from its own inference experiences. Specifically, TF-TTCL implements a dynamic "Explore-Reflect-Steer" loop through three core modules: 1) Semantic Query Augmentation first diversifies problem views via multi-agent role-playing to generate different reasoning trajectories; 2) Contrastive Experience Distillation then captures the semantic gap between superior and inferior trajectories, distilling them into explicit textual rules; and 3) Contextual Rule Retrieval finally activates these stored rules during inference to dynamically steer the frozen LLM toward robust reasoning patterns while avoiding observed errors. Extensive experiments on closed-ended reasoning tasks and open-ended evaluation tasks demonstrate that TF-TTCL consistently outperforms strong zero-shot baselines and representative TTA methods under online evaluation. Code is available at https://github.com/KevinSCUTer/TF-TTCL.