Training-Free Test-Time Contrastive Learning for Large Language Models

作者: Kaiwen Zheng, Kai Zhou, Jinwu Hu, Te Gu, Mingkai Peng, Fei Liu

分类: cs.CL, cs.AI

发布日期: 2026-04-15

备注: Accepted by Findings ACL 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出TF-TTCL，一种免训练的测试时对比学习框架，提升大语言模型在分布偏移下的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 测试时自适应 对比学习 免训练 分布偏移 推理 知识蒸馏 规则检索

📋 核心要点

现有测试时自适应方法依赖梯度更新，成本高且需白盒访问，免训练方法则缺乏动态性和外部指导。
TF-TTCL通过“探索-反思-引导”循环，从LLM自身推理经验中提取监督信息，实现动态在线改进。
实验表明，TF-TTCL在多种任务上优于零样本基线和代表性TTA方法，提升了LLM的鲁棒推理能力。

📝 摘要（中文）

大语言模型(LLMs)展现出强大的推理能力，但其性能在分布偏移下通常会下降。现有的测试时自适应(TTA)方法依赖于基于梯度的更新，需要白盒访问权限和大量开销，而免训练的替代方案要么是静态的，要么依赖于外部指导。本文提出了一种免训练的测试时对比学习框架TF-TTCL，该框架使冻结的LLM能够通过从自身的推理经验中提取监督信息来在线改进。具体来说，TF-TTCL通过三个核心模块实现了一个动态的“探索-反思-引导”循环：1)语义查询增强，首先通过多智能体角色扮演来多样化问题视图，以生成不同的推理轨迹；2)对比经验蒸馏，然后捕获优越和劣等轨迹之间的语义差距，将其提炼成显式的文本规则；3)上下文规则检索，最后在推理过程中激活这些存储的规则，以动态地引导冻结的LLM朝着鲁棒的推理模式发展，同时避免观察到的错误。在封闭式推理任务和开放式评估任务上的大量实验表明，TF-TTCL在在线评估下始终优于强大的零样本基线和具有代表性的TTA方法。

🔬 方法详解

问题定义：论文旨在解决大语言模型在面对分布偏移时性能下降的问题。现有测试时自适应方法通常需要梯度更新，计算开销大，且需要访问模型内部参数（白盒访问）。而免训练的方法要么是静态的，无法根据新的数据进行调整，要么依赖于外部的指导信息，增加了额外的复杂性。

核心思路：TF-TTCL的核心思路是让LLM从自身的推理经验中学习，通过对比学习的方式，区分好的推理轨迹和坏的推理轨迹，并将这种区分转化为显式的规则，用于指导后续的推理过程。这种方法不需要梯度更新，也不依赖于外部数据，而是完全基于LLM自身的推理过程进行学习。

技术框架：TF-TTCL包含三个主要模块：1) 语义查询增强(Semantic Query Augmentation)：通过多智能体角色扮演，从不同的角度看待问题，生成多个不同的推理轨迹。2) 对比经验蒸馏(Contrastive Experience Distillation)：对比不同的推理轨迹，找出优劣轨迹之间的语义差距，并将这些差距提炼成显式的文本规则。3) 上下文规则检索(Contextual Rule Retrieval)：在推理过程中，根据当前上下文检索相关的规则，并利用这些规则来引导LLM的推理过程。

关键创新：TF-TTCL的关键创新在于提出了一种完全免训练的测试时对比学习框架，它不需要梯度更新，也不依赖于外部数据，而是完全基于LLM自身的推理过程进行学习。通过“探索-反思-引导”的循环，LLM可以动态地适应新的数据分布，提高推理的鲁棒性。

关键设计：语义查询增强模块使用多智能体角色扮演来生成不同的推理轨迹，具体实现方式未知。对比经验蒸馏模块通过对比学习损失来区分优劣轨迹，损失函数的具体形式未知。上下文规则检索模块根据上下文检索相关规则，检索算法的具体细节未知。论文中没有明确给出关键参数设置、损失函数和网络结构的具体细节。

🖼️ 关键图片

📊 实验亮点

TF-TTCL在封闭式推理任务和开放式评估任务上都取得了显著的性能提升，优于零样本基线和代表性的TTA方法。具体的性能数据和提升幅度在论文中给出，但摘要中未明确说明具体数值。该方法无需训练，易于部署，具有很强的实用价值。

🎯 应用场景

TF-TTCL具有广泛的应用前景，可以应用于各种需要大语言模型进行推理的场景，尤其是在数据分布不断变化的动态环境中。例如，可以用于智能客服、自动驾驶、金融风控等领域，提高LLM在实际应用中的可靠性和鲁棒性，降低模型维护和重新训练的成本。

📄 摘要（原文）

Large language models (LLMs) demonstrate strong reasoning capabilities, but their performance often degrades under distribution shift. Existing test-time adaptation (TTA) methods rely on gradient-based updates that require white-box access and need substantial overhead, while training-free alternatives are either static or depend on external guidance. In this paper, we propose Training-Free Test-Time Contrastive Learning TF-TTCL, a training-free adaptation framework that enables a frozen LLM to improve online by distilling supervision from its own inference experiences. Specifically, TF-TTCL implements a dynamic "Explore-Reflect-Steer" loop through three core modules: 1) Semantic Query Augmentation first diversifies problem views via multi-agent role-playing to generate different reasoning trajectories; 2) Contrastive Experience Distillation then captures the semantic gap between superior and inferior trajectories, distilling them into explicit textual rules; and 3) Contextual Rule Retrieval finally activates these stored rules during inference to dynamically steer the frozen LLM toward robust reasoning patterns while avoiding observed errors. Extensive experiments on closed-ended reasoning tasks and open-ended evaluation tasks demonstrate that TF-TTCL consistently outperforms strong zero-shot baselines and representative TTA methods under online evaluation. Code is available at https://github.com/KevinSCUTer/TF-TTCL.

Training-Free Test-Time Contrastive Learning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理