TTVS: Boosting Self-Exploring Reinforcement Learning via Test-time Variational Synthesis

📄 arXiv: 2604.08468v1 📥 PDF

作者: Sikai Bai, Haoxi Li, Jie Zhang, Yongjiang Liu, Song Guo

分类: cs.LG, cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出TTVS,通过测试时变分合成提升自探索强化学习,解决专业领域监督数据匮乏问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 测试时自适应 强化学习 大型推理模型 变分合成 无监督学习 领域自适应 自探索学习

📋 核心要点

  1. 现有RLVR方法依赖大量标注数据,但在专业领域获取成本高昂,限制了其应用。
  2. TTVS通过在线变分合成和混合探索,利用无标签测试数据动态增强训练,提升模型泛化能力。
  3. 实验表明,TTVS在多种模型上超越了其他测试时自适应方法,甚至优于监督RL方法。

📝 摘要(中文)

本文提出测试时变分合成(TTVS)框架,旨在解决可验证奖励的强化学习(RLVR)驱动的大型推理模型(LRM)在专业或新领域中因监督成本高昂而受限的问题。TTVS通过动态增强来自无标签测试查询的训练流,使LRM能够自我进化。该框架包含两个协同模块:在线变分合成,将静态测试查询转换为多样且语义等价的变体动态流,迫使模型学习潜在的问题逻辑而非表面模式;测试时混合探索,平衡了基于准确性的利用和基于一致性的探索。实验表明,TTVS在八种模型架构上均表现出色,仅使用无标签测试时数据,TTVS不仅超越了其他测试时自适应方法,还优于在大量高质量标签数据上训练的先进的监督RL方法。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRM)在特定或新领域中,由于可验证奖励的强化学习(RLVR)需要大量标注数据,而这些数据获取成本高昂的问题。现有测试时自适应方法受限于静态查询集,容易过拟合文本模式,无法有效利用无标签测试数据。

核心思路:TTVS的核心思路是利用无标签测试数据,通过变分合成生成语义等价的查询变体,构建动态训练流。模型在这些变体上进行学习,从而学习到潜在的问题逻辑,避免过拟合表面模式。同时,通过混合探索策略,平衡利用已知信息和探索新变体,提升模型的泛化能力。

技术框架:TTVS包含两个主要模块: 1. 在线变分合成(Online Variational Synthesis):将静态测试查询转换为多样化的、语义等价的变体动态流。具体实现方式未知,但其目标是生成既能覆盖原始查询语义,又具有一定差异性的新查询。 2. 测试时混合探索(Test-time Hybrid Exploration):平衡基于准确性的利用(exploitation)和基于一致性的探索(exploration)。利用是指选择模型预测置信度高的变体,探索是指选择与已知信息差异较大的变体。通过平衡二者,提升模型的鲁棒性和泛化能力。

关键创新:TTVS的关键创新在于其动态生成训练数据的方式,以及混合探索策略。与传统的测试时自适应方法不同,TTVS不是简单地在静态测试集上进行微调,而是通过变分合成不断生成新的训练样本,使模型能够持续学习和适应。混合探索策略则保证了模型既能利用已知信息,又能探索新的可能性。

关键设计:论文中没有详细描述变分合成的具体实现方式,以及混合探索策略的具体参数设置。这些细节可能包含特定的损失函数、网络结构或参数调整策略,但具体内容未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TTVS在八种模型架构上均表现出色,超越了其他测试时自适应方法。更重要的是,TTVS仅使用无标签测试时数据,就能够优于在大量高质量标签数据上训练的先进的监督RL方法。这表明TTVS具有强大的自适应能力和泛化性能。

🎯 应用场景

TTVS可应用于各种需要大型推理模型,但缺乏高质量标注数据的专业领域,例如医疗诊断、金融分析、法律咨询等。通过利用无标签数据进行测试时自适应,可以显著降低模型部署成本,并提升模型在特定领域的性能和泛化能力。未来,该方法有望推动LRM在更多实际场景中的应用。

📄 摘要(原文)

Despite significant advances in Large Reasoning Models (LRMs) driven by reinforcement learning with verifiable rewards (RLVR), this paradigm is fundamentally limited in specialized or novel domains where such supervision is prohibitively expensive or unavailable, posing a key challenge for test-time adaptation. While existing test-time methods offer a potential solution, they are constrained by learning from static query sets, risking overfitting to textual patterns. To address this gap, we introduce Test-Time Variational Synthesis (TTVS), a novel framework that enables LRMs to self-evolve by dynamically augmenting the training stream from unlabeled test queries. TTVS comprises two synergistic modules: (1) Online Variational Synthesis, which transforms static test queries into a dynamic stream of diverse, semantically-equivalent variations, enforcing the model to learn underlying problem logic rather than superficial patterns; (2) Test-time Hybrid Exploration, which balances accuracy-driven exploitation with consistency-driven exploration across synthetic variants. Extensive experiments show TTVS yields superior performance across eight model architectures. Notably, using only unlabeled test-time data, TTVS not only surpasses other test-time adaptation methods but also outperforms state-of-the-art supervised RL-based techniques trained on vast, high-quality labeled data.