Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework
作者: Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen
分类: cs.AI, cs.CL
发布日期: 2025-09-05 (更新: 2025-09-08)
备注: 11 pages, 1 figures, 5 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出Sticker-TTS,利用历史经验提升大模型在测试时推理的效率与性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大语言模型 测试时扩展 历史经验利用 数学推理 模仿学习
📋 核心要点
- 现有测试时扩展方法依赖冗余采样,忽略历史经验,导致计算效率低下。
- Sticker-TTS通过提炼关键条件(贴纸),指导LRM迭代探索和改进解决方案,复用历史信息。
- Sticker-TTS结合模仿学习和自我改进的两阶段优化策略,在数学推理任务上超越现有基线。
📝 摘要(中文)
大型推理模型(LRMs)在复杂的推理任务上表现出强大的性能,并且可以通过增加推理时的计算预算来进一步提高性能。然而,目前的测试时扩展方法主要依赖于冗余采样,忽略了历史经验的利用,从而限制了计算效率。为了克服这个限制,我们提出了Sticker-TTS,一种新颖的测试时扩展框架,它协调三个协作的LRM,在历史尝试的指导下迭代地探索和改进解决方案。我们框架的核心是提炼的关键条件——称为贴纸(stickers)——它驱动着跨多轮推理的关键信息的提取、改进和重用。为了进一步提高我们框架的效率和性能,我们引入了一种结合模仿学习和自我改进的两阶段优化策略,从而实现渐进式改进。在包括AIME-24、AIME-25和OlymMATH在内的三个具有挑战性的数学推理基准上的广泛评估表明,在相当的推理预算下,Sticker-TTS始终优于包括自洽性和高级强化学习方法在内的强大基线。这些结果突出了贴纸引导的历史经验利用的有效性。
🔬 方法详解
问题定义:论文旨在解决大型推理模型在测试时推理过程中,由于缺乏对历史经验的有效利用,导致计算效率低下的问题。现有方法如自洽性(Self-Consistency)主要依赖于多次独立采样,而忽略了先前推理过程中的有用信息,造成了计算资源的浪费。
核心思路:论文的核心思路是利用从历史推理尝试中提炼出的关键信息(称为“贴纸”),来指导后续的推理过程。通过这种方式,模型可以避免重复探索已经失败的路径,并专注于更有希望的解决方案,从而提高推理效率。
技术框架:Sticker-TTS框架包含三个协同工作的LRM:一个用于生成初始解,一个用于提取和提炼“贴纸”,另一个用于基于“贴纸”改进解。整个流程是迭代的:首先,生成初始解;然后,从解中提取关键信息并形成“贴纸”;接着,利用“贴纸”指导后续的解的生成和改进;最后,重复这个过程,直到达到预定的计算预算或找到满意的解。
关键创新:该论文的关键创新在于引入了“贴纸”的概念,并将其作为历史经验的载体,用于指导后续的推理过程。与传统的独立采样方法不同,Sticker-TTS能够有效地利用历史信息,从而提高推理效率和性能。此外,两阶段优化策略(模仿学习和自我改进)也进一步提升了模型的性能。
关键设计:框架使用三个协同LRM,具体实现未知。两阶段优化策略包含:首先使用模仿学习,模仿专家策略生成“贴纸”和改进解;然后,使用自我改进策略,通过奖励函数来鼓励模型生成更有效的“贴纸”和更好的解。具体的损失函数和网络结构等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Sticker-TTS在AIME-24、AIME-25和OlymMATH三个数学推理基准测试中,在相当的推理预算下,始终优于包括自洽性和高级强化学习方法在内的强大基线。具体性能提升数据未在摘要中给出,需查阅论文全文。
🎯 应用场景
Sticker-TTS框架具有广泛的应用前景,可以应用于各种需要复杂推理的任务,例如数学问题求解、代码生成、知识图谱推理等。通过有效利用历史经验,该框架可以显著提高推理效率,降低计算成本,并提升模型性能。该研究对于推动大模型在资源受限环境下的应用具有重要意义。
📄 摘要(原文)
Large reasoning models (LRMs) have exhibited strong performance on complex reasoning tasks, with further gains achievable through increased computational budgets at inference. However, current test-time scaling methods predominantly rely on redundant sampling, ignoring the historical experience utilization, thereby limiting computational efficiency. To overcome this limitation, we propose Sticker-TTS, a novel test-time scaling framework that coordinates three collaborative LRMs to iteratively explore and refine solutions guided by historical attempts. At the core of our framework are distilled key conditions-termed stickers-which drive the extraction, refinement, and reuse of critical information across multiple rounds of reasoning. To further enhance the efficiency and performance of our framework, we introduce a two-stage optimization strategy that combines imitation learning with self-improvement, enabling progressive refinement. Extensive evaluations on three challenging mathematical reasoning benchmarks, including AIME-24, AIME-25, and OlymMATH, demonstrate that Sticker-TTS consistently surpasses strong baselines, including self-consistency and advanced reinforcement learning approaches, under comparable inference budgets. These results highlight the effectiveness of sticker-guided historical experience utilization. Our code and data are available at https://github.com/RUCAIBox/Sticker-TTS.