Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

作者: Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.AI, cs.CL

发布日期: 2025-09-05 (更新: 2025-09-08)

备注: 11 pages, 1 figures, 5 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出Sticker-TTS，利用历史经验提升大模型在数学推理任务中的测试时性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 测试时扩展 大语言模型 数学推理 历史经验利用 模仿学习

📋 核心要点

现有测试时扩展方法依赖冗余采样，忽略历史经验，导致计算效率低下。
Sticker-TTS通过提炼关键条件（贴纸），驱动LRM迭代探索和改进解决方案。
Sticker-TTS在数学推理基准测试中超越了自洽性和强化学习等基线方法。

📝 摘要（中文）

大型推理模型(LRMs)在复杂的推理任务上表现出强大的性能，并且可以通过增加推理时的计算预算来进一步提高性能。然而，目前的测试时扩展方法主要依赖于冗余采样，忽略了历史经验的利用，从而限制了计算效率。为了克服这个限制，我们提出了Sticker-TTS，这是一种新颖的测试时扩展框架，它协调三个协作的LRM，在历史尝试的指导下迭代地探索和改进解决方案。我们框架的核心是提炼的关键条件——称为贴纸(sticker)——它驱动着跨多轮推理的关键信息的提取、改进和重用。为了进一步提高我们框架的效率和性能，我们引入了一种结合模仿学习和自我改进的两阶段优化策略，从而实现渐进式改进。在包括AIME-24、AIME-25和OlymMATH在内的三个具有挑战性的数学推理基准上的广泛评估表明，在可比的推理预算下，Sticker-TTS始终优于包括自洽性和高级强化学习方法在内的强大基线。这些结果突出了贴纸引导的历史经验利用的有效性。

🔬 方法详解

问题定义：论文旨在解决大型推理模型在测试时扩展中计算效率低下的问题。现有方法主要依赖于冗余采样，没有充分利用历史推理经验，导致计算资源的浪费和性能提升的瓶颈。特别是在数学推理等复杂任务中，如何有效利用历史信息来指导后续推理过程是一个关键挑战。

核心思路：论文的核心思路是利用“贴纸”（Sticker）来提炼和传递历史推理过程中的关键信息。通过将关键条件蒸馏成贴纸，可以指导后续的推理过程，避免重复探索，并促进知识的重用。这种方法模拟了人类解决问题时不断回顾和总结经验的过程，从而提高推理效率和准确性。

技术框架：Sticker-TTS框架包含三个协同工作的LRM：一个用于生成初始解，一个用于提取关键条件（贴纸），另一个用于基于贴纸改进解。整个流程是迭代的：首先，生成初始解；然后，提取贴纸；接着，利用贴纸改进解；重复这个过程直到达到预定的计算预算或满足收敛条件。框架采用两阶段优化策略：第一阶段使用模仿学习，让模型学习如何生成和利用贴纸；第二阶段使用自我改进，通过奖励机制鼓励模型探索更有效的推理路径。

关键创新：Sticker-TTS的关键创新在于引入了“贴纸”的概念，并设计了一个基于贴纸的迭代推理框架。与传统的冗余采样方法不同，Sticker-TTS能够有效地利用历史信息，避免重复计算，并促进知识的迁移和重用。此外，两阶段优化策略也提高了模型的学习效率和泛化能力。

关键设计：贴纸的具体内容是根据任务类型和模型特点设计的，可以包括中间步骤、关键变量或约束条件等。贴纸的提取和利用是通过特定的神经网络结构实现的，例如，可以使用注意力机制来选择与当前推理步骤相关的贴纸。损失函数包括模仿学习损失和强化学习奖励，用于指导模型的训练。两阶段优化策略中的超参数需要根据具体任务进行调整，以达到最佳性能。

📊 实验亮点

Sticker-TTS在AIME-24、AIME-25和OlymMATH三个数学推理基准测试中，在可比的推理预算下，始终优于包括自洽性和高级强化学习方法在内的强大基线。实验结果表明，Sticker-TTS能够有效地利用历史经验，提高推理效率和准确性，验证了贴纸引导的历史经验利用的有效性。

🎯 应用场景

Sticker-TTS框架具有广泛的应用前景，可应用于数学推理、代码生成、知识图谱推理等需要复杂推理和历史经验的任务。该方法可以提高推理效率，降低计算成本，并提升模型的准确性和可靠性。未来，该框架可以扩展到其他领域，例如自然语言处理和计算机视觉，以解决更复杂的推理问题。

📄 摘要（原文）

Large reasoning models (LRMs) have exhibited strong performance on complex reasoning tasks, with further gains achievable through increased computational budgets at inference. However, current test-time scaling methods predominantly rely on redundant sampling, ignoring the historical experience utilization, thereby limiting computational efficiency. To overcome this limitation, we propose Sticker-TTS, a novel test-time scaling framework that coordinates three collaborative LRMs to iteratively explore and refine solutions guided by historical attempts. At the core of our framework are distilled key conditions-termed stickers-which drive the extraction, refinement, and reuse of critical information across multiple rounds of reasoning. To further enhance the efficiency and performance of our framework, we introduce a two-stage optimization strategy that combines imitation learning with self-improvement, enabling progressive refinement. Extensive evaluations on three challenging mathematical reasoning benchmarks, including AIME-24, AIME-25, and OlymMATH, demonstrate that Sticker-TTS consistently surpasses strong baselines, including self-consistency and advanced reinforcement learning approaches, under comparable inference budgets. These results highlight the effectiveness of sticker-guided historical experience utilization. Our code and data are available at https://github.com/RUCAIBox/Sticker-TTS.

Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册