Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

作者: Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.AI, cs.CL

发布日期: 2025-09-05 (更新: 2025-09-08)

备注: 11 pages, 1 figures, 5 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出Sticker-TTS，利用历史经验提升大模型在测试时推理的效率与性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 大语言模型 测试时扩展 历史经验利用 数学推理 模仿学习

📋 核心要点

现有测试时扩展方法依赖冗余采样，忽略历史经验，导致计算效率低下。
Sticker-TTS通过提炼关键条件（贴纸），指导LRM迭代探索和改进解决方案，复用历史信息。
Sticker-TTS结合模仿学习和自我改进的两阶段优化策略，在数学推理任务上超越现有基线。

📝 摘要（中文）

大型推理模型(LRMs)在复杂的推理任务上表现出强大的性能，并且可以通过增加推理时的计算预算来进一步提高性能。然而，目前的测试时扩展方法主要依赖于冗余采样，忽略了历史经验的利用，从而限制了计算效率。为了克服这个限制，我们提出了Sticker-TTS，一种新颖的测试时扩展框架，它协调三个协作的LRM，在历史尝试的指导下迭代地探索和改进解决方案。我们框架的核心是提炼的关键条件——称为贴纸(stickers)——它驱动着跨多轮推理的关键信息的提取、改进和重用。为了进一步提高我们框架的效率和性能，我们引入了一种结合模仿学习和自我改进的两阶段优化策略，从而实现渐进式改进。在包括AIME-24、AIME-25和OlymMATH在内的三个具有挑战性的数学推理基准上的广泛评估表明，在相当的推理预算下，Sticker-TTS始终优于包括自洽性和高级强化学习方法在内的强大基线。这些结果突出了贴纸引导的历史经验利用的有效性。

🔬 方法详解

问题定义：论文旨在解决大型推理模型在测试时推理过程中，由于缺乏对历史经验的有效利用，导致计算效率低下的问题。现有方法如自洽性(Self-Consistency)主要依赖于多次独立采样，而忽略了先前推理过程中的有用信息，造成了计算资源的浪费。

核心思路：论文的核心思路是利用从历史推理尝试中提炼出的关键信息（称为“贴纸”），来指导后续的推理过程。通过这种方式，模型可以避免重复探索已经失败的路径，并专注于更有希望的解决方案，从而提高推理效率。

技术框架：Sticker-TTS框架包含三个协同工作的LRM：一个用于生成初始解，一个用于提取和提炼“贴纸”，另一个用于基于“贴纸”改进解。整个流程是迭代的：首先，生成初始解；然后，从解中提取关键信息并形成“贴纸”；接着，利用“贴纸”指导后续的解的生成和改进；最后，重复这个过程，直到达到预定的计算预算或找到满意的解。

关键创新：该论文的关键创新在于引入了“贴纸”的概念，并将其作为历史经验的载体，用于指导后续的推理过程。与传统的独立采样方法不同，Sticker-TTS能够有效地利用历史信息，从而提高推理效率和性能。此外，两阶段优化策略（模仿学习和自我改进）也进一步提升了模型的性能。

关键设计：框架使用三个协同LRM，具体实现未知。两阶段优化策略包含：首先使用模仿学习，模仿专家策略生成“贴纸”和改进解；然后，使用自我改进策略，通过奖励函数来鼓励模型生成更有效的“贴纸”和更好的解。具体的损失函数和网络结构等细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

Sticker-TTS在AIME-24、AIME-25和OlymMATH三个数学推理基准测试中，在相当的推理预算下，始终优于包括自洽性和高级强化学习方法在内的强大基线。具体性能提升数据未在摘要中给出，需查阅论文全文。

🎯 应用场景

Sticker-TTS框架具有广泛的应用前景，可以应用于各种需要复杂推理的任务，例如数学问题求解、代码生成、知识图谱推理等。通过有效利用历史经验，该框架可以显著提高推理效率，降低计算成本，并提升模型性能。该研究对于推动大模型在资源受限环境下的应用具有重要意义。

📄 摘要（原文）

Large reasoning models (LRMs) have exhibited strong performance on complex reasoning tasks, with further gains achievable through increased computational budgets at inference. However, current test-time scaling methods predominantly rely on redundant sampling, ignoring the historical experience utilization, thereby limiting computational efficiency. To overcome this limitation, we propose Sticker-TTS, a novel test-time scaling framework that coordinates three collaborative LRMs to iteratively explore and refine solutions guided by historical attempts. At the core of our framework are distilled key conditions-termed stickers-which drive the extraction, refinement, and reuse of critical information across multiple rounds of reasoning. To further enhance the efficiency and performance of our framework, we introduce a two-stage optimization strategy that combines imitation learning with self-improvement, enabling progressive refinement. Extensive evaluations on three challenging mathematical reasoning benchmarks, including AIME-24, AIME-25, and OlymMATH, demonstrate that Sticker-TTS consistently surpasses strong baselines, including self-consistency and advanced reinforcement learning approaches, under comparable inference budgets. These results highlight the effectiveness of sticker-guided historical experience utilization. Our code and data are available at https://github.com/RUCAIBox/Sticker-TTS.

Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理