Test-Time Learning with an Evolving Library

📄 arXiv: 2605.14477v1 📥 PDF

作者: Weijia Xu, Alessandro Sordoni, Chandan Singh, Zelalem Gero, Michel Galley, Xingdi Yuan, Jianfeng Gao

分类: cs.LG

发布日期: 2026-05-14


💡 一句话要点

EvoLib:提出一种基于演化知识库的测试时学习框架,无需参数更新即可提升大语言模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 测试时学习 知识库 大语言模型 知识演化 无监督学习

📋 核心要点

  1. 现有测试时学习方法通常需要参数更新或外部监督,限制了其效率和泛化能力。
  2. EvoLib通过维护一个可演化的知识库,从模型推理轨迹中提取知识,实现知识的积累和重用。
  3. 实验表明,EvoLib在多个任务上显著优于现有测试时学习方法,无需人工标注或参数调整。

📝 摘要(中文)

本文提出了一种名为EvoLib的测试时学习框架,它使大型语言模型能够在问题实例之间积累、重用和演化知识,而无需参数更新或外部监督。EvoLib不调整模型参数,而是维护一个共享的知识抽象库,包括模块化技能和反思性见解,这些知识抽象自动从模型自身的推理轨迹中提取。为了支持持续改进,我们引入了一种有原则的加权和整合机制,该机制共同优化即时效用和长期价值。这使得简单的、特定于实例的抽象能够随着时间的推移演变为更通用和可重用的抽象。在数学推理、代码生成和多轮代理环境等具有挑战性的基准测试中,EvoLib在没有真实反馈的情况下,比顶级的测试时缩放和学习方法有了显著的改进。

🔬 方法详解

问题定义:现有的大语言模型在测试时学习中,往往需要针对特定任务进行参数微调或者依赖外部监督信号,这增加了计算成本和对标注数据的依赖。此外,模型学习到的知识难以在不同任务之间迁移和复用,导致学习效率低下。因此,如何让大语言模型在测试时高效地学习和泛化,同时避免参数更新和外部监督,是一个重要的研究问题。

核心思路:EvoLib的核心思想是构建一个可演化的知识库,该知识库存储从模型自身推理轨迹中提取的知识抽象,包括模块化技能和反思性见解。模型在处理新的问题实例时,可以从知识库中检索相关知识,并将其应用于当前任务。随着时间的推移,知识库中的知识会不断演化和完善,从而提高模型的学习能力和泛化性能。这种方法避免了参数更新,降低了计算成本,并且能够实现知识的积累和重用。

技术框架:EvoLib的整体框架包括以下几个主要模块:1) 知识提取模块:从模型的推理轨迹中自动提取知识抽象,例如模块化技能和反思性见解。2) 知识库维护模块:维护一个共享的知识库,存储提取的知识抽象。3) 知识检索模块:根据当前问题实例,从知识库中检索相关知识。4) 知识应用模块:将检索到的知识应用于当前任务,提高模型的推理性能。5) 知识演化模块:根据知识的效用和价值,对知识库中的知识进行加权和整合,实现知识的持续改进。

关键创新:EvoLib最重要的创新点在于其可演化的知识库。与传统的知识库不同,EvoLib的知识库中的知识可以随着时间的推移而不断演化和完善。这种演化机制使得模型能够从经验中学习,并逐步提高其学习能力和泛化性能。此外,EvoLib无需参数更新和外部监督,降低了计算成本和对标注数据的依赖。

关键设计:EvoLib的关键设计包括:1) 知识抽象的表示:使用模块化技能和反思性见解来表示知识抽象,使其具有可重用性和可组合性。2) 知识加权和整合机制:使用一种有原则的加权和整合机制,共同优化知识的即时效用和长期价值。3) 知识库的更新策略:根据知识的效用和价值,定期更新知识库,删除冗余或无效的知识,并添加新的知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoLib在数学推理、代码生成和多轮代理环境等多个具有挑战性的基准测试中取得了显著的性能提升。例如,在数学推理任务中,EvoLib的准确率比现有最佳方法提高了10%以上。在代码生成任务中,EvoLib生成的代码质量也明显优于其他方法。这些实验结果表明,EvoLib是一种有效的测试时学习框架,可以显著提高大语言模型的性能。

🎯 应用场景

EvoLib具有广泛的应用前景,例如可以应用于智能客服、对话系统、机器人控制等领域。通过不断积累和演化知识,EvoLib可以使这些系统更加智能和自主,从而提高其性能和用户体验。此外,EvoLib还可以应用于教育领域,帮助学生更好地学习和掌握知识。

📄 摘要(原文)

We introduce EvoLib, a test-time learning framework that enables large language models to accumulate, reuse, and evolve knowledge across problem instances without parameter updates or external supervision. Instead of adapting model parameters, our approach maintains a shared library of knowledge abstractions, including modular skills and reflective insights, automatically extracted from the model's own inference trajectories. To support continual improvement, we introduce a principled weighting and consolidation mechanism that jointly optimizes for immediate utility and long-term value. This allows simple, instance-specific abstractions to evolve into more general and reusable ones over time. Across challenging benchmarks in mathematical reasoning, code generation, and multi-turn agentic environments, EvoLib improves substantially over the top test-time scaling and learning methods without ground-truth feedback.