Context Training with Active Information Seeking

📄 arXiv: 2605.13050v1 📥 PDF

作者: Zeyu Huang, Adhiguna Kuncoro, Qixuan Feng, Jiajun Shen, Lucio Dery, Arthur Szlam, Marc'Aurelio Ranzato

分类: cs.CL, cs.AI

发布日期: 2026-05-13

备注: Preprint


💡 一句话要点

提出基于主动信息搜索的上下文训练方法,提升LLM在特定领域任务上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文学习 主动信息搜索 知识库 低资源翻译

📋 核心要点

  1. 现有LLM难以适应新信息或特定领域知识,且微调成本高昂,限制了其应用。
  2. 论文提出主动信息搜索的上下文训练方法,利用维基百科搜索和浏览器工具增强LLM的上下文信息。
  3. 实验表明,该方法在低资源翻译、健康场景和推理任务上均取得了显著的性能提升,且数据效率高。

📝 摘要(中文)

现有的大型语言模型(LLM)在部署后进行调整的成本很高,尤其是在任务需要新产生的信息或特定领域知识时。最近的研究表明,通过操纵和优化上下文,可以在不更新模型权重的情况下,使LLM适应下游任务。然而,大多数现有方法仍然是闭环的,仅依赖于模型固有的知识。本文为这些上下文优化器配备了维基百科搜索和浏览器工具,用于主动信息搜索。我们发现,与基线相比,简单地将这些工具添加到标准的顺序上下文优化流程中实际上会降低性能。然而,当与基于搜索的训练程序结合使用时,该程序维护和修剪多个候选上下文,主动信息搜索能够带来持续且显著的收益。我们在不同的领域证明了这些改进,包括低资源翻译(Flores+)、健康场景(HealthBench)和推理密集型任务(LiveCodeBench和Humanity's Last Exam)。此外,我们的方法被证明是数据高效的,在不同的超参数中具有鲁棒性,并且能够生成有效的文本上下文,这些上下文可以在不同的模型中很好地泛化。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在部署后难以适应需要新信息或特定领域知识的任务。传统的上下文学习方法依赖于模型自身的知识,无法有效利用外部信息,导致性能瓶颈。现有的上下文优化方法通常是闭环的,缺乏主动获取和利用外部信息的能力。

核心思路:论文的核心思路是为LLM配备主动信息搜索的能力,使其能够利用外部知识库(如维基百科)来增强上下文信息。通过主动搜索和筛选相关信息,模型可以更好地理解任务需求,从而提高性能。这种方法旨在解决LLM在特定领域或需要新信息的任务上的适应性问题。

技术框架:整体框架包含以下几个主要阶段:1) 信息搜索:利用维基百科搜索和浏览器工具,根据任务需求搜索相关信息。2) 上下文构建:维护和修剪多个候选上下文,选择最相关的上下文信息。3) 模型推理:将构建的上下文信息输入LLM,进行任务推理。4) 训练优化:通过搜索训练程序,优化上下文选择策略,提高模型性能。

关键创新:该方法最重要的创新点在于将主动信息搜索融入到上下文学习中。与传统的闭环上下文学习方法不同,该方法能够主动获取外部知识,从而显著提升模型在特定领域任务上的性能。此外,维护和修剪多个候选上下文的策略,能够有效筛选出最相关的信息,避免噪声干扰。

关键设计:在信息搜索阶段,需要设计有效的搜索策略,例如关键词选择和搜索深度控制。在上下文构建阶段,需要设计合适的评估指标,用于评估候选上下文的相关性和有效性。在训练优化阶段,需要设计合适的损失函数,用于指导上下文选择策略的学习。具体的参数设置和网络结构细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在低资源翻译(Flores+)、健康场景(HealthBench)和推理密集型任务(LiveCodeBench和Humanity's Last Exam)上均取得了显著的性能提升。与基线方法相比,该方法能够生成更有效的文本上下文,并且在不同的模型中具有良好的泛化能力。此外,该方法还具有数据效率高和超参数鲁棒性强的优点。

🎯 应用场景

该研究成果可广泛应用于需要特定领域知识或实时信息的LLM应用场景,例如智能客服、医疗诊断辅助、金融分析等。通过主动信息搜索,LLM能够更好地理解用户需求,提供更准确、更专业的服务。该方法还有助于提高LLM在低资源场景下的性能,降低模型微调的成本。

📄 摘要(原文)

Most existing large language models (LLMs) are expensive to adapt after deployment, especially when a task requires newly produced information or niche domain knowledge. Recent work has shown that, by manipulating and optimizing their context, LLMs can be tailored to downstream tasks without updating their weights. However, most existing methods remain closed-loop, relying solely on the model's intrinsic knowledge. In this paper, we equip these context optimizers with Wikipedia search and browser tools for active information seeking. We show that naively adding these tools to a standard sequential context optimization pipeline can actually degrade performance compared to baselines. However, when paired with a search-based training procedure that maintains and prunes multiple candidate contexts, active information seeking delivers consistent and substantial gains. We demonstrate these improvements across diverse domains, including low-resource translation (Flores+), health scenarios (HealthBench), and reasoning-heavy tasks (LiveCodeBench and Humanity's Last Exam). Furthermore, our method proves to be data-efficient, robust across different hyperparameters, and capable of generating effective textual contexts that generalize well across different models.