SIFT: Grounding LLM Reasoning in Contexts via Stickers

📄 arXiv: 2502.14922v1 📥 PDF

作者: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng

分类: cs.CL, cs.AI

发布日期: 2025-02-19

🔗 代码/项目: GITHUB


💡 一句话要点

SIFT:通过Sticker机制增强LLM在上下文中的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文推理 后训练方法 知识增强 Sticker机制

📋 核心要点

  1. 现有大型语言模型在推理过程中容易误解上下文信息,导致推理错误,尤其是在涉及数量关系的场景中。
  2. SIFT方法通过生成并优化Sticker来显式地强调上下文中的关键信息,从而引导LLM进行更准确的推理。
  3. 实验结果表明,SIFT方法能够显著提高LLM在多个基准测试上的性能,例如在AIME2024上将DeepSeek-R1的准确率提升至85.67%。

📝 摘要(中文)

本文指出,大型语言模型(LLM)在推理过程中对上下文的误解是一个重要问题,从小模型如Llama3.2-3B-Instruct到前沿模型如DeepSeek-R1都存在这个问题。例如,在“每公斤10美元”这样的短语中,LLM可能无法识别“每”意味着“每个”,从而导致计算错误。我们提出了一种新颖的后训练方法,称为“坚持事实(SIFT)”来解决这个问题。SIFT利用增加的推理时间计算来将LLM推理置于上下文中。SIFT的核心是Sticker,它由模型自身生成,以明确强调上下文中的关键信息。给定精心设计的Sticker,SIFT生成两个预测——一个来自原始查询,一个来自用Sticker增强的查询。如果它们不同,则通过前向优化(以更好地将提取的事实与查询对齐)和逆向生成(以符合模型固有的倾向)来顺序地细化Sticker,以获得更忠实的推理结果。跨越各种模型(从3B到100B+)和基准(例如,GSM8K,MATH-500)的研究表明,性能得到了持续的提高。值得注意的是,SIFT将DeepSeek-R1在AIME2024上的pass@1准确率从78.33%提高到85.67%,在开源社区中建立了新的最先进水平。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在理解和推理过程中,由于对上下文信息(特别是数量关系)的误解而导致的错误。现有方法缺乏对关键信息的显式强调,使得LLM容易忽略或错误解释上下文,从而影响推理的准确性。

核心思路:论文的核心思路是利用模型自身生成并优化“Sticker”,该Sticker用于显式地突出上下文中的关键信息。通过将Sticker融入到原始查询中,引导LLM更加关注重要的上下文细节,从而提高推理的准确性。这种方法旨在弥补LLM在理解复杂上下文方面的不足。

技术框架:SIFT方法包含以下主要阶段:1) Sticker生成:LLM根据原始上下文生成Sticker,Sticker旨在概括上下文中的关键信息。2) 预测生成:使用原始查询和Sticker增强的查询分别生成两个预测结果。3) Sticker优化:如果两个预测结果不一致,则通过前向优化和逆向生成两种方式迭代优化Sticker。前向优化旨在使Sticker更好地与查询对齐,逆向生成旨在使Sticker符合模型自身的倾向。4) 最终预测:选择优化后的Sticker对应的预测结果作为最终输出。

关键创新:SIFT方法的关键创新在于引入了Sticker的概念,并利用前向优化和逆向生成两种方式来迭代优化Sticker。这种方法能够显式地引导LLM关注上下文中的关键信息,从而提高推理的准确性。与现有方法相比,SIFT不需要额外的训练数据,是一种后训练方法,可以灵活地应用于各种LLM。

关键设计:前向优化通过调整Sticker以最小化与原始查询之间的差异来实现。逆向生成则通过让模型基于Sticker重新生成上下文,并使生成的上下文与原始上下文尽可能相似来实现。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SIFT方法在多个基准测试上取得了显著的性能提升。例如,在AIME2024数据集上,SIFT将DeepSeek-R1模型的pass@1准确率从78.33%提高到85.67%,达到了新的state-of-the-art水平。此外,在GSM8K和MATH-500等数据集上也观察到了类似的性能提升,证明了SIFT方法的有效性和泛化能力。

🎯 应用场景

SIFT方法可以应用于各种需要精确理解上下文信息的自然语言处理任务,例如数学问题求解、阅读理解、信息抽取等。该方法能够提高LLM在这些任务中的准确性和可靠性,具有广泛的应用前景。未来,该方法可以进一步扩展到其他领域,例如代码生成、对话系统等。

📄 摘要(原文)

This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called Stick to the Facts (SIFT) to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the Sticker, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via forward optimization (to better align the extracted facts with the query) and inverse generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to 85.67%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.