AdaptMI: Adaptive Skill-based In-context Math Instruction for Small Language Models
作者: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
分类: cs.CL
发布日期: 2025-04-30 (更新: 2025-09-10)
💡 一句话要点
AdaptMI:面向小语言模型的自适应技能型上下文数学指令学习
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 小型语言模型 自适应学习 技能型提示 数学问题求解
📋 核心要点
- 现有基于技能的上下文学习方法在大型语言模型上表现良好,但在小型语言模型上收益甚微,甚至可能因引入过多信息而降低性能。
- AdaptMI的核心思想是根据模型的表现自适应地选择是否引入基于技能的上下文示例,避免认知超载,提升小型语言模型的学习效率。
- AdaptMI+进一步针对模型响应中缺失的特定技能增加示例,在数学基准测试中,相比naive方法,准确率提升高达6%。
📝 摘要(中文)
上下文学习(ICL)允许语言模型通过在上下文中提供适当的信息来提高其问题解决能力。由于上下文信息的选择可以基于问题本身来确定,因此上下文学习类似于人类在课堂上向老师学习。最近的研究表明,通过利用大型语言模型(LLM)预测解决问题所需技能的能力(通常被称为LLM的元认知),并使用推荐的技能来构建必要的上下文示例,可以提高ICL性能。虽然这种基于技能的策略提高了大型模型的ICL性能,但其在小型语言模型(SLM)上的收益甚微,突出了ICL能力方面的性能差距。我们研究了这种差距,并表明基于技能的提示可能会通过引入不必要的信息来损害SLM在简单问题上的性能,类似于认知超载。为了解决这个问题,我们引入了AdaptMI,这是一种自适应方法,用于为SLM选择基于技能的上下文数学指令。受到人类教学中认知负荷理论的启发,我们的方法仅在模型表现不佳时才引入基于技能的示例。我们进一步提出了AdaptMI+,它增加了针对模型响应中缺失的特定技能的示例。在跨流行的数学基准和五个SLM(1B--7B; Qwen, Llama)的5-shot评估中,AdaptMI+比naive的基于技能的策略提高了高达6%的准确率。
🔬 方法详解
问题定义:论文旨在解决小型语言模型(SLM)在上下文学习(ICL)中,使用基于技能的提示策略时性能提升不明显,甚至可能下降的问题。现有方法直接将大型语言模型(LLM)的技能预测能力应用于SLM,忽略了SLM的认知能力限制,导致信息过载,影响其解题能力。
核心思路:论文的核心思路是借鉴认知负荷理论,认为SLM在处理简单问题时,引入过多的技能信息会造成认知负担,反而降低性能。因此,提出自适应地选择是否引入基于技能的示例,仅在模型表现不佳时才引入,从而优化SLM的ICL性能。
技术框架:AdaptMI包含两个主要阶段:1) 性能评估阶段:评估SLM在没有技能提示下的初始表现。2) 自适应提示阶段:如果SLM表现不佳,则引入基于技能的上下文示例。AdaptMI+在此基础上,进一步分析SLM的错误答案,识别缺失的技能,并针对性地添加包含这些技能的示例。整体流程是先评估模型能力,再根据评估结果动态调整提示策略。
关键创新:AdaptMI的关键创新在于其自适应性,它不是一概而论地使用基于技能的提示,而是根据SLM的实际表现来决定是否引入技能信息。这种自适应策略能够更好地匹配SLM的认知能力,避免信息过载,从而提升ICL性能。AdaptMI+的针对性技能补充进一步增强了这种自适应性。
关键设计:AdaptMI的关键设计包括:1) 性能评估指标的选择,用于判断SLM是否需要技能提示。2) 技能示例的构建方法,如何根据LLM的技能预测结果生成合适的示例。3) AdaptMI+中,如何准确识别SLM答案中缺失的技能,并找到对应的示例。具体参数设置和损失函数等细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AdaptMI+在五个小型语言模型(1B-7B参数)和多个数学基准测试集上,相比于naive的基于技能的提示策略,准确率提升高达6%。这证明了自适应技能提示策略的有效性,尤其是在小型语言模型上的优势。
🎯 应用场景
AdaptMI方法可应用于各种需要小型语言模型进行数学问题求解的场景,例如教育辅导、智能助手等。通过自适应地提供技能指导,可以提高SLM的解题准确率和效率,使其更好地服务于用户。该研究也为其他任务的SLM上下文学习提供了借鉴,有助于提升SLM在资源受限环境下的应用能力。
📄 摘要(原文)
In-context learning (ICL) allows a language model to improve its problem-solving capability when provided with suitable information in context. Since the choice of in-context information can be determined based on the problem itself, in-context learning is analogous to human learning from teachers in a classroom. Recent works (Didolkar et al., 2024a; 2024b) show that ICL performance can be improved by leveraging a frontier large language model's (LLM) ability to predict required skills to solve a problem, popularly referred to as an LLM's metacognition, and using the recommended skills to construct necessary in-context examples. While this skill-based strategy boosts ICL performance in larger models, its gains on small language models (SLMs) have been minimal, highlighting a performance gap in ICL capabilities. We investigate this gap and show that skill-based prompting can hurt SLM performance on easy questions by introducing unnecessary information, akin to cognitive overload. To address this, we introduce AdaptMI, an adaptive approach to selecting skill-based in-context Math Instructions for SLMs. Inspired by cognitive load theory from human pedagogy, our method only introduces skill-based examples when the model performs poorly. We further propose AdaptMI+, which adds examples targeted to the specific skills missing from the model's responses. On 5-shot evaluations across popular math benchmarks and five SLMs (1B--7B; Qwen, Llama), AdaptMI+ improves accuracy by up to 6% over naive skill-based strategies.