Emergence of Context Characteristics Sensitivity in Large Language Models

📄 arXiv: 2606.09525v1 📥 PDF

作者: Nadya Yuki Wangsajaya, Haeun Yu, Isabelle Augenstein

分类: cs.CL, cs.AI

发布日期: 2026-06-08


💡 一句话要点

研究大型语言模型在指令微调中的上下文特征敏感性变化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 指令微调 上下文特征 敏感性分析 数据集设计

📋 核心要点

  1. 现有研究主要集中在推理阶段,未能深入探讨上下文特征如何在指令微调过程中被模型学习和利用。
  2. 本文通过测量模型在不同IFT阶段对上下文特征的敏感性变化,揭示了上下文使用的动态重塑过程。
  3. 实验结果表明,SFT阶段使模型更倾向于使用易理解的上下文,后续阶段的动态可能会根据数据集的不同而有所不同。

📝 摘要(中文)

在指令微调(IFT)过程中,大型语言模型(LLMs)通过使用提供的上下文来回答查询。尽管已有研究探讨了上下文特征与LLM使用上下文之间的关系,但这些分析仅限于推理阶段,未能揭示这些关系是如何形成的。本文测量了模型对上下文特征的敏感性在监督微调(SFT)、直接偏好优化(DPO)和可验证奖励的强化学习(RLVR)等不同IFT阶段的变化。实验结果表明,SFT使模型更倾向于使用易于理解的上下文,后续的IFT动态可能会根据训练数据集强化或调整这些偏好。研究发现,在每个IFT阶段,上下文使用会被主动重塑,设计平衡的IFT数据集对于确保指令调优模型的上下文利用至关重要。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在指令微调过程中对上下文特征敏感性变化的理解,现有方法未能揭示这些特征如何在模型学习中发挥作用。

核心思路:通过对不同IFT阶段(SFT、DPO、RLVR)模型敏感性变化的测量,分析上下文特征的使用情况,进而优化指令微调的数据集设计。

技术框架:研究采用实验方法,比较四个模型在三个数据集上的表现,重点关注SFT后模型对上下文特征的使用情况及其变化。

关键创新:本研究的创新在于揭示了上下文使用在不同IFT阶段的动态变化,强调了设计平衡IFT数据集的重要性,以确保模型的上下文利用能力。

关键设计:实验中使用了多种上下文特征(如长度、上下文-查询相似性和流畅性)来评估模型的敏感性,并分析了不同训练数据集对模型偏好的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,经过SFT阶段后,模型对易于理解的上下文特征的使用显著增加,具体表现为上下文长度和流畅性等特征的提升。不同数据集的影响使得后续阶段的上下文使用偏好有所不同,强调了数据集设计的重要性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过优化指令微调的数据集设计,可以提升大型语言模型在实际应用中的上下文理解能力,从而提高其响应的准确性和相关性,具有重要的实际价值和未来影响。

📄 摘要(原文)

During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the provided context to answer a query. While prior work has studied how context characteristics correlate with context usage by the LLM, this analysis has been limited to inference time, leaving open how these relationships are acquired in the first place. Here, we measure how models' sensitivity to such characteristics shifts across successive IFT stages: supervised fine-tuning (SFT), direct preference optimization (DPO), and reinforcement learning with verifiable rewards (RLVR). Experiments across four models and three datasets show that SFT makes models more likely to use contexts that are easy to understand, such as containing high length, context-query similarity, and fluency. Post-SFT dynamics may either reinforce or resolve these preferences depending on the training dataset. Our findings reveal that context usage is actively reshaped at each IFT stage, and designing a balanced IFT dataset is important in ensuring robust context utilization of instruction-tuned models.