TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

作者: Runjia Zeng, Qifan Wang, Qiang Guan, Ruixiang Tang, Lifu Huang, Zhenting Wang, Xueling Zhang, Cheng Han, Dongfang Liu

分类: cs.CL, cs.AI

发布日期: 2026-01-27

备注: ICLR 2026

💡 一句话要点

TokenSeek：通过实例感知的Token丢弃实现内存高效的微调

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 内存优化 Token选择 实例感知

📋 核心要点

现有微调方法内存消耗巨大，激活值优化是降低内存的关键，但现有方法忽略了数据本身的特性。
TokenSeek通过实例感知的token寻找和丢弃，动态地选择重要token进行训练，从而降低内存占用。
实验表明，TokenSeek在显著降低内存消耗的同时，能够保持甚至提升模型性能，例如在Llama3.2 1B上仅需14.8%的内存。

📝 摘要（中文）

微调已成为将大型语言模型（LLMs）适应下游任务的事实标准方法，但LLMs固有的高训练内存消耗使得这一过程效率低下。在现有的内存高效方法中，与激活相关的优化已被证明特别有效，因为激活始终占据总内存消耗的主导地位。尽管先前的技术提供了各种激活优化策略，但它们与数据无关的性质最终导致无效和不稳定的微调。在本文中，我们提出TokenSeek，这是一种通用的插件解决方案，通过实例感知的token寻找和丢弃，适用于各种基于Transformer的模型，从而显著节省微调内存（例如，在Llama3.2 1B上仅需要14.8%的内存），同时保持甚至更好的性能。此外，我们可解释的token寻找过程揭示了其有效性的根本原因，为未来token效率的研究提供了宝贵的见解。

🔬 方法详解

问题定义：大型语言模型微调时，激活值占据了大量的内存，导致训练效率低下。现有的激活值优化方法通常是数据无关的，即对所有输入样本采用相同的优化策略，忽略了不同样本的重要性差异，导致微调效果不稳定甚至性能下降。

核心思路：TokenSeek的核心思想是根据输入实例的重要性，动态地选择和保留重要的token，丢弃不重要的token，从而减少参与计算的token数量，降低内存消耗。这种实例感知的token选择策略能够更有效地利用有限的计算资源，提高微调效率和性能。

技术框架：TokenSeek作为一个通用插件，可以集成到各种基于Transformer的模型中。其主要流程包括：1) Token重要性评估：对于每个输入实例，评估每个token的重要性；2) Token选择：根据重要性评估结果，选择保留最重要的token，丢弃不重要的token；3) 微调训练：使用选择后的token进行微调训练。

关键创新：TokenSeek的关键创新在于提出了实例感知的token选择策略。与现有方法不同，TokenSeek能够根据输入实例的特点，动态地调整token选择策略，从而更有效地降低内存消耗，提高微调效率和性能。此外，TokenSeek提供了一种可解释的token寻找过程，能够揭示模型关注的关键token，为未来的研究提供有价值的见解。

关键设计：TokenSeek的关键设计包括：1) Token重要性评估方法：可以使用梯度、注意力权重等指标来评估token的重要性。具体实现细节未知，论文中可能涉及具体计算公式；2) Token选择策略：可以采用固定比例或动态阈值等方法来选择token。具体实现细节未知，论文中可能涉及具体策略选择；3) 损失函数：使用标准的交叉熵损失函数进行微调训练。具体实现细节未知，论文中可能涉及损失函数的具体形式。

🖼️ 关键图片

📊 实验亮点

TokenSeek在Llama3.2 1B模型上实现了显著的内存节省，仅需14.8%的原始内存，同时保持甚至提升了模型性能。实验结果表明，TokenSeek是一种有效的内存高效微调方法，能够显著降低训练成本，提高训练效率。

🎯 应用场景

TokenSeek可应用于各种需要对大型语言模型进行微调的场景，例如自然语言处理、机器翻译、文本生成等。该方法能够显著降低微调所需的内存资源，使得在资源受限的设备上进行模型微调成为可能，加速LLM在各领域的应用。

📄 摘要（原文）

Fine tuning has been regarded as a de facto approach for adapting large language models (LLMs) to downstream tasks, but the high training memory consumption inherited from LLMs makes this process inefficient. Among existing memory efficient approaches, activation-related optimization has proven particularly effective, as activations consistently dominate overall memory consumption. Although prior arts offer various activation optimization strategies, their data-agnostic nature ultimately results in ineffective and unstable fine tuning. In this paper, we propose TokenSeek, a universal plugin solution for various transformer-based models through instance-aware token seeking and ditching, achieving significant fine-tuning memory savings (e.g., requiring only 14.8% of the memory on Llama3.2 1B) with on-par or even better performance. Furthermore, our interpretable token seeking process reveals the underlying reasons for its effectiveness, offering valuable insights for future research on token efficiency. Homepage: https://runjia.tech/iclr_tokenseek/

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理