ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

作者: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao

分类: cs.CL

发布日期: 2025-01-26

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出ARWKV模型以提升RNN的表达能力和效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: RNN 注意力机制 知识蒸馏 模型压缩 自然语言处理

📋 核心要点

现有的Transformer和线性RNN模型在效率和表达能力上存在不足，尤其是在处理复杂任务时。
本文提出的ARWKV模型基于RWKV-7注意力机制，旨在提升RNN的表达能力，并实现更高效的知识处理。
实验表明，使用QRWK 32B架构，知识处理时间缩短至8小时，同时保持与Qwen 2.5相当的性能，展示了显著的效率提升。

📝 摘要（中文）

众所周知，混合二次和亚二次注意力模型在多头架构中超越了Transformer和线性RNN模型，主要集中在降低KV复杂性和提高效率。为进一步研究表达能力，本文介绍了一系列基于纯原生RWKV-7注意力的模型，这些模型从Qwen 2.5中提炼而来，旨在使RNN更具表达能力，并展示超越Transformer的状态跟踪能力。我们使用基于RWKV-6架构的QRWK 32B，利用16个AMD MI300X GPU将整个知识处理时间缩短至仅8小时，同时保持Qwen 2.5的性能。实际上，蒸馏过程可以利用任何大型语言模型，而不仅限于Qwen，并实现从更大模型到更小模型的知识转移，所需的token更少。我们将详细解释这一过程，并分享构建更强大基础模型的见解。

🔬 方法详解

问题定义：本文旨在解决现有Transformer和线性RNN在处理复杂任务时的效率和表达能力不足的问题，特别是在知识处理时间和状态跟踪能力方面的挑战。

核心思路：通过引入基于RWKV-7的注意力机制，本文希望提升RNN的表达能力，并通过蒸馏过程实现从大型语言模型到小型模型的知识转移，减少所需token数量。

技术框架：整体架构包括RWKV-7注意力机制的实现，蒸馏过程的设计，以及基于QRWK 32B的高效知识处理模块，利用16个AMD MI300X GPU进行训练。

关键创新：最重要的创新在于提出了RWKV-7注意力机制，使得RNN在表达能力上超越了传统的Transformer架构，并在知识处理效率上实现了显著提升。

关键设计：在模型设计中，采用了优化的损失函数和网络结构，确保在蒸馏过程中能够有效传递知识，并通过减少token数量来提高处理效率。具体参数设置和网络结构细节将在后续工作中进一步公开。

🖼️ 关键图片

📊 实验亮点

实验结果显示，ARWKV模型在知识处理时间上缩短至8小时，同时保持与Qwen 2.5相当的性能，展示了在效率和表达能力上的显著提升。与传统模型相比，ARWKV在处理复杂任务时表现出更优的状态跟踪能力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等，尤其是在需要高效知识处理和状态跟踪的场景中。ARWKV模型的设计能够为这些应用提供更强大的基础模型，提升系统的整体性能和用户体验。

📄 摘要（原文）

As is known, hybrid quadratic and subquadratic attention models in multi-head architectures have surpassed both Transformer and Linear RNN models , with these works primarily focusing on reducing KV complexity and improving efficiency. For further research on expressiveness, we introduce our series of models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which aims to make RNN more expressive and demonstrates state tracking ability beyond transformers. We work with QRWK 32B based on RWKV-6 architecture, another approach that reduces the entire knowledge processing time to just 8 hours using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the distillation process can utilize any LLM, not just Qwen, and enables knowledge transfer from larger LLMs to smaller ones with more fewer tokens. We will explain the detailed process and share our insights on building more powerful foundation models. Please note that this is an ongoing work that will be updated continuously. The model checkpoints and source code are available at \href{https://github.com/yynil/RWKVInside}{https://github.com/yynil/RWKVInside}, \href{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理