You Only Use Reactive Attention Slice For Long Context Retrieval

作者: Yun Joon Soh, Hanxian Huang, Yuandong Tian, Jishen Zhao

分类: cs.CL, cs.AI, cs.IR

发布日期: 2024-09-03

💡 一句话要点

提出基于反应式注意力切片的YOURA长文本检索方法，提升LLM推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本检索 注意力机制 大型语言模型 检索增强生成 反应式注意力 长上下文 LLM推理加速

📋 核心要点

现有检索增强生成（RAG）方法在长文本上下文中表现不足，主要依赖于基于嵌入的检索。
YOURA通过计算token级别注意力对查询的“反应”程度，选择性地检索最相关的句子，提升检索效率。
实验表明，YOURA在长文本问答任务中，能够显著提升LLM的推理吞吐量，同时保持与现有方法相当的性能。

📝 摘要（中文）

为了支持大型语言模型（LLM）处理更长的上下文，本文提出了一种基于注意力的检索技术，名为You Only Use Reactive Attention slice (YOURA)。YOURA利用一种新颖的检索启发式方法，称为反应得分，来评估输入上下文中每个句子与查询句子的相关性。直观地说，该方法衡量每个token的注意力得分对查询的“反应”程度，并贪婪地检索最具反应性的句子。YOURA在内部为整个输入上下文生成一个token索引的向量（称为反应向量）。为了将每个句子映射到token索引的向量，我们提出了一种与嵌入无关的句子生成方法（Embedding-Agnostic Sentence Yield，EASY），这是一种尽力而为的token微调算法。在六个LongBench QA数据集上，对三个开源预训练LLM模型进行了评估。结果表明，该技术在服务长上下文查询时，vLLM推理吞吐量提高了30%，同时质量得分与简单但有效的truncate-middle方法几乎相同。

🔬 方法详解

问题定义：现有基于嵌入的检索方法在处理长文本上下文时存在局限性，无法有效捕捉长距离依赖关系，导致检索结果不准确。这限制了LLM在需要长上下文信息的任务中的应用。

核心思路：YOURA的核心思路是利用LLM自身计算的注意力权重来判断输入文本中哪些部分与查询最相关。通过分析每个token的注意力得分对查询的“反应”，可以更精确地定位到关键信息，从而实现更有效的检索。这种方法避免了对额外嵌入模型的依赖，直接利用了LLM的内部知识。

技术框架：YOURA主要包含以下几个阶段：1) 反应向量生成：对于输入上下文中的每个token，计算其对查询的反应得分，生成token索引的反应向量。2) 句子映射：利用Embedding-Agnostic Sentence Yield (EASY)算法，将每个句子映射到token索引的反应向量。EASY算法旨在找到句子中每个词对应的token在反应向量中的最佳位置。3) 句子排序与检索：根据句子的反应得分（例如，句子中所有token反应得分的平均值），对句子进行排序，并选择得分最高的句子作为检索结果。

关键创新：YOURA的关键创新在于提出了一种基于注意力“反应”的检索启发式方法。与传统的基于嵌入的检索方法不同，YOURA直接利用LLM的注意力机制来评估文本的相关性，无需额外的嵌入模型。此外，EASY算法提供了一种将句子映射到token索引向量的有效方法，使得可以基于token级别的注意力得分进行句子级别的检索。

关键设计：反应得分的计算方式是YOURA的关键设计之一。具体如何定义“反应”以及如何量化注意力得分的变化是需要仔细考虑的。EASY算法的具体实现，例如如何处理token与词之间的对应关系，以及如何优化映射过程，也是重要的技术细节。此外，句子反应得分的计算方式（例如，平均值、最大值等）也会影响检索效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，YOURA在LongBench QA数据集上，能够显著提升vLLM的推理吞吐量，最高可达30%，同时保持与truncate-middle方法几乎相同的质量得分。这表明YOURA能够在不牺牲性能的前提下，有效提高LLM处理长文本的效率。该结果验证了基于注意力反应的检索方法的有效性。

🎯 应用场景

YOURA技术可应用于各种需要长文本上下文理解的场景，例如长篇文档问答、信息检索、法律文本分析、医疗记录处理等。通过提高LLM处理长文本的效率和准确性，可以提升这些应用的用户体验和智能化水平。该技术还有助于降低长文本推理的计算成本，促进LLM在资源受限环境中的部署。

📄 摘要（原文）

Supporting longer context for Large Language Models (LLM) is a promising direction to advance LLMs. As training a model for a longer context window is computationally expensive, many alternative solutions, such as Retrieval Augmented Generation (RAG), have been used. However, most existing RAG methods adopt embedding-based retrieval that falls short on long contexts. To address such challenges, we propose an attention-based retrieval technique, You Only Use Reactive Attention slice (YOURA). YOURA leverages a novel retrieval heuristic called reaction score to rank the relevance of each sentence in the input context with the query sentence. Intuitively, we measure how the per-token attention score "reacts" to the query and greedily retrieves the most reactive sentences. Internally, YOURA generates a token-indexed vector (called reaction vector) for the whole input context. To map each sentence to the token-indexed vector, we propose an Embedding-Agnostic Sentence Yield (EASY), a best-effort token wiggling algorithm. We evaluate our retrieval technique on three open-source pre-trained LLM models across six LongBench QA datasets. Our technique achieves up to 30% vLLM inference throughput improvement for serving long-context queries with a nearly identical quality score to the simple yet effective truncate-middle approach.

You Only Use Reactive Attention Slice For Long Context Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理