Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model

📄 arXiv: 2405.19846v7 📥 PDF

作者: Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu

分类: cs.CL, cs.AI

发布日期: 2024-05-30 (更新: 2025-02-11)

备注: ICLR 2025


💡 一句话要点

Quest:一种面向查询的数据合成方法,用于扩展大型语言模型的长上下文能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长上下文学习 数据合成 查询生成 大型语言模型 语义相关性

📋 核心要点

  1. 现有长文本LLM训练方法存在领域不平衡问题,限制了模型在复杂任务中的表现。
  2. Quest方法通过生成模型预测文档潜在查询,聚合语义相关且多样化的文档,平衡语义连贯性和多样性。
  3. 实验结果表明,Quest在长上下文任务上表现优异,可扩展至百万级别tokens,并适用于不同规模模型。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展凸显了扩展上下文长度对于处理复杂任务的重要性。传统的长上下文训练方法通常使用过滤后的长文档,但这些方法会导致领域不平衡,从而限制模型性能。为了解决这个问题,研究人员开发了随机文档连接(Standard)和基于相似性的方法(KNN、ICLM)等技术。然而,它们要么牺牲了语义连贯性,要么牺牲了多样性。为了平衡这两个方面,我们引入了Quest,一种以查询为中心的数据合成方法,它聚合了语义相关但又多样化的文档。Quest使用生成模型来预测每个文档的潜在查询,并将具有相似查询和关键词的文档进行分组。大量的实验表明,Quest在长上下文任务上表现出色,在高达100万tokens的上下文长度下取得了显著成果,并证实了其在各种模型尺寸上的可扩展性。

🔬 方法详解

问题定义:现有长上下文语言模型训练方法,如过滤长文档、随机拼接文档或基于相似度检索文档,存在领域不平衡、语义连贯性不足或多样性缺失的问题。这些问题限制了模型在处理复杂、需要长程依赖的任务时的性能。

核心思路:Quest的核心思路是以查询为中心,为每个文档预测潜在的查询,然后根据查询的相似度将文档分组。这样既保证了语义相关性,又通过不同文档的组合引入了多样性。通过这种方式合成训练数据,可以有效提升模型在长上下文任务中的性能。

技术框架:Quest方法主要包含以下几个阶段:1) 使用生成模型(如LLM)为每个文档预测潜在查询;2) 基于查询的相似度和关键词对文档进行分组;3) 将分组后的文档拼接成更长的上下文序列,作为训练数据。整个流程以查询为中心,旨在构建语义相关且多样化的长上下文训练数据。

关键创新:Quest的关键创新在于以查询为中心的数据合成方法。与传统的文档拼接或相似度检索方法不同,Quest通过预测文档的潜在查询,实现了更细粒度的语义关联,从而更好地平衡了语义连贯性和多样性。这种方法能够更有效地利用现有文档资源,生成高质量的长上下文训练数据。

关键设计:Quest的关键设计包括:1) 使用高质量的生成模型来预测文档的潜在查询,保证查询的准确性和相关性;2) 设计合适的相似度度量方法,用于衡量查询之间的相似度,从而实现有效的文档分组;3) 调整生成模型预测查询的数量和分组的阈值,以控制生成数据的多样性和质量。

📊 实验亮点

实验结果表明,Quest方法在长上下文任务上取得了显著的性能提升。在上下文长度高达1M tokens的情况下,Quest仍然能够有效提升模型性能,超越了传统的长上下文训练方法。该方法在不同规模的模型上均表现出良好的可扩展性,证明了其在实际应用中的潜力。

🎯 应用场景

Quest方法可应用于需要处理长文本信息的各种场景,如长篇文档摘要、信息检索、对话系统、代码生成等。通过提升模型对长上下文的理解能力,可以显著改善这些应用的用户体验和性能。该研究对于推动LLM在实际应用中的落地具有重要价值。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have highlighted the importance of extending context lengths for handling complex tasks. While traditional methods for training on long contexts often use filtered long documents, these approaches lead to domain imbalances, limiting model performance. To address this, techniques like random document concatenation (Standard) and similarity-based methods (KNN, ICLM) have been developed. However, they either sacrifice semantic coherence or diversity. To balance both aspects, we introduce Quest, a query-centric data synthesis method aggregating semantically relevant yet diverse documents. Quest uses a generative model to predict potential queries for each document, grouping documents with similar queries and keywords. Extensive experiments demonstrate Quest's superior performance on long-context tasks, achieving remarkable results with context lengths of up to 1M tokens and confirming its scalability across various model sizes.