Dynamic Chunking and Selection for Reading Comprehension of Ultra-Long Context in Large Language Models
作者: Boheng Sheng, Jiacheng Yao, Meicong Zhang, Guoxiu He
分类: cs.CL
发布日期: 2025-06-01 (更新: 2025-06-03)
备注: Accepted by ACL 2025 Main Conference
🔗 代码/项目: GITHUB
💡 一句话要点
提出动态分块与选择方法,提升大语言模型在超长文本阅读理解中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本理解 动态分块 问题感知 阅读理解 大型语言模型 语义相似度 问答系统
📋 核心要点
- 现有方法将长文本分割成固定长度的块,可能割裂语义相关的内容,影响理解准确性。
- 该方法通过计算句子间语义相似度动态分割文本,并训练分类器选择关键块,为LLM提供精简输入。
- 实验结果表明,该方法在单跳和多跳问答任务中优于基线,且对不同长度的文本具有鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)在准确阅读和理解超长文本时常常面临挑战。目前改进方法通常依赖于将长文本分割成固定长度的块。然而,固定长度的截断可能将语义相关的内容分隔开,导致歧义并损害准确理解。为了克服这个限制,我们提出了一种直接的方法,用于动态地分离和选择长文本块,从而为LLMs提供更精简的输入。具体来说,我们计算相邻句子之间的语义相似度,使用较低的相似度自适应地将长文本分割成可变长度的块。我们进一步训练一个问题感知的分类器来选择对回答特定问题至关重要的敏感块。在单跳和多跳问答基准测试上的实验结果表明,所提出的方法始终优于强大的基线。值得注意的是,它在各种输入长度上保持了鲁棒性,能够处理高达256k tokens的序列。我们的数据集和代码可在以下链接获得:https://github.com/ECNU-Text-Computing/DCS
🔬 方法详解
问题定义:论文旨在解决大型语言模型在处理超长文本时,由于固定长度分块可能导致语义信息割裂,从而影响阅读理解能力的问题。现有方法无法有效捕捉长文本中的关键信息,导致问答准确率下降。
核心思路:核心思路是动态地将长文本分割成语义相关的块,并选择与问题相关的关键块。通过计算相邻句子之间的语义相似度,自适应地确定分块边界,避免割裂语义信息。然后,训练一个问题感知的分类器,从所有块中选择对回答问题最有帮助的块。
技术框架:整体流程包括三个主要阶段:1) 动态分块:计算相邻句子之间的语义相似度,并根据相似度阈值将文本分割成可变长度的块。2) 块选择:训练一个问题感知的分类器,用于评估每个块与问题的相关性,并选择最相关的块。3) 问答:将选择的块输入到大型语言模型中,生成答案。
关键创新:关键创新在于动态分块和问题感知的块选择。动态分块能够自适应地捕捉语义边界,避免信息割裂。问题感知的块选择能够聚焦于与问题相关的关键信息,提高问答准确率。与固定长度分块相比,该方法能够更有效地利用长文本中的信息。
关键设计:在动态分块阶段,使用预训练的语言模型(如BERT)计算句子嵌入,并使用余弦相似度计算相邻句子之间的语义相似度。相似度阈值是一个关键参数,需要根据具体任务进行调整。在块选择阶段,使用一个二元分类器(如MLP或Transformer)来预测每个块与问题的相关性。分类器的训练数据由人工标注或自动生成。损失函数通常采用交叉熵损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在单跳和多跳问答任务中均优于现有基线方法。尤其是在处理长达256k tokens的超长文本时,该方法仍然保持了良好的鲁棒性和准确性。与固定长度分块相比,该方法能够显著提高问答准确率,证明了其在处理超长文本方面的优势。
🎯 应用场景
该研究成果可应用于需要处理超长文本的各种场景,例如法律文档分析、金融报告解读、医学病历理解等。通过动态分块和选择,可以提高大型语言模型在这些领域的应用效果,辅助专业人士进行决策和分析,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Large language models (LLMs) often struggle to accurately read and comprehend extremely long texts. Current methods for improvement typically rely on splitting long contexts into fixed-length chunks. However, fixed truncation risks separating semantically relevant content, leading to ambiguity and compromising accurate understanding. To overcome this limitation, we propose a straightforward approach for dynamically separating and selecting chunks of long context, facilitating a more streamlined input for LLMs. In particular, we compute semantic similarities between adjacent sentences, using lower similarities to adaptively divide long contexts into variable-length chunks. We further train a question-aware classifier to select sensitive chunks that are critical for answering specific questions. Experimental results on both single-hop and multi-hop question-answering benchmarks show that the proposed approach consistently outperforms strong baselines. Notably, it maintains robustness across a wide range of input lengths, handling sequences of up to 256k tokens. Our datasets and code are available at the following link: https://github.com/ECNU-Text-Computing/DCS