Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules

作者: Yueqi Zhang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li

分类: cs.AI, cs.CL

发布日期: 2025-05-30

💡 一句话要点

提出QuAda，通过即插即用模块增强LLM在引用感知对话中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 引用感知对话 注意力机制 即插即用模块 span条件生成

📋 核心要点

现有LLM在处理人机对话中常见的引用场景时，缺乏明确的机制来定位和利用引用的文本片段。
QuAda通过在每个注意力头附加瓶颈投影，动态调整对引用片段的注意力，实现高效的引用感知能力。
实验表明QuAda在多个场景中有效，并能泛化到未见过的主题，同时保持较低的参数更新比例。

📝 摘要（中文）

人机对话经常依赖于引用之前的文本，但目前的大型语言模型(LLMs)缺乏定位和利用这些文本片段的明确机制。本文将此挑战形式化为span条件生成，将每个turn分解为对话历史、token-offset引用片段集合和意图话语。基于此抽象，我们引入了一个以引用为中心的数据pipeline，自动合成特定任务的对话，通过多阶段一致性检查验证答案的正确性，并生成异构训练语料库和首个涵盖五个代表性场景的基准。为了满足基准的零开销和参数效率要求，我们提出了QuAda，一种轻量级的基于训练的方法，它将两个瓶颈投影附加到每个注意力头，在推理时动态地放大或抑制对引用片段的注意力，同时保持prompt不变，并且仅更新<2.8%的骨干权重。跨模型的实验表明，QuAda适用于所有场景，并能泛化到未见过的主题，为引用感知对话提供了一种有效的即插即用解决方案。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLMs)在人机对话中处理引用文本片段时的不足。现有LLMs缺乏明确的机制来定位和利用对话历史中的特定span，导致无法有效理解和回应依赖引用的用户意图。这限制了LLMs在需要精确引用和推理的对话场景中的应用。

核心思路：论文的核心思路是通过引入一个轻量级的模块，动态地调整LLM对引用文本片段的注意力。该模块通过学习增强或抑制对引用span的关注，使LLM能够更好地理解用户意图并生成更准确的回复。这种方法旨在实现参数效率和即插即用性，避免对整个LLM进行大规模的重新训练。

技术框架：QuAda的技术框架主要包括以下几个部分：1) 数据pipeline，用于自动生成包含引用片段的对话数据，并进行多阶段一致性检查以保证数据质量；2) QuAda模块，由两个瓶颈投影组成，分别附加到LLM的每个注意力头；3) 训练过程，通过训练QuAda模块，使其能够根据引用span动态调整注意力权重。在推理阶段，QuAda模块根据输入的引用span，动态地调整LLM对不同token的注意力，从而实现引用感知。

关键创新：QuAda的关键创新在于其轻量级和即插即用的设计。与需要大规模重新训练的方法不同，QuAda仅需训练少量参数，即可实现显著的性能提升。此外，QuAda的设计使其可以方便地集成到现有的LLM中，无需修改LLM的prompt或架构。这种设计使得QuAda具有很高的实用性和可扩展性。

关键设计：QuAda的关键设计包括：1) 瓶颈投影：使用两个瓶颈投影来降低参数量，提高训练效率；2) 注意力调整：通过学习到的权重，动态地放大或抑制对引用span的注意力；3) 损失函数：使用交叉熵损失函数来训练QuAda模块，使其能够准确地识别和利用引用span。论文中更新的参数小于2.8%的骨干权重，保证了参数效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，QuAda在多个引用感知对话场景中均取得了显著的性能提升。具体而言，QuAda在各种模型上都表现良好，并且能够泛化到未见过的主题。该方法在实现高性能的同时，保持了较低的参数更新比例（<2.8%），验证了其参数效率和实用性。

🎯 应用场景

该研究成果可应用于各种人机对话系统，尤其是在需要精确引用和推理的场景中，例如问答系统、智能客服、教育辅导等。通过增强LLM的引用感知能力，可以提高对话的准确性和流畅性，改善用户体验。未来，该技术还可以扩展到其他模态，例如图像和视频，实现更丰富的引用感知交互。

📄 摘要（原文）

Human-AI conversation frequently relies on quoting earlier text-"check it with the formula I just highlighted"-yet today's large language models (LLMs) lack an explicit mechanism for locating and exploiting such spans. We formalise the challenge as span-conditioned generation, decomposing each turn into the dialogue history, a set of token-offset quotation spans, and an intent utterance. Building on this abstraction, we introduce a quotation-centric data pipeline that automatically synthesises task-specific dialogues, verifies answer correctness through multi-stage consistency checks, and yields both a heterogeneous training corpus and the first benchmark covering five representative scenarios. To meet the benchmark's zero-overhead and parameter-efficiency requirements, we propose QuAda, a lightweight training-based method that attaches two bottleneck projections to every attention head, dynamically amplifying or suppressing attention to quoted spans at inference time while leaving the prompt unchanged and updating < 2.8% of backbone weights. Experiments across models show that QuAda is suitable for all scenarios and generalises to unseen topics, offering an effective, plug-and-play solution for quotation-aware dialogue.

Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理