Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models
作者: Bar Karov, Dor Zohar, Yam Marcovitz
分类: cs.CL, cs.AI
发布日期: 2025-03-05
备注: Supplementary materials, including code, is available on our GitHub: https://github.com/emcie-co/parlant/tree/arqs-a-systematic-method-for-optimizing-instruction-following-in-llms
💡 一句话要点
提出ARQs,通过领域专家知识引导LLM,显著提升复杂指令跟随能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 指令跟随 结构化推理 领域知识 多轮对话
📋 核心要点
- 现有LLM在复杂多轮对话中难以维持对特定领域指令的严格遵循,限制了其在关键业务场景的应用。
- ARQs通过预定义的领域专家推理蓝图,引导LLM进行系统化推理,并在过程中不断强化关键指令。
- 实验表明,ARQs在指令跟随任务中显著优于CoT和直接生成,尤其在避免幻觉和重复应用规则方面。
📝 摘要(中文)
本文提出了一种名为Attentive Reasoning Queries (ARQs) 的新型结构化推理方法,该方法通过领域特定的推理蓝图,显著提升大型语言模型在指令跟随方面的能力。尽管LLM在各种任务中表现出卓越的能力,但在多轮对话中,它们常常无法坚持复杂的、特定于用例的指令,这给关键业务应用带来了挑战。ARQs通过有针对性的查询引导LLM完成系统化的推理步骤,这些查询在整个完成过程中重新确立关键指令并促进中间推理。在Parlant(我们用于可靠的面向客户的代理的框架,ARQs 在其中应运而生)的广泛测试中,ARQs 在 87 个测试场景中实现了 90.2% 的成功率,优于 Chain-of-Thought 推理 (86.1%) 和直接响应生成 (81.5%)。ARQs 在解决诸如指导方针重新应用和防止幻觉等持续存在的失败模式方面表现出特别的优势。我们的分析还表明,经过精心设计的 ARQs 可能比自由形式的推理在计算上更有效。这些发现表明,结构化推理方法为控制 LLM 在复杂场景中处理信息和做出决策的方式提供了有效的机制。
🔬 方法详解
问题定义:大型语言模型(LLM)在复杂的多轮对话中,难以始终如一地遵循特定领域或用例的复杂指令。这种指令跟随能力不足,导致在需要高度可靠性和一致性的商业关键应用中出现问题,例如客户服务代理。现有的方法,如Chain-of-Thought (CoT),虽然能提升推理能力,但在指令的持续应用和避免幻觉方面仍然存在挑战。
核心思路:ARQs的核心思路是利用结构化的、领域特定的推理蓝图,将复杂的指令跟随任务分解为一系列有针对性的查询。这些查询旨在引导LLM逐步进行推理,并在每个步骤中重新强调关键指令,确保LLM始终关注任务目标和约束条件。通过这种方式,ARQs试图将LLM的推理过程从自由形式的探索转变为受控的、目标导向的流程。
技术框架:ARQs框架包含以下主要阶段:1) 指令解析:将复杂的指令分解为关键要素和约束条件。2) 推理蓝图选择:根据任务类型选择合适的领域特定推理蓝图。3) 查询生成:基于推理蓝图,生成一系列有针对性的查询,每个查询旨在解决推理过程中的一个特定方面。4) LLM执行:将查询输入LLM,并获取LLM的响应。5) 结果整合:将LLM的响应整合到最终结果中,并根据需要进行后处理。整个流程是一个迭代的过程,每个查询的响应都会影响后续查询的生成。
关键创新:ARQs的关键创新在于其结构化的推理方法和领域特定的推理蓝图。与传统的自由形式推理方法不同,ARQs通过预定义的推理步骤和查询,显式地控制LLM的推理过程。领域特定的推理蓝图则允许ARQs针对不同的任务类型进行定制,从而提高指令跟随的准确性和效率。此外,ARQs通过在推理过程中不断强化关键指令,有效地解决了LLM在多轮对话中容易遗忘指令的问题。
关键设计:ARQs的关键设计包括:1) 推理蓝图的设计:推理蓝图需要根据具体的领域和任务进行设计,包含一系列预定义的推理步骤和查询模板。2) 查询生成策略:查询生成策略需要确保生成的查询能够有效地引导LLM进行推理,并重新强调关键指令。3) 结果整合方法:结果整合方法需要能够将LLM的响应有效地整合到最终结果中,并处理可能出现的冲突或不一致。
🖼️ 关键图片
📊 实验亮点
在Parlant框架下的87个测试场景中,ARQs的成功率达到90.2%,显著优于Chain-of-Thought (86.1%) 和直接响应生成 (81.5%)。ARQs在解决指导方针重新应用和防止幻觉等问题上表现出特别的优势。分析还表明,精心设计的ARQs在计算效率上可能优于自由形式推理。
🎯 应用场景
ARQs可广泛应用于需要高度可靠指令跟随的场景,如客户服务、智能助手、医疗诊断等。通过定制领域特定的推理蓝图,ARQs能够显著提升LLM在这些场景中的表现,降低出错风险,提高用户满意度。未来,ARQs有望成为构建可靠、可控的LLM应用的关键技术。
📄 摘要(原文)
We present Attentive Reasoning Queries (ARQs), a novel structured reasoning approach that significantly improves instruction-following in Large Language Models through domain-specialized reasoning blueprints. While LLMs demonstrate remarkable capabilities across diverse tasks, they often fail to maintain adherence to complex, use-case-specific instructions during multi-turn conversations, presenting challenges for business-critical applications. ARQs address this limitation by guiding LLMs through systematic reasoning steps with targeted queries that reinstate critical instructions and facilitate intermediate reasoning throughout the completion process. In extensive testing within Parlant, our framework for reliable customer-facing agents in which ARQs were born out of necessity, they achieved a 90.2% success rate across 87 test scenarios, outperforming both Chain-of-Thought reasoning (86.1%) and direct response generation (81.5%). ARQs showed particular strength in addressing persistent failure modes like guideline re-application and hallucination prevention. Our analysis also revealed that ARQs can potentially be more computationally efficient than free-form reasoning when carefully designed. These findings demonstrate that structured reasoning approaches provide effective mechanisms for controlling how LLMs process information and make decisions in complex scenarios.