SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following

📄 arXiv: 2605.06353v2 📥 PDF

作者: Beatriz Canaverde, Duarte M. Alves, José Pombal, Giuseppe Attanasio, André F. T. Martins

分类: cs.CL

发布日期: 2026-05-07 (更新: 2026-05-08)


💡 一句话要点

提出SEQUOR基准测试,揭示大模型在长多轮对话中遵循复杂约束的性能瓶颈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 多轮对话 基准测试 长程记忆 约束满足 大语言模型评估

📋 核心要点

  1. 现有指令遵循基准多局限于单轮或短对话,无法有效评估模型在长程、动态交互中处理复杂约束的能力。
  2. SEQUOR通过模拟真实场景下的角色驱动交互,构建了包含动态约束添加、修改与冲突的自动化评估框架。
  3. 实验揭示了模型在长多轮对话中指令遵循能力的显著退化,特别是在多约束并行及动态调整场景下表现尤为脆弱。

📝 摘要(中文)

在对话系统中,一个有用的助手必须能够可靠地遵循用户指令,即使这些指令在后续对话中被细化、修改或推翻。然而,目前大多数指令遵循基准测试主要集中在单轮或短多轮场景,导致模型在长程指令遵循任务中的表现尚不明确。为了填补这一空白,我们提出了SEQUOR,这是一个用于评估长多轮对话中约束遵循能力的自动化基准。SEQUOR由基于真实对话约束构建的模拟角色驱动交互组成。实验结果表明,即使仅遵循单一约束,随着对话长度增加,模型的指令遵循准确率也会持续下降,降幅超过11%;当模型需要同时遵循多个约束时,准确率下降幅度超过40%;在对话中途添加或替换约束的场景下,准确率下降超过9%。这些结果揭示了当前模型在多轮对话中遵循用户指令方面仍存在显著困难,并为衡量AI助手的指令遵循能力提供了有效手段。

🔬 方法详解

问题定义:论文旨在解决大语言模型在长多轮对话中难以维持指令一致性的问题。现有方法往往在单轮指令上表现良好,但在对话演进过程中,随着约束条件的累积、变更或冲突,模型极易遗忘或违背先前的指令,缺乏系统性的评估手段。

核心思路:通过构建一个基于真实对话约束的模拟基准(SEQUOR),将指令遵循任务转化为多轮对话中的约束满足问题。该方法通过模拟用户在对话中不断引入新约束的场景,量化模型在长程记忆和逻辑一致性上的表现。

技术框架:SEQUOR框架包含三个主要阶段:首先,从真实对话数据中提取多样化的约束条件;其次,利用模拟器生成包含角色设定和多轮交互的对话序列;最后,通过自动化的评估机制,检测模型在每一轮对话中是否严格遵守了所有活跃的约束条件。

关键创新:该研究首次系统性地量化了“约束衰减”现象,即随着对话轮次的增加,模型对指令的遵循能力呈线性或非线性下降。此外,它引入了动态约束变更机制,能够测试模型在面对指令冲突或更新时的鲁棒性。

关键设计:该基准采用了模块化的约束注入设计,允许在对话的任意节点插入、修改或撤销约束。评估指标不仅关注最终输出,还通过对每一轮对话的约束满足度进行打分,从而精确捕捉模型在对话过程中的性能退化轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,模型在长多轮对话中表现出显著的性能退化:单一约束下准确率下降超11%,多约束并行下准确率降幅超40%,动态约束调整场景下准确率下降超9%。这些数据有力证明了当前主流大模型在处理长程、复杂指令遵循任务时仍存在严重的鲁棒性不足。

🎯 应用场景

该研究可广泛应用于AI助手、客服机器人及复杂任务规划系统的开发与评估。通过SEQUOR基准,开发者能更精准地识别模型在长程交互中的逻辑漏洞,从而优化模型的系统提示词(System Prompt)设计、长上下文处理能力及指令微调策略,提升AI在复杂业务场景下的可靠性。

📄 摘要(原文)

In a conversation, a helpful assistant must reliably follow user directives, even as they refine, modify, or contradict earlier requests. Yet most instruction-following benchmarks focus on single-turn or short multi-turn scenarios, leaving open how well models handle long-horizon instruction-following tasks. To bridge this gap, we present SEQUOR, an automatic benchmark for evaluating constraint adherence in long multi-turn conversations. SEQUOR consists of simulated persona-driven interactions built with constraints extracted from real-world conversations. Our results show that even when following a single constraint, instruction-following accuracy consistently decreases as the conversation grows longer, with drops exceeding 11%. This decline becomes larger when models have to follow multiple constraints simultaneously, reducing their accuracy by over 40%. In scenarios where constraints are added or replaced at arbitrary points of the conversation, model accuracy decreases by more than 9%. Taken together, our results reveal that current models still struggle to follow user instructions in multi-turn conversations, and provide a way for better measuring instruction-following capabilities in assistants.