Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation
作者: Garvin Kruthof
分类: cs.CL
发布日期: 2026-04-30
💡 一句话要点
DriftBench:揭示多轮LLM迭代中约束违反问题,并提出知识-违反率(KBV)指标。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 约束坚持性 迭代构思 知识-违反率 DriftBench 科学构思 基准测试
📋 核心要点
- 现有方法难以保证LLM在多轮迭代构思过程中始终遵守初始约束,导致结果偏离目标。
- 提出DriftBench基准,用于评估LLM在迭代构思中对约束的坚持程度,并引入知识-违反率(KBV)指标。
- 实验表明,迭代压力会增加结构复杂性并降低约束坚持性,模型甚至会违反自己明确记住的约束。
📝 摘要(中文)
本文提出了DriftBench,一个用于评估多轮LLM辅助科学构思中约束坚持性的基准。通过对来自五个提供商的七个模型(包括两个开源模型)、四种交互条件和来自24个科学领域的38个研究简报的2146次评分基准测试,发现迭代压力可靠地增加了结构复杂性,并经常降低对原始约束的坚持性。重述探针揭示了声明性回忆和行为坚持性之间的分离,因为模型准确地重述了它们同时违反的约束。知识-违反(KBV)率,衡量尽管保留了回忆但仍不遵守约束的情况,在模型中从8%到99%不等。结构化检查点部分降低了KBV率,但并未消除这种分离,并且复杂性膨胀仍然存在。针对盲人评估者的真人验证证实,LLM判断低估了约束违反,使得报告的约束坚持性得分保守。敏感性分析证实,这些发现对温度(0.7 vs. 1.0)和压力类型(新颖性 vs. 严谨性)具有鲁棒性。我们发布所有简报、提示、评分标准、成绩单和分数作为开放基准。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在多轮迭代构思过程中,对初始约束的遵守程度问题。现有方法缺乏有效的评估手段,难以量化模型在迭代过程中逐渐偏离原始目标的现象。这种偏离会导致生成的想法虽然新颖,但可能不符合科学研究的严谨性和约束条件,降低了其应用价值。
核心思路:论文的核心思路是通过构建一个专门的基准测试(DriftBench),来系统地评估LLM在多轮迭代构思中对约束的坚持性。同时,引入“知识-违反率”(KBV)这一指标,用于量化模型明明知道约束却仍然违反约束的程度。通过分析KBV,可以更深入地理解LLM在迭代过程中的行为模式,并为改进模型提供指导。
技术框架:DriftBench基准测试包含以下几个主要组成部分:1) 一系列来自不同科学领域的研究简报,作为LLM构思的初始目标和约束条件;2) 多轮迭代交互过程,模拟研究人员与LLM共同完善想法的场景;3) 一套详细的评分标准,用于评估LLM生成的想法是否符合原始约束;4) 一种“重述探针”机制,用于检测LLM是否能够准确地回忆起约束条件;5) KBV指标的计算,用于量化约束违反情况。
关键创新:论文的关键创新在于:1) 提出了DriftBench基准,为评估LLM在迭代构思中的约束坚持性提供了一个标准化的平台;2) 引入了KBV指标,能够更精确地量化模型“知而不行”的现象,揭示了声明性知识和行为之间的分离;3) 通过实验发现,迭代压力会显著增加结构复杂性,并降低约束坚持性,即使模型能够准确地回忆起约束,仍然会违反它们。
关键设计:在DriftBench中,研究简报来自24个科学领域,涵盖了广泛的研究主题和约束条件。迭代交互过程模拟了研究人员与LLM之间的对话,允许模型在每一轮迭代中根据反馈改进想法。评分标准由领域专家制定,确保评估的准确性和客观性。KBV的计算方式为:(违反约束且能够准确重述约束的次数) / (能够准确重述约束的总次数)。实验中还探索了不同的温度参数(0.7 vs. 1.0)和压力类型(新颖性 vs. 严谨性)对结果的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,迭代压力会显著增加LLM生成的想法的结构复杂性,并降低对原始约束的坚持性。KBV率在不同模型中差异显著,从8%到99%不等,表明模型在知识和行为之间存在明显的分离。结构化检查点可以部分降低KBV率,但无法完全消除这种分离。人工评估表明,LLM判断往往低估了约束违反情况,因此报告的约束坚持性得分是保守的。
🎯 应用场景
该研究成果可应用于各种需要LLM辅助迭代构思的场景,例如科研项目设计、产品创新、政策制定等。通过DriftBench评估和优化LLM,可以提高其生成结果的质量和可靠性,减少因违反约束而导致的风险。未来的研究可以探索如何利用结构化检查点或其他技术手段,进一步降低KBV率,提高LLM的约束坚持性。
📄 摘要(原文)
When researchers iteratively refine ideas with large language models, do the models preserve fidelity to the original objective? We introduce DriftBench, a benchmark for evaluating constraint adherence in multi-turn LLM-assisted scientific ideation. Across 2,146 scored benchmark runs spanning seven models from five providers (including two open-weight), four interaction conditions, and 38 research briefs from 24 scientific domains, we find that iterative pressure reliably increases structural complexity and often reduces adherence to original constraints. A restatement probe reveals a dissociation between declarative recall and behavioral adherence, as models accurately restate constraints they simultaneously violate. The knows-but-violates (KBV) rate, measuring constraint non-compliance despite preserved recall, ranges from 8% to 99% across models. Structured checkpointing partially reduces KBV rates but does not close the dissociation, and complexity inflation persists. Human validation against blind raters confirms that the LLM judge under-detects constraint violations, making reported constraint adherence scores conservative. Sensitivity analyses confirm the findings are robust to temperature (0.7 vs.\ 1.0) and pressure type (novelty vs.\ rigor). We release all briefs, prompts, rubrics, transcripts, and scores as an open benchmark.