Enforcing Monotonic Progress in Legal Cross-Examination: Preventing Long-Horizon Stagnation in LLM-Based Inquiry

📄 arXiv: 2602.04206v1 📥 PDF

作者: Hsien-Jyh Liao

分类: cs.CL, cs.AI

发布日期: 2026-02-04

备注: Submitted to ICAIL 2026. Under review


💡 一句话要点

提出Soft-FSM,通过外部状态控制解决LLM在法律交叉询问中长期停滞问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 神经符号架构 法律交叉询问 程序停滞 状态控制

📋 核心要点

  1. 现有LLM在长程任务中,尤其是在有明确程序约束的场景下,容易出现程序停滞,无法保证任务完成。
  2. Soft-FSM通过引入外部确定性状态控制器,强制执行关键信息单元(KIU)的单调进展,确保程序推进。
  3. 实验表明,Soft-FSM在法律交叉询问任务中显著优于基线方法,完整性达到97%以上,冗余度接近于零。

📝 摘要(中文)

大型语言模型(LLM)在语言流畅性方面表现出色,但在明确的程序约束下,完成长期任务的能力不足。在法律交叉询问中,纯粹的概率生成通常保持行为连贯性,但未能确保程序上的推进。本文将这种失败描述为程序停滞,并提出Soft-FSM,一种神经符号架构,通过外部确定性状态控制器强制执行累积的关键信息单元(KIU)的单调进展。在三个真实的台湾刑事凶杀案上的实验表明,基线方法的完整性低于40%,而Soft-FSM始终达到97%以上,且冗余度接近于零。这些结果表明,在此类领域中,仅靠LLM的涌现行为无法保证可靠的任务完成,而可以通过显式和可验证的外部状态控制来可靠地强制执行。

🔬 方法详解

问题定义:论文旨在解决LLM在法律交叉询问等长程任务中出现的“程序停滞”问题。现有方法依赖于LLM的概率生成,虽然能保持一定的行为连贯性,但无法保证程序上的单调推进,导致任务完成度低,甚至停滞不前。这种停滞源于LLM难以在长期序列中维持对程序性约束的严格遵守。

核心思路:论文的核心思路是引入外部的确定性状态控制器,显式地管理和控制任务的进展。通过将任务分解为一系列关键信息单元(KIU),并强制执行KIU的单调累积,确保LLM在生成内容时始终朝着完成任务的方向前进。这种方法将LLM的生成能力与外部状态控制的确定性相结合,从而克服了纯概率生成方法的局限性。

技术框架:Soft-FSM是一个神经符号架构,包含以下主要模块:1) LLM生成器:负责生成交叉询问的内容。2) 关键信息单元(KIU)提取器:从生成的内容中提取关键信息单元。3) 状态控制器:维护一个确定性的状态,记录已完成的KIU,并根据当前状态约束LLM的生成。整体流程是:LLM生成内容 -> KIU提取器提取KIU -> 状态控制器更新状态 -> 状态控制器根据当前状态约束LLM的下一步生成。

关键创新:Soft-FSM的关键创新在于将神经模型(LLM)与符号模型(状态控制器)相结合,实现了一种神经符号架构。与完全依赖LLM的生成方法相比,Soft-FSM通过外部状态控制显式地管理任务的进展,从而避免了程序停滞。这种混合方法既利用了LLM的语言生成能力,又保证了任务的可靠完成。

关键设计:状态控制器维护一个KIU的状态向量,记录每个KIU是否已完成。在生成过程中,状态控制器根据当前状态,对LLM的生成概率分布进行调整,例如,通过masking机制,阻止LLM生成与已完成KIU相关的内容。损失函数可能包含两部分:一是LLM自身的生成损失,二是与状态控制相关的损失,例如,鼓励LLM生成新的KIU。

📊 实验亮点

实验结果表明,在三个真实的台湾刑事凶杀案中,基线方法的任务完整性低于40%,而Soft-FSM始终达到97%以上,且冗余度接近于零。这表明Soft-FSM能够显著提高LLM在法律交叉询问任务中的性能,有效解决程序停滞问题。

🎯 应用场景

该研究成果可应用于需要严格程序控制的长程任务,例如法律文书生成、医疗诊断、客户服务对话等。通过引入外部状态控制,可以提高LLM在这些领域的可靠性和效率,减少错误和冗余,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Large language models (LLMs) exhibit impressive linguistic fluency but struggle to reliably complete long-horizon tasks under explicit procedural constraints. In legal cross-examination, purely proba-bilistic generation often maintains behavioral coherence while failing to ensure procedural advancement. We characterize this failure as procedural stagnation and propose Soft-FSM, a neuro-symbolic architecture that enforces monotonic progress over accumulated Key Information Units (KIUs) via an external deterministic state controller. Experiments on three real-world Taiwanese criminal homicide cases show that baseline methods collapse below 40% completeness, while Soft-FSM consistently achieves over 97% with near-zero redundancy. These results suggest that, in such domains, reliable task completion cannot be guaranteed by emergent LLM behavior alone, and can be reliably enforced through explicit and verifiable external state control.