CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems

📄 arXiv: 2604.12312v1 📥 PDF

作者: Jingbo Yang, Guanyu Yao, Bairu Hou, Xinghan Yang, Nikolai Glushnev, Iwona Bialynicka-Birula, Duo Ding, Shiyu Chang

分类: cs.CL

发布日期: 2026-04-14


💡 一句话要点

CompliBench:用于评估LLM在对话系统中违规检测能力的新基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评判 合规性检测 对话系统 数据生成 基准测试 违规检测 对抗样本

📋 核心要点

  1. 现有方法缺乏系统的数据生成方法,难以评估LLM在检测对话系统中违规行为的可靠性。
  2. CompliBench通过可扩展的自动化数据生成管道,模拟用户-代理交互,克服了数据稀缺问题。
  3. 实验表明,现有LLM在此任务中表现不佳,而微调的小规模模型优于领先的LLM。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地部署为企业环境中的面向任务的代理,确保它们严格遵守复杂的、特定领域的运营指南至关重要。虽然使用LLM作为评判者是可扩展评估的一种有前景的解决方案,但这些评判者在检测特定策略违规方面的可靠性在很大程度上仍未得到探索。造成这种差距的主要原因是缺乏系统的数据生成方法,这受到了细粒度人工标注的巨大成本和合成真实代理违规行为的困难的阻碍。在本文中,我们介绍CompliBench,这是一个旨在评估LLM评判者在多轮对话中检测和定位指南违规行为的能力的新基准。为了克服数据稀缺问题,我们开发了一个可扩展的自动化数据生成管道,该管道模拟用户-代理交互。我们可控的缺陷注入过程自动产生违反指南的精确ground-truth标签和确切的对话轮次,而对抗性搜索方法确保这些引入的扰动具有很高的挑战性。我们的全面评估表明,当前最先进的专有LLM在此任务中表现不佳。此外,我们证明了在我们的合成数据上微调的小规模评判模型优于领先的LLM,并且可以很好地推广到未见过的业务领域,突显了我们的管道是训练稳健的生成奖励模型的有效基础。

🔬 方法详解

问题定义:论文旨在解决LLM在对话系统中检测合规性违规行为的评估问题。现有方法依赖人工标注,成本高昂且难以生成真实的违规数据,导致无法有效评估LLM作为评判者的可靠性。

核心思路:论文的核心思路是构建一个自动化的数据生成流程,通过模拟用户-代理交互并注入可控的缺陷,生成带有精确ground-truth标签的违规数据。这种方法降低了数据获取成本,并能生成具有挑战性的对抗样本,从而更有效地评估LLM评判者的能力。

技术框架:CompliBench包含一个可扩展的自动化数据生成管道,该管道模拟用户-代理交互。该管道包括以下主要模块:1) 对话模拟器,用于生成用户-代理对话;2) 缺陷注入模块,用于在对话中引入可控的违规行为;3) 对抗搜索模块,用于生成具有挑战性的对抗样本;4) 标注模块,用于自动生成违规行为的ground-truth标签。

关键创新:CompliBench的关键创新在于其可控的缺陷注入过程和对抗搜索方法。缺陷注入过程允许精确控制违规行为的类型和位置,而对抗搜索方法则确保生成的违规样本具有很高的挑战性,能够有效评估LLM评判者的鲁棒性。

关键设计:缺陷注入模块通过预定义的规则和模板,在对话中插入特定类型的违规行为。对抗搜索模块使用梯度下降等优化算法,寻找能够最大化LLM评判者分类误差的扰动。标注模块则根据缺陷注入的位置和类型,自动生成违规行为的ground-truth标签。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的专有LLM在CompliBench上表现不佳,表明其在检测复杂违规行为方面存在不足。然而,在CompliBench数据集上微调的小规模评判模型能够显著优于领先的LLM,并且可以很好地推广到未见过的业务领域,验证了该数据生成管道的有效性。

🎯 应用场景

CompliBench可用于评估和改进LLM在各种面向任务的对话系统中的合规性。例如,在金融、医疗等领域,可以利用CompliBench训练更可靠的LLM代理,确保其严格遵守行业法规和操作指南,降低违规风险。该基准还有助于开发更强大的生成奖励模型,从而进一步提升LLM的合规性。

📄 摘要(原文)

As Large Language Models (LLMs) are increasingly deployed as task-oriented agents in enterprise environments, ensuring their strict adherence to complex, domain-specific operational guidelines is critical. While utilizing an LLM-as-a-Judge is a promising solution for scalable evaluation, the reliability of these judges in detecting specific policy violations remains largely unexplored. This gap is primarily due to the lack of a systematic data generation method, which has been hindered by the extensive cost of fine-grained human annotation and the difficulty of synthesizing realistic agent violations. In this paper, we introduce CompliBench, a novel benchmark designed to evaluate the ability of LLM judges to detect and localize guideline violations in multi-turn dialogues. To overcome data scarcity, we develop a scalable, automated data generation pipeline that simulates user-agent interactions. Our controllable flaw injection process automatically yields precise ground-truth labels for the violated guideline and the exact conversation turn, while an adversarial search method ensures these introduced perturbations are highly challenging. Our comprehensive evaluation reveals that current state-of-the-art proprietary LLMs struggle significantly with this task. In addition, we demonstrate that a small-scale judge model fine-tuned on our synthesized data outperforms leading LLMs and generalizes well to unseen business domains, highlighting our pipeline as an effective foundation for training robust generative reward models.