CCTU: A Benchmark for Tool Use under Complex Constraints
作者: Junjie Ye, Guoqiang Zhang, Wenjie Fu, Tao Gui, Qi Zhang, Xuanjing Huang
分类: cs.CL, cs.AI
发布日期: 2026-03-16
💡 一句话要点
CCTU:一个用于复杂约束下工具使用的评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具使用 约束满足 评测基准 函数调用
📋 核心要点
- 现有大型语言模型在复杂约束下工具使用能力缺乏专门的评估基准。
- CCTU基准通过定义约束类别和构建测试用例,系统性地评估LLM的工具使用能力。
- 实验表明,现有LLM在严格约束下工具使用性能不佳,尤其在资源和响应维度。
📝 摘要(中文)
本文提出了CCTU,一个用于评估大型语言模型(LLMs)在复杂约束下工具使用能力的基准。在明确约束下,通过工具解决问题对LLMs提出了巨大挑战,需要函数调用、指令遵循和自我完善等能力。CCTU基于包含资源、行为、工具集和响应四个维度的12种约束类别构建。该基准包含200个精心策划且具有挑战性的测试用例,涵盖各种工具使用场景,每个用例平均涉及七种约束类型,平均提示长度超过4700个token。为了实现可靠的评估,开发了一个可执行的约束验证模块,该模块执行步级验证并在模型与其环境之间的多轮交互期间强制执行合规性。对九个最先进的LLM进行了评估,结果表明,当需要严格遵守所有约束时,没有模型的任务完成率超过20%。进一步的分析表明,模型在超过50%的情况下违反约束,尤其是在资源和响应维度上。此外,即使在收到关于违反约束的详细反馈后,LLM也表现出有限的自我完善能力,这突显了鲁棒工具使用代理开发中的一个关键瓶颈。数据和代码已开源。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在复杂约束条件下使用工具解决问题的能力不足,缺乏专门的评估基准。现有的方法难以评估模型在资源、行为、工具集和响应等多维度约束下的工具使用能力,并且缺乏有效的约束验证机制,导致评估结果不可靠。
核心思路:本文的核心思路是构建一个全面的、可执行的评测基准CCTU,用于评估LLMs在复杂约束下的工具使用能力。通过定义明确的约束类别和构建具有挑战性的测试用例,可以系统地评估模型在不同约束下的性能,并提供详细的约束违反分析,从而帮助研究人员更好地理解模型的不足之处。
技术框架:CCTU基准包含以下几个主要组成部分:1) 约束分类体系:定义了资源、行为、工具集和响应四个维度下的12种约束类别。2) 测试用例集:包含200个精心设计的测试用例,涵盖各种工具使用场景,每个用例包含多个约束条件。3) 约束验证模块:一个可执行的模块,用于在模型与环境交互的每个步骤中验证约束是否被满足。4) 评估指标:用于衡量模型的任务完成率和约束违反率。
关键创新:CCTU的关键创新在于其全面的约束分类体系和可执行的约束验证模块。现有的基准通常只关注任务完成率,而忽略了约束的满足情况。CCTU通过定义明确的约束类别,可以更细粒度地评估模型的工具使用能力。可执行的约束验证模块可以自动验证模型在每个步骤中是否满足约束,从而避免了人工评估的偏差。
关键设计:CCTU的测试用例设计考虑了多种因素,包括约束的复杂性、工具的使用频率和场景的多样性。约束验证模块使用规则引擎和自然语言处理技术来自动验证约束是否被满足。评估指标包括任务完成率、约束违反率和约束违反类型分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的LLM在严格遵守所有约束的情况下,任务完成率也低于20%。模型在超过50%的情况下违反约束,尤其是在资源和响应维度上。即使在收到关于违反约束的详细反馈后,LLM也表现出有限的自我完善能力。这些结果表明,现有LLM在复杂约束下的工具使用能力仍然存在很大的提升空间。
🎯 应用场景
该研究成果可应用于开发更智能、更可靠的工具使用代理。例如,在智能客服、自动化流程和机器人控制等领域,可以利用CCTU基准来评估和改进LLMs的工具使用能力,从而提高系统的效率和安全性。未来,该基准可以扩展到更复杂的约束场景和更多的工具类型,以推动工具使用代理的进一步发展。
📄 摘要(原文)
Solving problems through tool use under explicit constraints constitutes a highly challenging yet unavoidable scenario for large language models (LLMs), requiring capabilities such as function calling, instruction following, and self-refinement. However, progress has been hindered by the absence of dedicated evaluations. To address this, we introduce CCTU, a benchmark for evaluating LLM tool use under complex constraints. CCTU is grounded in a taxonomy of 12 constraint categories spanning four dimensions (i.e., resource, behavior, toolset, and response). The benchmark comprises 200 carefully curated and challenging test cases across diverse tool-use scenarios, each involving an average of seven constraint types and an average prompt length exceeding 4,700 tokens. To enable reliable evaluation, we develop an executable constraint validation module that performs step-level validation and enforces compliance during multi-turn interactions between models and their environments. We evaluate nine state-of-the-art LLMs in both thinking and non-thinking modes. Results indicate that when strict adherence to all constraints is required, no model achieves a task completion rate above 20%. Further analysis reveals that models violate constraints in over 50% of cases, particularly in the resource and response dimensions. Moreover, LLMs demonstrate limited capacity for self-refinement even after receiving detailed feedback on constraint violations, highlighting a critical bottleneck in the development of robust tool-use agents. To facilitate future research, we release the data and code.