Analyzing and Internalizing Complex Policy Documents for LLM Agents
作者: Jiateng Liu, Zhenhailong Wang, Xiaojiang Huang, Yingjie Li, Xing Fan, Xiang Li, Chenlei Guo, Ruhi Sarikaya, Heng Ji
分类: cs.AI
发布日期: 2025-10-13
备注: 42 pages
💡 一句话要点
提出CAP-CPT,通过类别感知的持续预训练,提升LLM Agent在复杂策略文档中的推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 策略文档 持续预训练 类别感知 复杂推理 数据合成 策略内部化
📋 核心要点
- 现有LLM Agent在处理复杂策略文档时面临计算开销大、推理能力不足的挑战,尤其是在策略文档复杂性较高时。
- 论文提出类别感知策略持续预训练(CAP-CPT)方法,通过解析策略文档并进行分类,有针对性地合成数据,从而提升Agent的策略理解和推理能力。
- 实验表明,CAP-CPT显著提升了Agent在复杂策略文档上的性能,在Qwen-3-32B上获得了高达41%和22%的收益,并大幅缩减了提示长度。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent系统依赖于上下文策略文档来编码各种业务规则。随着需求的增长,这些文档迅速扩展,导致计算开销过高。这促使我们开发内部化方法,将策略文档嵌入到模型先验中,同时保持性能。现有的提示压缩工作针对通用提示,但Agent策略文档跨越多个复杂性级别,需要更深入的推理,使得内部化更加困难。我们引入了CC-Gen,一个具有四个可控复杂性级别的Agent基准生成器,能够系统地评估Agent处理复杂性的能力,并提供一个统一的框架来评估策略内部化。我们的分析表明,管理工作流程的复杂策略规范带来了主要的推理挑战。通过监督微调(SFT)支持包含思维链(CoT)注释的黄金用户Agent交互轨迹的内部化是数据密集型的,并且随着策略复杂性的增加而急剧下降。为了减轻数据和推理负担,我们提出了类别感知策略持续预训练(CAP-CPT)。我们的自动化流程解析策略文档以提取关键规范,将它们分组为事实、行为和条件类别,并隔离驱动工作流程复杂性的复杂条件。这指导了有针对性的数据合成,并使Agent能够通过自回归预训练损失来内部化策略信息。实验表明,CAP-CPT在所有设置中都改进了SFT基线,在Qwen-3-32B上获得了高达41%和22%的收益,在CC-Gen上实现了97.3%的提示长度缩减,并通过最少的SFT数据进一步增强了tau-Bench。
🔬 方法详解
问题定义:LLM Agent需要理解和执行复杂的策略文档,但随着文档复杂度和长度的增加,直接将文档作为上下文输入会导致计算开销过大,并且Agent难以有效推理。现有的提示压缩方法无法很好地处理Agent策略文档中多层次的复杂性,导致性能下降。
核心思路:通过将策略文档“内部化”到模型的先验知识中,减少对长上下文的依赖。具体来说,通过类别感知的持续预训练,使模型能够更好地理解和推理策略文档中的信息。这种方法旨在减轻数据和推理负担,提高Agent的效率和准确性。
技术框架:CAP-CPT包含一个自动化流程,首先解析策略文档,提取关键的策略规范,并将这些规范分为事实、行为和条件三个类别。然后,针对这些类别,特别是复杂的条件类别,进行有针对性的数据合成。最后,使用合成的数据对LLM进行持续预训练,通过自回归预训练损失来使Agent内部化策略信息。
关键创新:CAP-CPT的关键创新在于类别感知的策略文档处理和有针对性的数据合成。通过将策略文档分解为不同的类别,并重点关注复杂条件,可以更有效地指导数据合成过程,从而使Agent能够更好地学习和理解策略信息。与现有方法相比,CAP-CPT能够更好地处理复杂策略文档,并减轻数据和推理负担。
关键设计:自动化策略文档解析流程,用于提取关键规范并进行分类;针对不同类别(事实、行为、条件)设计不同的数据合成策略,特别是针对复杂条件进行增强;使用自回归预训练损失进行持续预训练,使Agent能够内部化策略信息;实验中使用了Qwen-3-32B等LLM作为基础模型,并与SFT等基线方法进行了比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CAP-CPT在所有设置中都优于SFT基线,在Qwen-3-32B上获得了高达41%和22%的性能提升,在CC-Gen基准测试中实现了97.3%的提示长度缩减,并通过最少的SFT数据进一步增强了tau-Bench的性能。这些结果表明,CAP-CPT能够有效地提升LLM Agent在复杂策略文档上的推理能力,并显著降低计算开销。
🎯 应用场景
该研究成果可应用于各种需要LLM Agent理解和执行复杂策略的场景,例如:客户服务、金融风控、法律咨询、医疗诊断等。通过将策略文档内部化到Agent中,可以提高Agent的效率和准确性,降低运营成本,并提升用户体验。未来,该技术有望进一步扩展到更广泛的领域,例如:智能制造、自动驾驶等。
📄 摘要(原文)
Large Language Model (LLM)-based agentic systems rely on in-context policy documents encoding diverse business rules. As requirements grow, these documents expand rapidly, causing high computational overhead. This motivates developing internalization methods that embed policy documents into model priors while preserving performance. Prior prompt compression work targets generic prompts, but agentic policy documents span multiple complexity levels and require deeper reasoning, making internalization harder. We introduce CC-Gen, an agentic benchmark generator with Controllable Complexity across four levels, enabling systematic evaluation of agents' ability to handle complexity and offering a unified framework for assessing policy internalization. Our analysis shows that complex policy specifications governing workflows pose major reasoning challenges. Supporting internalization with gold user agent interaction trajectories containing chain-of-thought (CoT) annotations via supervised fine-tuning (SFT) is data-intensive and degrades sharply as policy complexity increases. To mitigate data and reasoning burdens, we propose Category-Aware Policy Continued Pretraining (CAP-CPT). Our automated pipeline parses policy documents to extract key specifications, grouping them into factual, behavioral, and conditional categories, and isolating complex conditions that drive workflow complexity. This guides targeted data synthesis and enables agents to internalize policy information through an autoregressive pretraining loss. Experiments show CAP-CPT improves SFT baselines in all settings, with up to 41% and 22% gains on Qwen-3-32B, achieving 97.3% prompt length reduction on CC-Gen and further enhancing tau-Bench with minimal SFT data.