View-oriented Conversation Compiler for Agent Trace Analysis

📄 arXiv: 2603.29678v1 📥 PDF

作者: Lvmin Zhang, Maneesh Agrawala

分类: cs.AI

发布日期: 2026-03-31

备注: Code: https://github.com/lllyasviel/VCC


💡 一句话要点

提出VCC,通过编译Agent对话日志生成结构化视图,提升上下文学习效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent对话分析 上下文学习 编译器技术 结构化视图 Agent轨迹

📋 核心要点

  1. 现有方法在分析Agent对话轨迹时,忽略了对话格式的重要性,导致分析质量下降。
  2. VCC通过编译Agent日志生成结构化视图,包括完整视图、用户界面视图和自适应视图,以提升分析效果。
  3. 实验表明,使用VCC编译的视图作为反射器输入,能提高模型通过率,降低token消耗,并产生更简洁的学习记忆。

📝 摘要(中文)

在上下文学习和基于Harness的Agent认知时代,Agent轨迹具有越来越高的分析价值,然而现有工作通常将对话格式视为简单的工程细节。现代Agent对话包含深度结构化内容,包括嵌套的工具调用和结果、思维链推理块、子Agent调用、上下文窗口压缩边界以及Harness注入的系统指令,其复杂性远超简单的用户-助手交流。以纯文本、JSON、YAML或通过grep将此类轨迹输入到反射器或其他分析机制会严重降低分析质量。本文提出了VCC(View-oriented Conversation Compiler),它是一个编译器(词法分析、语法分析、中间表示、降级、发射),将原始Agent JSONL日志转换为一系列结构化视图:完整视图(作为规范行号坐标系的无损转录)、用户界面视图(重建用户实际感知的交互)和自适应视图(由相关性谓词控制的保结构投影)。在AppWorld上的上下文学习实验中,仅替换反射器的输入格式,从原始JSONL到VCC编译的视图,就提高了所有三个测试模型配置的通过率,同时将反射器的token消耗降低了一半到三分之二,并产生了更简洁的学习记忆。这些结果表明,消息格式是上下文学习的基础设施,而不是偶然的实现选择。

🔬 方法详解

问题定义:现有方法在分析Agent对话轨迹时,通常将对话格式视为简单的工程细节,直接使用原始的JSONL日志或者简单的文本格式进行分析。然而,现代Agent对话包含复杂的结构化信息,例如嵌套的工具调用、思维链、子Agent调用等。这些复杂结构使得直接对原始日志进行分析变得困难,并且会降低分析的准确性和效率。现有方法缺乏对这些结构化信息的有效利用,导致上下文学习的效果不佳。

核心思路:VCC的核心思路是将Agent对话日志视为一种需要编译的代码,通过编译器将原始日志转换为更易于分析和理解的结构化视图。这种方法借鉴了编译器设计的思想,将复杂的对话结构分解为更小的、更易于处理的单元,并根据不同的分析需求生成不同的视图。通过这种方式,VCC能够更好地利用对话中的结构化信息,从而提高分析的准确性和效率。

技术框架:VCC的整体架构类似于一个标准的编译器,包括以下几个主要阶段:1) 词法分析(Lex):将原始的JSONL日志分解为token序列。2) 语法分析(Parse):根据预定义的语法规则,将token序列解析为抽象语法树(AST)。3) 中间表示(IR):将AST转换为一种中间表示形式,方便后续的优化和转换。4) 降级(Lower):将中间表示转换为目标视图的表示形式。5) 发射(Emit):将目标视图以特定的格式输出。VCC支持生成三种主要的视图:完整视图、用户界面视图和自适应视图。

关键创新:VCC最重要的技术创新在于将编译器技术应用于Agent对话日志的分析。通过编译过程,VCC能够有效地提取和利用对话中的结构化信息,从而提高分析的准确性和效率。与现有方法相比,VCC能够更好地处理复杂的对话结构,并根据不同的分析需求生成不同的视图。此外,VCC还能够通过优化编译过程来减少token消耗,从而降低计算成本。

关键设计:VCC的关键设计包括:1) 预定义的语法规则:VCC需要定义一套语法规则来解析Agent对话日志。这些规则需要能够准确地描述对话中的各种结构化信息,例如工具调用、思维链等。2) 视图生成策略:VCC需要根据不同的分析需求设计不同的视图生成策略。例如,用户界面视图需要尽可能地还原用户实际感知的交互过程,而自适应视图则需要根据相关性谓词来选择性地保留对话中的信息。3) 优化策略:VCC可以通过优化编译过程来减少token消耗。例如,可以采用一些常见的编译器优化技术,例如常量折叠、死代码消除等。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用VCC编译的视图作为反射器的输入,能够显著提高上下文学习的性能。具体来说,在AppWorld数据集上,使用VCC后,所有三个测试模型配置的通过率都得到了提高,同时反射器的token消耗降低了一半到三分之二。这表明VCC能够有效地提取和利用对话中的结构化信息,从而提高上下文学习的效果。

🎯 应用场景

VCC可应用于各种需要分析Agent对话轨迹的场景,例如Agent行为调试、上下文学习优化、Agent性能评估等。通过提供结构化的对话视图,VCC能够帮助研究人员和开发人员更好地理解Agent的行为,从而改进Agent的设计和性能。此外,VCC还可以用于构建更智能的Agent,使其能够更好地理解和利用对话中的信息。

📄 摘要(原文)

Agent traces carry increasing analytical value in the era of context learning and harness-driven agentic cognition, yet most prior work treats conversation format as a trivial engineering detail. Modern agent conversations contain deeply structured content, including nested tool calls and results, chain-of-thought reasoning blocks, sub-agent invocations, context-window compaction boundaries, and harness-injected system directives, whose complexity far exceeds that of simple user-assistant exchanges. Feeding such traces to a reflector or other analytical mechanism in plain text, JSON, YAML, or via grep can materially degrade analysis quality. This paper presents VCC (View-oriented Conversation Compiler), a compiler (lex, parse, IR, lower, emit) that transforms raw agent JSONL logs into a family of structured views: a full view (lossless transcript serving as the canonical line-number coordinate system), a user-interface view (reconstructing the interaction as the user actually perceived it), and an adaptive view (a structure-preserving projection governed by a relevance predicate). In a context-learning experiment on AppWorld, replacing only the reflector's input format, from raw JSONL to VCC-compiled views, leads to higher pass rates across all three model configurations tested, while cutting reflector token consumption by half to two-thirds and producing more concise learned memory. These results suggest that message format functions as infrastructure for context learning, not as an incidental implementation choice.