View-oriented Conversation Compiler for Agent Trace Analysis

作者: Lvmin Zhang, Maneesh Agrawala

分类: cs.AI

发布日期: 2026-03-31

备注: Code: https://github.com/lllyasviel/VCC

💡 一句话要点

提出VCC，通过编译Agent对话日志生成结构化视图，提升上下文学习效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent对话分析 上下文学习 编译器技术 结构化视图 Agent轨迹

📋 核心要点

现有方法在分析Agent对话轨迹时，忽略了对话格式的重要性，导致分析质量下降。
VCC通过编译Agent日志生成结构化视图，包括完整视图、用户界面视图和自适应视图，以提升分析效果。
实验表明，使用VCC编译的视图作为反射器输入，能提高模型通过率，降低token消耗，并产生更简洁的学习记忆。

📝 摘要（中文）

在上下文学习和基于Harness的Agent认知时代，Agent轨迹具有越来越高的分析价值，然而现有工作通常将对话格式视为简单的工程细节。现代Agent对话包含深度结构化内容，包括嵌套的工具调用和结果、思维链推理块、子Agent调用、上下文窗口压缩边界以及Harness注入的系统指令，其复杂性远超简单的用户-助手交流。以纯文本、JSON、YAML或通过grep将此类轨迹输入到反射器或其他分析机制会严重降低分析质量。本文提出了VCC（View-oriented Conversation Compiler），它是一个编译器（词法分析、语法分析、中间表示、降级、发射），将原始Agent JSONL日志转换为一系列结构化视图：完整视图（作为规范行号坐标系的无损转录）、用户界面视图（重建用户实际感知的交互）和自适应视图（由相关性谓词控制的保结构投影）。在AppWorld上的上下文学习实验中，仅替换反射器的输入格式，从原始JSONL到VCC编译的视图，就提高了所有三个测试模型配置的通过率，同时将反射器的token消耗降低了一半到三分之二，并产生了更简洁的学习记忆。这些结果表明，消息格式是上下文学习的基础设施，而不是偶然的实现选择。

🔬 方法详解

问题定义：现有方法在分析Agent对话轨迹时，通常将对话格式视为简单的工程细节，直接使用原始的JSONL日志或者简单的文本格式进行分析。然而，现代Agent对话包含复杂的结构化信息，例如嵌套的工具调用、思维链、子Agent调用等。这些复杂结构使得直接对原始日志进行分析变得困难，并且会降低分析的准确性和效率。现有方法缺乏对这些结构化信息的有效利用，导致上下文学习的效果不佳。

核心思路：VCC的核心思路是将Agent对话日志视为一种需要编译的代码，通过编译器将原始日志转换为更易于分析和理解的结构化视图。这种方法借鉴了编译器设计的思想，将复杂的对话结构分解为更小的、更易于处理的单元，并根据不同的分析需求生成不同的视图。通过这种方式，VCC能够更好地利用对话中的结构化信息，从而提高分析的准确性和效率。

技术框架：VCC的整体架构类似于一个标准的编译器，包括以下几个主要阶段：1) 词法分析（Lex）：将原始的JSONL日志分解为token序列。2) 语法分析（Parse）：根据预定义的语法规则，将token序列解析为抽象语法树（AST）。3) 中间表示（IR）：将AST转换为一种中间表示形式，方便后续的优化和转换。4) 降级（Lower）：将中间表示转换为目标视图的表示形式。5) 发射（Emit）：将目标视图以特定的格式输出。VCC支持生成三种主要的视图：完整视图、用户界面视图和自适应视图。

关键创新：VCC最重要的技术创新在于将编译器技术应用于Agent对话日志的分析。通过编译过程，VCC能够有效地提取和利用对话中的结构化信息，从而提高分析的准确性和效率。与现有方法相比，VCC能够更好地处理复杂的对话结构，并根据不同的分析需求生成不同的视图。此外，VCC还能够通过优化编译过程来减少token消耗，从而降低计算成本。

关键设计：VCC的关键设计包括：1) 预定义的语法规则：VCC需要定义一套语法规则来解析Agent对话日志。这些规则需要能够准确地描述对话中的各种结构化信息，例如工具调用、思维链等。2) 视图生成策略：VCC需要根据不同的分析需求设计不同的视图生成策略。例如，用户界面视图需要尽可能地还原用户实际感知的交互过程，而自适应视图则需要根据相关性谓词来选择性地保留对话中的信息。3) 优化策略：VCC可以通过优化编译过程来减少token消耗。例如，可以采用一些常见的编译器优化技术，例如常量折叠、死代码消除等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用VCC编译的视图作为反射器的输入，能够显著提高上下文学习的性能。具体来说，在AppWorld数据集上，使用VCC后，所有三个测试模型配置的通过率都得到了提高，同时反射器的token消耗降低了一半到三分之二。这表明VCC能够有效地提取和利用对话中的结构化信息，从而提高上下文学习的效果。

🎯 应用场景

VCC可应用于各种需要分析Agent对话轨迹的场景，例如Agent行为调试、上下文学习优化、Agent性能评估等。通过提供结构化的对话视图，VCC能够帮助研究人员和开发人员更好地理解Agent的行为，从而改进Agent的设计和性能。此外，VCC还可以用于构建更智能的Agent，使其能够更好地理解和利用对话中的信息。

📄 摘要（原文）

Agent traces carry increasing analytical value in the era of context learning and harness-driven agentic cognition, yet most prior work treats conversation format as a trivial engineering detail. Modern agent conversations contain deeply structured content, including nested tool calls and results, chain-of-thought reasoning blocks, sub-agent invocations, context-window compaction boundaries, and harness-injected system directives, whose complexity far exceeds that of simple user-assistant exchanges. Feeding such traces to a reflector or other analytical mechanism in plain text, JSON, YAML, or via grep can materially degrade analysis quality. This paper presents VCC (View-oriented Conversation Compiler), a compiler (lex, parse, IR, lower, emit) that transforms raw agent JSONL logs into a family of structured views: a full view (lossless transcript serving as the canonical line-number coordinate system), a user-interface view (reconstructing the interaction as the user actually perceived it), and an adaptive view (a structure-preserving projection governed by a relevance predicate). In a context-learning experiment on AppWorld, replacing only the reflector's input format, from raw JSONL to VCC-compiled views, leads to higher pass rates across all three model configurations tested, while cutting reflector token consumption by half to two-thirds and producing more concise learned memory. These results suggest that message format functions as infrastructure for context learning, not as an incidental implementation choice.

View-oriented Conversation Compiler for Agent Trace Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理