LATTICE: Evaluating Decision Support Utility of Crypto Agents
作者: Aaron Chan, Tengfei Li, Tianyi Xiao, Angela Chen, Junyi Du, Xiang Ren
分类: cs.CR, cs.AI, cs.CL
发布日期: 2026-04-29
备注: 15 pages, 3 figures, 9 tables
💡 一句话要点
LATTICE:提出加密代理决策支持效用的评估基准,填补现有评估方法在用户决策辅助方面的空白。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 加密代理 决策支持 评估基准 大型语言模型 自动化评估
📋 核心要点
- 现有加密代理评估侧重推理或结果,忽略了用户决策辅助能力,无法有效评估代理的实用性。
- LATTICE基准定义了六个决策支持维度和十六种任务类型,利用LLM裁判进行自动化评估,无需人工标注。
- 实验评估了六个真实加密副驾驶产品,揭示了不同代理在维度和任务层面的性能差异,体现了决策支持质量的权衡。
📝 摘要(中文)
本文提出了LATTICE,一个用于评估加密代理在面向用户的真实场景中决策支持效用的基准。现有的加密代理基准主要关注基于推理或结果的评估,但忽略了代理辅助用户决策的能力。LATTICE通过以下方式弥补了这一差距:(1)定义了六个评估维度,捕捉关键的决策支持属性;(2)提出了16种任务类型,涵盖端到端的加密副驾驶工作流程;(3)使用LLM裁判根据这些维度和任务自动评分代理的输出。重要的是,这些维度和任务的设计可以通过LLM裁判进行大规模评估,而无需依赖专家标注员或外部数据源的真实数据。LATTICE的LLM裁判标准可以根据新的维度、任务、标准和人工反馈进行持续审计和更新,从而促进可靠和可扩展的评估。本文使用LATTICE评估了六个实际加密副驾驶产品中使用的生产级代理,反映了编排和UI/UX设计在决定代理质量方面的重要性。实验评估了1200个不同的查询,并报告了维度、任务和查询类别的细分。实验表明,大多数被测副驾驶获得了相当的总体分数,但在维度和任务层面的表现上差异较大。这种模式表明决策支持质量存在有意义的权衡:具有不同优先级的用户可能更适合不同的副驾驶,而不仅仅是总体排名所显示的。为了支持可重复的研究,本文开源了所有LATTICE代码和数据。
🔬 方法详解
问题定义:现有加密代理评估基准主要关注推理能力或结果的准确性,缺乏对代理在实际用户决策场景中提供有效支持能力的评估。现有方法难以衡量代理在辅助用户理解信息、权衡风险、做出明智决策方面的作用,导致评估结果与实际应用价值脱节。
核心思路:LATTICE的核心思路是构建一个综合性的评估框架,该框架能够模拟真实用户场景,并从多个维度评估加密代理的决策支持能力。通过定义关键的决策支持属性(如信息质量、风险提示、建议合理性等)和设计涵盖端到端工作流程的任务类型,LATTICE旨在全面衡量代理在辅助用户做出明智加密决策方面的能力。
技术框架:LATTICE评估框架主要包含以下几个模块:1) 任务定义模块:定义了16种任务类型,涵盖加密副驾驶的常见应用场景,如资产配置、风险评估、交易建议等。2) 维度定义模块:定义了六个评估维度,包括信息质量、风险提示、建议合理性、解释性、用户体验和效率。3) LLM裁判模块:利用大型语言模型(LLM)作为裁判,根据预定义的评估标准,自动对代理的输出进行评分。4) 结果分析模块:对评估结果进行统计分析,揭示不同代理在不同维度和任务上的性能差异。
关键创新:LATTICE的关键创新在于其评估方法的可扩展性和自动化。通过使用LLM裁判,LATTICE避免了对大量人工标注数据的依赖,降低了评估成本,并提高了评估效率。此外,LATTICE的评估标准可以根据新的维度、任务和用户反馈进行持续更新,从而保证了评估结果的可靠性和时效性。与现有方法相比,LATTICE更注重评估代理在实际用户场景中的决策支持能力,而非仅仅关注推理或结果的准确性。
关键设计:LATTICE的关键设计包括:1) 维度选择:选择了六个关键的决策支持维度,这些维度涵盖了用户在加密决策过程中最关心的方面。2) 任务设计:设计了16种任务类型,这些任务类型覆盖了加密副驾驶的常见应用场景,并具有一定的挑战性。3) LLM裁判标准:设计了详细的LLM裁判标准,明确了每个维度和任务的评分细则,保证了评估结果的客观性和一致性。4) 评估流程:设计了完整的评估流程,包括数据收集、代理执行、LLM裁判评分和结果分析等环节。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的加密副驾驶在总体评分上表现相近,但在维度和任务层面的表现差异显著。例如,某些代理在风险提示方面表现出色,而另一些代理在信息质量方面更具优势。这些差异表明,用户应根据自身的需求和偏好选择合适的加密副驾驶。
🎯 应用场景
LATTICE基准可用于评估和比较不同的加密代理,帮助用户选择最适合其需求的代理。此外,该基准还可以为加密代理的开发者提供反馈,指导其改进代理的设计和性能。LATTICE的评估方法也可以推广到其他决策支持系统,例如金融投资、医疗诊断等领域,具有广泛的应用前景。
📄 摘要(原文)
We introduce LATTICE, a benchmark for evaluating the decision support utility of crypto agents in realistic user-facing scenarios. Prior crypto agent benchmarks mainly focus on reasoning-based or outcome-based evaluation, but do not assess agents' ability to assist user decision-making. LATTICE addresses this gap by: (1) defining six evaluation dimensions that capture key decision support properties; (2) proposing 16 task types that span the end-to-end crypto copilot workflow; and (3) using LLM judges to automatically score agent outputs based on these dimensions and tasks. Crucially, the dimensions and tasks are designed to be evaluable at scale using LLM judges, without relying on ground truth from expert annotators or external data sources. In lieu of these dependencies, LATTICE's LLM judge rubrics can be continually audited and updated given new dimensions, tasks, criteria, and human feedback, thus promoting reliable and extensible evaluation. While other benchmarks often compare foundation models sharing a generic agent framework, we use LATTICE to assess production-level agents used in actual crypto copilot products, reflecting the importance of orchestration and UI/UX design in determining agent quality. In this paper, we evaluate six real-world crypto copilots on 1,200 diverse queries and report breakdowns across dimensions, tasks, and query categories. Our experiments show that most of the tested copilots achieve comparable aggregate scores, but differ more significantly on dimension-level and task-level performance. This pattern suggests meaningful trade-offs in decision support quality: users with different priorities may be better served by different copilots than the aggregate rankings alone would indicate. To support reproducible research, we open-source all LATTICE code and data used in this paper.