Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions
作者: Zhuoran Pan, Yue Li, Zhi Guan, Jianbin Hu, Zhong Chen
分类: cs.AI
发布日期: 2026-04-30
💡 一句话要点
Intent2Tx:构建基准测试,评估LLM将自然语言意图转化为以太坊交易的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 Web3 以太坊 智能合约 基准测试 自然语言处理 去中心化金融 执行感知评估
📋 核心要点
- 现有Web3基准测试无法充分评估LLM将用户意图转化为链上交易的复杂性,尤其是在状态依赖和功能正确性方面。
- 论文提出Intent2Tx基准,它基于真实以太坊主网数据,包含单步和多步交易,覆盖多种DeFi协议。
- 通过执行感知框架,论文评估了16个LLM,发现它们在分布外泛化和多步规划方面存在不足,语法正确不代表执行成功。
📝 摘要(中文)
大型语言模型(LLMs)为Web3提供了一种变革性的交互界面,但现有的基准测试未能捕捉到将高级用户意图转化为功能正确、状态依赖的链上交易的复杂性。我们提出了 extsc{Intent2Tx},这是一个高保真基准,包含29,921个单步实例和1,575个多步实例,这些实例均来自300天的真实以太坊主网追踪数据。与依赖合成指令的先前工作不同, extsc{Intent2Tx}将自然语言意图置于11个类别的真实协议交互中,包括各种长尾去中心化金融(DeFi)原语。为了实现严格的评估,我们提出了一种执行感知框架,该框架通过对分叉主网环境进行差异状态分析,超越了表面文本匹配。我们对16个最先进的LLM的广泛评估表明,虽然缩放和检索增强提高了逻辑一致性和参数精度,但当前的模型在分布外泛化和多步规划方面存在困难。至关重要的是,我们的基于执行的分析表明,语法上有效的输出通常无法实现预期的状态转换,突出了当前“推理到执行”能力方面的重大差距。 extsc{Intent2Tx}为在以意图为中心的Web3生态系统中开发自主、可靠的代理奠定了关键基础。
🔬 方法详解
问题定义:现有方法主要依赖于合成指令或简单的文本匹配来评估LLM在Web3领域的应用,无法真实反映将自然语言意图转化为链上交易的复杂性,尤其是在状态依赖和功能正确性方面。现有基准测试难以捕捉真实世界DeFi协议的细微差别和长尾分布,并且缺乏有效的执行验证机制。
核心思路:论文的核心思路是构建一个高保真、基于真实数据的基准测试,并提出一种执行感知的评估框架。通过将自然语言意图与真实链上交易对应,并利用分叉主网环境进行状态差异分析,可以更准确地评估LLM的“推理到执行”能力。这种方法能够发现仅通过语法检查无法发现的错误,例如交易执行后未能达到预期状态。
技术框架:Intent2Tx基准测试的构建流程包括:1) 从以太坊主网收集真实交易数据;2) 将交易数据与自然语言意图进行对齐,形成单步和多步实例;3) 构建执行感知评估框架,该框架利用分叉主网环境模拟交易执行,并分析交易前后状态的变化;4) 使用该框架评估各种LLM,并分析其在不同任务上的表现。评估框架的核心是状态差异分析,它比较了LLM生成的交易执行后的状态与预期状态的差异,从而判断交易是否成功实现了用户的意图。
关键创新:Intent2Tx的关键创新在于其高保真度和执行感知的评估方法。与以往依赖合成数据的基准测试不同,Intent2Tx基于真实以太坊主网数据,能够更真实地反映Web3应用的复杂性。执行感知的评估方法超越了简单的文本匹配,能够检测到语法正确但语义错误的交易,从而更准确地评估LLM的“推理到执行”能力。
关键设计:Intent2Tx基准测试包含29,921个单步实例和1,575个多步实例,覆盖11个类别的DeFi协议。评估框架使用Ganache等工具创建分叉主网环境,并使用Ethers.js等库与智能合约进行交互。状态差异分析通过比较交易执行前后相关合约的状态变量来实现。论文还设计了一系列指标来评估LLM的性能,包括逻辑一致性、参数精度和状态转换成功率。
🖼️ 关键图片
📊 实验亮点
对16个LLM的评估表明,虽然模型缩放和检索增强可以提高逻辑一致性和参数精度,但当前模型在分布外泛化和多步规划方面存在困难。执行分析表明,即使语法正确的输出也可能无法实现预期的状态转换,突出了“推理到执行”能力方面的差距。例如,某些模型在处理涉及多个步骤的复杂DeFi交易时,成功率显著下降。
🎯 应用场景
该研究成果可应用于开发更智能、更可靠的Web3应用,例如自动化DeFi交易、智能合约审计和用户意图驱动的链上操作。通过提高LLM在Web3领域的“推理到执行”能力,可以降低用户使用Web3应用的门槛,促进Web3生态系统的发展。未来,该研究可以扩展到其他区块链平台和更复杂的Web3应用场景。
📄 摘要(原文)
The emergence of Large Language Models (LLMs) offers a transformative interface for Web3, yet existing benchmarks fail to capture the complexity of translating high-level user intents into functionally correct, state-dependent on-chain transactions. We present \textsc{Intent2Tx}, a high-fidelity benchmark featuring 29,921 single-step and 1,575 multi-step instances meticulously derived from 300 days of real-world Ethereum mainnet traces. Unlike prior works that rely on synthetic instructions, \textsc{Intent2Tx} grounds natural language intents in real-world protocol interactions across 11 categories, including diverse long-tail Decentralized Finance (DeFi) primitives. To enable rigorous evaluation, we propose an execution-aware framework that transcends surface-level text matching by employing differential state analysis on forked mainnet environments. Our extensive evaluation of 16 state-of-the-art LLMs reveals that while scaling and retrieval-augmentation enhance logical consistency and parameter precision, current models struggle with out-of-distribution generalization and multi-step planning. Crucially, our execution-based analysis demonstrates that syntactically valid outputs often fail to achieve intended state transitions, highlighting a significant gap in current "reasoning-to-execution" capabilities. \textsc{Intent2Tx} serves as a critical foundation for developing autonomous, reliable agents in intent-centric Web3 ecosystems. Code and data: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF .