Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions

作者: Zhuoran Pan, Yue Li, Zhi Guan, Jianbin Hu, Zhong Chen

分类: cs.AI

发布日期: 2026-04-30

💡 一句话要点

Intent2Tx：构建基准测试，评估LLM将自然语言意图转化为以太坊交易的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Web3 以太坊 智能合约 基准测试 自然语言处理 去中心化金融 执行感知评估

📋 核心要点

现有Web3基准测试无法充分评估LLM将用户意图转化为链上交易的复杂性，尤其是在状态依赖和功能正确性方面。
论文提出Intent2Tx基准，它基于真实以太坊主网数据，包含单步和多步交易，覆盖多种DeFi协议。
通过执行感知框架，论文评估了16个LLM，发现它们在分布外泛化和多步规划方面存在不足，语法正确不代表执行成功。

📝 摘要（中文）

大型语言模型（LLMs）为Web3提供了一种变革性的交互界面，但现有的基准测试未能捕捉到将高级用户意图转化为功能正确、状态依赖的链上交易的复杂性。我们提出了 extsc{Intent2Tx}，这是一个高保真基准，包含29,921个单步实例和1,575个多步实例，这些实例均来自300天的真实以太坊主网追踪数据。与依赖合成指令的先前工作不同， extsc{Intent2Tx}将自然语言意图置于11个类别的真实协议交互中，包括各种长尾去中心化金融（DeFi）原语。为了实现严格的评估，我们提出了一种执行感知框架，该框架通过对分叉主网环境进行差异状态分析，超越了表面文本匹配。我们对16个最先进的LLM的广泛评估表明，虽然缩放和检索增强提高了逻辑一致性和参数精度，但当前的模型在分布外泛化和多步规划方面存在困难。至关重要的是，我们的基于执行的分析表明，语法上有效的输出通常无法实现预期的状态转换，突出了当前“推理到执行”能力方面的重大差距。 extsc{Intent2Tx}为在以意图为中心的Web3生态系统中开发自主、可靠的代理奠定了关键基础。

🔬 方法详解

问题定义：现有方法主要依赖于合成指令或简单的文本匹配来评估LLM在Web3领域的应用，无法真实反映将自然语言意图转化为链上交易的复杂性，尤其是在状态依赖和功能正确性方面。现有基准测试难以捕捉真实世界DeFi协议的细微差别和长尾分布，并且缺乏有效的执行验证机制。

核心思路：论文的核心思路是构建一个高保真、基于真实数据的基准测试，并提出一种执行感知的评估框架。通过将自然语言意图与真实链上交易对应，并利用分叉主网环境进行状态差异分析，可以更准确地评估LLM的“推理到执行”能力。这种方法能够发现仅通过语法检查无法发现的错误，例如交易执行后未能达到预期状态。

技术框架：Intent2Tx基准测试的构建流程包括：1) 从以太坊主网收集真实交易数据；2) 将交易数据与自然语言意图进行对齐，形成单步和多步实例；3) 构建执行感知评估框架，该框架利用分叉主网环境模拟交易执行，并分析交易前后状态的变化；4) 使用该框架评估各种LLM，并分析其在不同任务上的表现。评估框架的核心是状态差异分析，它比较了LLM生成的交易执行后的状态与预期状态的差异，从而判断交易是否成功实现了用户的意图。

关键创新：Intent2Tx的关键创新在于其高保真度和执行感知的评估方法。与以往依赖合成数据的基准测试不同，Intent2Tx基于真实以太坊主网数据，能够更真实地反映Web3应用的复杂性。执行感知的评估方法超越了简单的文本匹配，能够检测到语法正确但语义错误的交易，从而更准确地评估LLM的“推理到执行”能力。

关键设计：Intent2Tx基准测试包含29,921个单步实例和1,575个多步实例，覆盖11个类别的DeFi协议。评估框架使用Ganache等工具创建分叉主网环境，并使用Ethers.js等库与智能合约进行交互。状态差异分析通过比较交易执行前后相关合约的状态变量来实现。论文还设计了一系列指标来评估LLM的性能，包括逻辑一致性、参数精度和状态转换成功率。

🖼️ 关键图片

📊 实验亮点

对16个LLM的评估表明，虽然模型缩放和检索增强可以提高逻辑一致性和参数精度，但当前模型在分布外泛化和多步规划方面存在困难。执行分析表明，即使语法正确的输出也可能无法实现预期的状态转换，突出了“推理到执行”能力方面的差距。例如，某些模型在处理涉及多个步骤的复杂DeFi交易时，成功率显著下降。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的Web3应用，例如自动化DeFi交易、智能合约审计和用户意图驱动的链上操作。通过提高LLM在Web3领域的“推理到执行”能力，可以降低用户使用Web3应用的门槛，促进Web3生态系统的发展。未来，该研究可以扩展到其他区块链平台和更复杂的Web3应用场景。

📄 摘要（原文）

The emergence of Large Language Models (LLMs) offers a transformative interface for Web3, yet existing benchmarks fail to capture the complexity of translating high-level user intents into functionally correct, state-dependent on-chain transactions. We present \textsc{Intent2Tx}, a high-fidelity benchmark featuring 29,921 single-step and 1,575 multi-step instances meticulously derived from 300 days of real-world Ethereum mainnet traces. Unlike prior works that rely on synthetic instructions, \textsc{Intent2Tx} grounds natural language intents in real-world protocol interactions across 11 categories, including diverse long-tail Decentralized Finance (DeFi) primitives. To enable rigorous evaluation, we propose an execution-aware framework that transcends surface-level text matching by employing differential state analysis on forked mainnet environments. Our extensive evaluation of 16 state-of-the-art LLMs reveals that while scaling and retrieval-augmentation enhance logical consistency and parameter precision, current models struggle with out-of-distribution generalization and multi-step planning. Crucially, our execution-based analysis demonstrates that syntactically valid outputs often fail to achieve intended state transitions, highlighting a significant gap in current "reasoning-to-execution" capabilities. \textsc{Intent2Tx} serves as a critical foundation for developing autonomous, reliable agents in intent-centric Web3 ecosystems. Code and data: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF .

Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理