From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python
作者: Jinhua Wang, Biswa Sengupta
分类: cs.SE, cs.AI
发布日期: 2026-04-13
💡 一句话要点
提出基于基准测试驱动的LLM辅助代码迁移方法,实现Rust到Python的AI Agent演进
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言迁移 LLM辅助 基准测试驱动 AI Agent 代码翻译
📋 核心要点
- 大型软件系统的跨语言迁移是一个持续存在的工程挑战,尤其是在源代码库快速演进时。
- 本文提出一种基于LLM辅助的持续代码翻译方法,通过基准测试驱动迭代优化,实现代码库的跨语言迁移。
- 实验结果表明,Python版本在多个基准测试中与Rust版本性能接近,并在此基础上扩展了更多功能。
📝 摘要(中文)
本文提出了一种LLM辅助的持续代码翻译方法,用于将大型生产级Rust代码库(648K LOC,65个crates)翻译成Python(41K LOC,28个模块),并以公开的agent基准测试作为目标函数来驱动迭代优化。研究对象是生产AI编码agent Codex CLI。实验结果表明:(1)Python版本在SWE-bench Verified任务上的解决率为59/80(73.8%),高于Rust的56/80(70.0%),在Terminal-Bench上的表现为42.5%,略低于Rust的47.5%,在实际agent任务上接近同等水平;(2)基准测试驱动的调试比静态测试更有效,能够揭示API协议不匹配、环境污染、WebSocket静默失败模式和API 400崩溃等问题;(3)该架构支持通过LLM辅助的diff-translate-test循环实现持续的上游同步;(4)Python版本已发展成为一个功能超集,具有30个Rust版本中没有的特性(多agent编排、语义记忆、安全防护、成本跟踪),同时保留了严格的对等模式以进行比较。评估表明,对于API延迟占主导地位的LLM agent,Python的表达能力以可忽略的性能成本实现了15.9倍的代码缩减,而基准测试作为目标函数的方法为跨语言移植提供了一个有原则的框架,使其从对等到扩展平台。
🔬 方法详解
问题定义:论文旨在解决大型软件系统,特别是生产AI Agent,从一种语言(Rust)迁移到另一种语言(Python)的问题。现有方法在处理快速演进的代码库时面临挑战,难以保证迁移后的代码质量和功能对等,并且缺乏有效的调试手段。
核心思路:论文的核心思路是利用大型语言模型(LLM)进行代码翻译,并采用基准测试作为目标函数,通过迭代优化来驱动翻译过程。这种方法将代码迁移问题转化为一个优化问题,通过不断测试和改进,逐步提高翻译质量和功能对等性。
技术框架:整体框架包含以下几个主要步骤:1) 使用LLM将Rust代码翻译成Python代码;2) 运行预定义的基准测试,评估Python代码的功能和性能;3) 根据基准测试结果进行调试和优化,包括修复API协议不匹配、环境污染等问题;4) 通过LLM辅助的diff-translate-test循环,实现与上游Rust代码的持续同步。
关键创新:最重要的技术创新点在于将基准测试作为目标函数,驱动LLM进行代码翻译和优化。这种方法能够有效地评估翻译质量,并指导LLM进行改进,从而实现高质量的跨语言代码迁移。此外,该方法还支持持续的上游同步和功能扩展,使得迁移后的代码库能够不断演进和完善。
关键设计:论文中关键的设计包括:1) 选择合适的LLM进行代码翻译;2) 设计全面的基准测试,覆盖各种功能和性能指标;3) 实现高效的diff-translate-test循环,保证与上游代码的同步;4) 采用feature-flagged扩展,方便在Python版本中添加新功能,同时保持与Rust版本的兼容性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Python版本在SWE-bench Verified任务上的解决率高于Rust版本(73.8% vs 70.0%),在Terminal-Bench上的表现接近Rust版本(42.5% vs 47.5%)。此外,Python版本还实现了15.9倍的代码缩减,并在此基础上扩展了30个新功能,证明了该方法的有效性和实用性。
🎯 应用场景
该研究成果可应用于各种大型软件系统的跨语言迁移,尤其适用于AI Agent等需要高性能和快速迭代的场景。该方法可以降低代码迁移的成本和风险,提高迁移效率和质量,并为后续的功能扩展和维护提供便利。此外,该研究也为LLM在软件工程领域的应用提供了新的思路和方法。
📄 摘要(原文)
Cross-language migration of large software systems is a persistent engineering challenge, particularly when the source codebase evolves rapidly. We present a methodology for LLM-assisted continuous code translation in which a large language model translates a production Rust codebase (648K LOC, 65 crates) into Python (41K LOC, 28 modules), with public agent benchmarks as the objective function driving iterative refinement. Our subject system is Codex CLI, a production AI coding agent. We demonstrate that: (1) the Python port resolves 59/80 SWE-bench Verified tasks (73.8%) versus Rust's 56/80 (70.0%), and achieves 42.5% on Terminal-Bench versus Rust's 47.5%, confirming near-parity on real-world agentic tasks; (2) benchmark-driven debugging, revealing API protocol mismatches, environment pollution, a silent WebSocket failure mode, and an API 400 crash, is more effective than static testing alone; (3) the architecture supports continuous upstream synchronisation via an LLM-assisted diff-translate-test loop; and (4) the Python port has evolved into a capability superset with 30 feature-flagged extensions (multi-agent orchestration, semantic memory, guardian safety, cost tracking) absent from Rust, while preserving strict parity mode for comparison. Our evaluation shows that for LLM-based agents where API latency dominates, Python's expressiveness yields a 15.9x code reduction with negligible performance cost, while the benchmark-as-objective-function methodology provides a principled framework for growing a cross-language port from parity into an extended platform.