Lita: Light Agent Uncovers the Agentic Coding Capabilities of LLMs
作者: Hankun Dai, Maoquan Wang, Mengnan Qi, Yikai Zhang, Zijian Jin, Yongqiang Yao, Yufan Huang, Shengyu Fu, Elsie Nallipogu
分类: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE
发布日期: 2025-09-30
💡 一句话要点
Lita:轻量级Agent揭示LLM的Agentic编码能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 代码生成 自主Agent 轻量化设计 编码能力评估
📋 核心要点
- 现有代码Agent设计依赖复杂工作流和工具集,导致性能过度依赖提示调整,掩盖模型底层能力,且成本高昂。
- Lita通过最小化手动设计,保留自主Agent基本要素,实现轻量化,从而更真实地评估LLM的编码能力。
- 实验表明,Lita在Aider Polyglot和SWE-Bench上表现优异,消耗更少token,设计工作量也显著降低。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于编程任务,从单轮代码补全到自主Agent。当前的代码Agent设计通常依赖于复杂的手工工作流和工具集。然而,这种对精细脚手架的依赖带来了一些挑战:Agent性能过度依赖于提示调整和自定义设计选择,大量的人工干预掩盖了模型真正的底层能力,复杂的pipeline构建和维护成本高昂。此外,优化复杂的任务提示会增加数据泄露的风险。目前,像OpenAI和Anthropic这样的LLM提供商在推出新模型时,通常会发布基准分数来证明其模型的编码能力,但对其专有的评估框架保密。为了解决这些限制,我们引入了Lita(Lite Agent),它将轻量化原则付诸实践,即在保留完全自主Agent的基本要素的同时,最大限度地减少手动设计。Lita能够在没有精细脚手架的情况下进行更真实和统一的评估。在前沿模型上进行的Aider Polyglot和SWE-Bench实验表明,与基于工作流和Agentic的基线相比,Lita实现了有竞争力的或更优越的性能。至关重要的是,Lita还消耗更少的token,并且需要显著更少的设计工作。我们的结果表明,Lita足以揭示现代LLM的底层编码能力。最后,我们提出了Agent复杂性定律:随着核心模型的改进,从简单到复杂设计的不同复杂度的Agent之间的性能差距将缩小,最终收敛到可以忽略不计的差异。
🔬 方法详解
问题定义:现有代码Agent设计依赖于复杂的手工工作流和工具集,导致性能过度依赖提示工程,难以反映LLM的真实编码能力。同时,复杂的pipeline增加了构建和维护成本,并可能引入数据泄露风险。此外,现有的评估框架往往不透明,难以进行公平比较。
核心思路:Lita的核心思路是“轻量化”,即在保留自主Agent基本要素的前提下,尽可能减少手动设计和复杂的工作流。通过简化Agent的结构,Lita旨在更真实地揭示LLM的底层编码能力,并降低开发和维护成本。
技术框架:Lita的整体框架非常简洁,主要包含以下几个核心步骤:接收任务描述,利用LLM生成代码,执行代码,根据执行结果进行迭代优化。Lita避免了复杂的工具链和人工干预,而是直接依赖LLM的强大生成和推理能力。
关键创新:Lita最重要的创新在于其“轻量化”的设计理念。与传统的复杂Agent相比,Lita更加简洁高效,能够更直接地反映LLM的编码能力。此外,Lita还提出了“Agent复杂性定律”,即随着LLM能力的提升,不同复杂度的Agent之间的性能差距将逐渐缩小。
关键设计:Lita的关键设计在于prompt的设计,需要确保LLM能够理解任务描述并生成正确的代码。此外,Lita还采用了简单的迭代优化策略,根据代码执行结果对代码进行微调。具体的参数设置和损失函数等技术细节论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Lita在Aider Polyglot和SWE-Bench等基准测试中,与基于复杂工作流和Agentic的基线方法相比,取得了具有竞争力的甚至更优越的性能。同时,Lita消耗的token更少,并且显著减少了设计工作量。这些结果表明,Lita能够有效地揭示现代LLM的底层编码能力。
🎯 应用场景
Lita的轻量化Agent设计理念可以应用于各种需要代码生成的场景,例如自动化软件开发、代码修复、智能编程助手等。它能够降低开发成本,提高开发效率,并促进LLM在编程领域的更广泛应用。此外,Lita还可以作为评估LLM编码能力的统一基准,促进LLM技术的进一步发展。
📄 摘要(原文)
Large language models (LLMs) are increasingly being applied to programming tasks, ranging from single-turn code completion to autonomous agents. Current code agent designs frequently depend on complex, hand-crafted workflows and tool sets. However, this reliance on elaborate scaffolding presents several challenges: agent performance becomes overly dependent on prompt tuning and custom design choices, heavy human intervention obscures a model's true underlying capabilities, and intricate pipelines are costly to build and maintain. Furthermore, optimizing complex task prompts increases the risk of data leakage. Currently, when introducing new models, LLM providers like OpenAI and Anthropic often publish benchmark scores to demonstrate their models' coding proficiency, but keep their proprietary evaluation frameworks confidential. To address these limitations, we introduce Lita (Lite Agent), which operationalizes liteness, a principle of minimizing manual design while retaining the essential elements of a fully autonomous agent. Lita enables a more faithful and unified evaluation without elaborate scaffolding. Experiments on the Aider Polyglot and SWE-Bench with frontier models demonstrate that Lita achieves competitive or superior performance compared to workflow-based and agentic baselines. Crucially, Lita also consumes fewer tokens and requires significantly less design effort. Our results suggest that Lita is sufficient to reveal the underlying coding competence of modern LLMs. Finally, we propose the Agent Complexity Law: the performance gap between agents of varying complexity, from simple to sophisticated designs, will shrink as the core model improves, ultimately converging to a negligible difference.