ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution
作者: Alexandru Coca, Mark Gaynor, Zhenxing Zhang, Jianpeng Cheng, Bo-Hsiang Tseng, Pete Boothroyd, Héctor Martinez Alonso, Diarmuid Ó Séaghdha, Anders Johannsen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-21
备注: 37 pages, 22 figures. To appear at ACL 2025
💡 一句话要点
ASPERA:用于评估复杂动作执行规划的模拟环境
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 动作执行规划 模拟环境 数据生成 数字助手
📋 核心要点
- 现有数字助手在执行复杂动作时面临挑战,尤其是在组合对象和函数以实现多步骤目标方面。
- ASPERA框架通过提供助手库模拟和人工辅助的数据生成引擎,来指导LLM生成高质量的复杂任务。
- Asper-Bench数据集的实验结果表明,LLM在基于自定义助手库生成程序时面临显著挑战。
📝 摘要(中文)
本文评估了大型语言模型(LLMs)在驱动能够执行复杂动作的数字助手方面的潜力。这些助手依赖于预训练的编程知识,通过将助手库中定义的对象和函数组合成动作执行程序来实现多步骤目标。为此,我们开发了ASPERA,一个包含助手库模拟和人工辅助LLM数据生成引擎的框架。我们的引擎允许开发者指导LLM生成高质量的任务,包括复杂的用户查询、模拟状态和相应的验证程序,从而应对数据可用性和评估鲁棒性挑战。伴随该框架,我们发布了Asper-Bench,一个包含250个具有挑战性的任务的评估数据集,这些任务是使用ASPERA生成的。我们使用该数据集表明,与不依赖外部库的自由代码生成相比,基于自定义助手库的程序生成对LLM来说是一个巨大的挑战。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在复杂动作执行规划方面的评估问题。现有的评估方法通常缺乏足够复杂和多样化的任务,难以充分测试LLMs在实际应用场景中的能力。此外,数据生成和验证的成本也很高,阻碍了相关研究的进展。
核心思路:论文的核心思路是构建一个模拟环境ASPERA,该环境包含一个助手库模拟和一个人工辅助的LLM数据生成引擎。通过模拟真实世界的交互场景,ASPERA能够生成高质量的复杂任务,包括用户查询、模拟状态和相应的验证程序。这种方法降低了数据生成和验证的成本,并提高了评估的鲁棒性。
技术框架:ASPERA框架主要包含两个模块:助手库模拟和人工辅助LLM数据生成引擎。助手库模拟提供了一组预定义的函数和对象,用于模拟真实世界的交互场景。数据生成引擎利用LLM生成候选任务,并由人工进行辅助验证和修正,确保任务的质量和多样性。最终,生成的数据集被用于评估LLMs在复杂动作执行规划方面的能力。
关键创新:ASPERA的关键创新在于其人工辅助的LLM数据生成引擎。该引擎允许开发者通过指导LLM生成高质量的任务,从而克服了数据可用性和评估鲁棒性挑战。与传统的纯人工数据生成方法相比,该方法大大降低了成本并提高了效率。与纯LLM生成方法相比,人工辅助可以确保数据的质量和多样性。
关键设计:ASPERA框架的关键设计包括助手库的构建、LLM的prompt设计以及人工辅助的流程。助手库需要包含足够丰富和多样化的函数和对象,以模拟真实世界的交互场景。LLM的prompt需要精心设计,以引导LLM生成符合要求的任务。人工辅助流程需要确保任务的质量和多样性,并及时修正LLM生成的错误。
🖼️ 关键图片
📊 实验亮点
论文发布了Asper-Bench数据集,包含250个具有挑战性的任务,用于评估LLMs在基于自定义助手库生成程序方面的能力。实验结果表明,与不依赖外部库的自由代码生成相比,基于自定义助手库的程序生成对LLM来说是一个巨大的挑战,这突显了ASPERA框架的价值和意义。具体性能数据未知,但论文强调了该任务的难度。
🎯 应用场景
该研究成果可应用于开发更智能、更可靠的数字助手,例如智能家居控制、自动化办公和客户服务等领域。通过ASPERA框架,可以更有效地评估和提升LLMs在复杂动作执行规划方面的能力,从而推动数字助手在实际应用中的普及和发展。此外,该框架也可用于其他需要复杂任务生成和评估的领域,例如机器人控制和游戏AI。
📄 摘要(原文)
This work evaluates the potential of large language models (LLMs) to power digital assistants capable of complex action execution. These assistants rely on pre-trained programming knowledge to execute multi-step goals by composing objects and functions defined in assistant libraries into action execution programs. To achieve this, we develop ASPERA, a framework comprising an assistant library simulation and a human-assisted LLM data generation engine. Our engine allows developers to guide LLM generation of high-quality tasks consisting of complex user queries, simulation state and corresponding validation programs, tackling data availability and evaluation robustness challenges. Alongside the framework we release Asper-Bench, an evaluation dataset of 250 challenging tasks generated using ASPERA, which we use to show that program generation grounded in custom assistant libraries is a significant challenge to LLMs compared to dependency-free code generation.