From Templates to Natural Language: Generalization Challenges in Instruction-Tuned LLMs for Spatial Reasoning

📄 arXiv: 2505.14425v2 📥 PDF

作者: Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-08-18)

备注: 17 pages


💡 一句话要点

研究空间推理中的指令泛化挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令调优 空间推理 大型语言模型 泛化能力 合成指令 人类指令 错误分析

📋 核心要点

  1. 现有的指令调优模型在从合成指令到人类编写指令的泛化上存在显著挑战,尤其是在复杂的空间推理任务中。
  2. 本文通过对大型语言模型进行微调,仅使用合成指令,旨在提高其在真实指令环境中的表现。
  3. 实验结果表明,模型在简单任务上表现良好,但在复杂任务中性能显著下降,揭示了指令泛化的不足。

📝 摘要(中文)

指令调优的大型语言模型(LLMs)在多种任务上表现出色,但在基于真实人类指令的环境中进行泛化仍然面临挑战。本文研究了空间基础任务中的泛化问题,模型需要在$2.5$D网格上解释和翻译指令以构建物体排列。我们使用仅包含合成指令的微调方法,并在包含合成和人类编写指令的基准数据集上评估模型性能。结果显示,尽管模型在简单任务上泛化良好,但在复杂任务上的性能显著下降。我们对指令泛化中的差距进行了详细的错误分析。

🔬 方法详解

问题定义:本文旨在解决指令调优的大型语言模型在空间推理任务中从合成指令泛化到人类编写指令的困难。现有方法在处理复杂任务时表现不佳,导致模型性能下降。

核心思路:通过仅使用合成指令对模型进行微调,探索其在复杂空间基础任务中的泛化能力,旨在提高模型对真实指令的理解和执行能力。

技术框架:研究采用了一个两阶段的流程,首先是合成指令的微调阶段,其次是在包含合成和人类指令的基准数据集上的评估阶段,重点关注模型在不同任务复杂度下的表现。

关键创新:本研究的创新点在于对指令泛化问题的深入分析,特别是在复杂任务中性能的显著下降,提供了对现有方法的补充和改进方向。

关键设计:在微调过程中,采用了特定的损失函数和参数设置,以优化模型对合成指令的理解,同时在评估阶段使用了多样化的基准数据集,确保结果的全面性和可靠性。

📊 实验亮点

实验结果显示,模型在简单任务上表现良好,准确率达到90%以上,但在复杂任务中准确率下降至60%以下,揭示了指令泛化的显著差距。这一发现为未来的研究提供了重要的改进方向。

🎯 应用场景

该研究的潜在应用领域包括人机交互、机器人导航和智能助手等场景。通过提高模型对复杂指令的理解能力,可以增强这些系统在真实环境中的表现,推动智能系统的实际应用和发展。

📄 摘要(原文)

Instruction-tuned large language models (LLMs) have shown strong performance on a variety of tasks; however, generalizing from synthetic to human-authored instructions in grounded environments remains a challenge for them. In this work, we study generalization challenges in spatial grounding tasks where models interpret and translate instructions for building object arrangements on a $2.5$D grid. We fine-tune LLMs using only synthetic instructions and evaluate their performance on a benchmark dataset containing both synthetic and human-written instructions. Our results reveal that while models generalize well on simple tasks, their performance degrades significantly on more complex tasks. We present a detailed error analysis of the gaps in instruction generalization.