Auto-Prompting with Retrieval Guidance for Frame Detection in Logistics

📄 arXiv: 2512.19247v1 📥 PDF

作者: Do Minh Duc, Quan Xuan Truong, Nguyen Tat Dat, Nguyen Van Vinh

分类: cs.CL, cs.AI

发布日期: 2025-12-22


💡 一句话要点

提出检索引导的自动Prompt优化方法,用于提升物流文本中的框架检测精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt工程 大型语言模型 检索增强生成 思维链 自动Prompt优化 物流文本分析 框架检测

📋 核心要点

  1. 现有方法在将大型语言模型(LLM)应用于物流文本等复杂推理任务时,缺乏有效的prompt优化策略。
  2. 论文提出一种结合RAG、少样本、CoT和Auto-CoT的自动prompt优化流程,利用LLM代理迭代改进prompt。
  3. 实验结果表明,该方法在物流文本框架检测任务中,相比基线方法,推理精度提升高达15%。

📝 摘要(中文)

本文提出了一种新颖的prompt优化流程,用于物流文本中的框架检测。该流程结合了检索增强生成(RAG)、少样本prompting、思维链(CoT)推理和自动CoT合成(Auto-CoT),以生成高效的任务特定prompt。核心是一个基于LLM的prompt优化代理,它使用检索到的示例、性能反馈和内部自我评估来迭代地改进prompt。该框架在一个真实的物流文本标注任务上进行了评估,实验结果表明,优化的prompt(特别是通过Auto-CoT和RAG增强的prompt)与基线零样本或静态prompt相比,实际推理精度提高了高达15%。该系统在多个LLM(包括GPT-4o、Qwen 2.5 (72B)和LLaMA 3.1 (70B))上表现出一致的改进,验证了其通用性和实用价值。这些发现表明,结构化的prompt优化是完全微调的可行替代方案,为在物流等特定领域NLP应用中部署LLM提供了可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决物流文本中框架检测任务的prompt工程问题。现有方法依赖人工设计的prompt或简单的零样本/少样本prompting,难以充分利用LLM的推理能力,且缺乏针对特定任务的优化。

核心思路:核心思路是利用LLM本身作为prompt优化代理,通过迭代的方式,结合检索增强、性能反馈和自我评估,自动生成和改进prompt。这种方法旨在克服人工prompt设计的局限性,并充分利用LLM的知识和推理能力。

技术框架:整体框架包含以下几个主要模块:1) 检索模块:从预定义的语料库中检索与当前任务相关的示例;2) Prompt生成模块:利用LLM生成初始prompt,并结合检索到的示例进行增强;3) 推理模块:使用生成的prompt对输入文本进行推理,得到预测结果;4) 评估模块:评估预测结果的准确性,并将评估结果反馈给prompt优化模块;5) Prompt优化模块:利用评估结果和LLM的自我评估能力,迭代地改进prompt。

关键创新:最重要的创新点在于利用LLM作为prompt优化代理,实现prompt的自动生成和迭代改进。与传统的prompt工程方法相比,该方法无需人工干预,能够更有效地利用LLM的知识和推理能力,并针对特定任务进行优化。此外,结合RAG和Auto-CoT进一步提升了prompt的质量和推理性能。

关键设计:关键设计包括:1) LLM代理的prompt设计,使其能够有效地进行prompt生成、评估和优化;2) 检索模块的设计,保证检索到的示例与当前任务相关;3) 评估指标的选择,能够准确地反映prompt的性能;4) Auto-CoT的具体实现方式,如何自动生成有效的思维链。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在物流文本框架检测任务中取得了显著的性能提升。与基线零样本或静态prompt相比,优化的prompt(特别是通过Auto-CoT和RAG增强的prompt)实际推理精度提高了高达15%。该系统在多个LLM(包括GPT-4o、Qwen 2.5 (72B)和LLaMA 3.1 (70B))上表现出一致的改进。

🎯 应用场景

该研究成果可应用于智能物流领域,例如自动化文本分析、智能客服、风险预警等。通过提升物流文本的理解和分析能力,可以提高物流效率、降低运营成本、改善客户体验。未来,该方法可以推广到其他领域的文本分析任务中。

📄 摘要(原文)

Prompt engineering plays a critical role in adapting large language models (LLMs) to complex reasoning and labeling tasks without the need for extensive fine-tuning. In this paper, we propose a novel prompt optimization pipeline for frame detection in logistics texts, combining retrieval-augmented generation (RAG), few-shot prompting, chain-of-thought (CoT) reasoning, and automatic CoT synthesis (Auto-CoT) to generate highly effective task-specific prompts. Central to our approach is an LLM-based prompt optimizer agent that iteratively refines the prompts using retrieved examples, performance feedback, and internal self-evaluation. Our framework is evaluated on a real-world logistics text annotation task, where reasoning accuracy and labeling efficiency are critical. Experimental results show that the optimized prompts - particularly those enhanced via Auto-CoT and RAG - improve real-world inference accuracy by up to 15% compared to baseline zero-shot or static prompts. The system demonstrates consistent improvements across multiple LLMs, including GPT-4o, Qwen 2.5 (72B), and LLaMA 3.1 (70B), validating its generalizability and practical value. These findings suggest that structured prompt optimization is a viable alternative to full fine-tuning, offering scalable solutions for deploying LLMs in domain-specific NLP applications such as logistics.