Auto-Prompting with Retrieval Guidance for Frame Detection in Logistics

作者: Do Minh Duc, Quan Xuan Truong, Nguyen Tat Dat, Nguyen Van Vinh

分类: cs.CL, cs.AI

发布日期: 2025-12-22

💡 一句话要点

提出检索引导的自动Prompt优化方法，用于提升物流文本中的框架检测精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Prompt工程 大型语言模型 检索增强生成 思维链 自动Prompt优化 物流文本分析 框架检测

📋 核心要点

现有方法在将大型语言模型（LLM）应用于物流文本等复杂推理任务时，缺乏有效的prompt优化策略。
论文提出一种结合RAG、少样本、CoT和Auto-CoT的自动prompt优化流程，利用LLM代理迭代改进prompt。
实验结果表明，该方法在物流文本框架检测任务中，相比基线方法，推理精度提升高达15%。

📝 摘要（中文）

本文提出了一种新颖的prompt优化流程，用于物流文本中的框架检测。该流程结合了检索增强生成（RAG）、少样本prompting、思维链（CoT）推理和自动CoT合成（Auto-CoT），以生成高效的任务特定prompt。核心是一个基于LLM的prompt优化代理，它使用检索到的示例、性能反馈和内部自我评估来迭代地改进prompt。该框架在一个真实的物流文本标注任务上进行了评估，实验结果表明，优化的prompt（特别是通过Auto-CoT和RAG增强的prompt）与基线零样本或静态prompt相比，实际推理精度提高了高达15%。该系统在多个LLM（包括GPT-4o、Qwen 2.5 (72B)和LLaMA 3.1 (70B)）上表现出一致的改进，验证了其通用性和实用价值。这些发现表明，结构化的prompt优化是完全微调的可行替代方案，为在物流等特定领域NLP应用中部署LLM提供了可扩展的解决方案。

🔬 方法详解

问题定义：论文旨在解决物流文本中框架检测任务的prompt工程问题。现有方法依赖人工设计的prompt或简单的零样本/少样本prompting，难以充分利用LLM的推理能力，且缺乏针对特定任务的优化。

核心思路：核心思路是利用LLM本身作为prompt优化代理，通过迭代的方式，结合检索增强、性能反馈和自我评估，自动生成和改进prompt。这种方法旨在克服人工prompt设计的局限性，并充分利用LLM的知识和推理能力。

技术框架：整体框架包含以下几个主要模块：1) 检索模块：从预定义的语料库中检索与当前任务相关的示例；2) Prompt生成模块：利用LLM生成初始prompt，并结合检索到的示例进行增强；3) 推理模块：使用生成的prompt对输入文本进行推理，得到预测结果；4) 评估模块：评估预测结果的准确性，并将评估结果反馈给prompt优化模块；5) Prompt优化模块：利用评估结果和LLM的自我评估能力，迭代地改进prompt。

关键创新：最重要的创新点在于利用LLM作为prompt优化代理，实现prompt的自动生成和迭代改进。与传统的prompt工程方法相比，该方法无需人工干预，能够更有效地利用LLM的知识和推理能力，并针对特定任务进行优化。此外，结合RAG和Auto-CoT进一步提升了prompt的质量和推理性能。

关键设计：关键设计包括：1) LLM代理的prompt设计，使其能够有效地进行prompt生成、评估和优化；2) 检索模块的设计，保证检索到的示例与当前任务相关；3) 评估指标的选择，能够准确地反映prompt的性能；4) Auto-CoT的具体实现方式，如何自动生成有效的思维链。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在物流文本框架检测任务中取得了显著的性能提升。与基线零样本或静态prompt相比，优化的prompt（特别是通过Auto-CoT和RAG增强的prompt）实际推理精度提高了高达15%。该系统在多个LLM（包括GPT-4o、Qwen 2.5 (72B)和LLaMA 3.1 (70B)）上表现出一致的改进。

🎯 应用场景

该研究成果可应用于智能物流领域，例如自动化文本分析、智能客服、风险预警等。通过提升物流文本的理解和分析能力，可以提高物流效率、降低运营成本、改善客户体验。未来，该方法可以推广到其他领域的文本分析任务中。

📄 摘要（原文）

Prompt engineering plays a critical role in adapting large language models (LLMs) to complex reasoning and labeling tasks without the need for extensive fine-tuning. In this paper, we propose a novel prompt optimization pipeline for frame detection in logistics texts, combining retrieval-augmented generation (RAG), few-shot prompting, chain-of-thought (CoT) reasoning, and automatic CoT synthesis (Auto-CoT) to generate highly effective task-specific prompts. Central to our approach is an LLM-based prompt optimizer agent that iteratively refines the prompts using retrieved examples, performance feedback, and internal self-evaluation. Our framework is evaluated on a real-world logistics text annotation task, where reasoning accuracy and labeling efficiency are critical. Experimental results show that the optimized prompts - particularly those enhanced via Auto-CoT and RAG - improve real-world inference accuracy by up to 15% compared to baseline zero-shot or static prompts. The system demonstrates consistent improvements across multiple LLMs, including GPT-4o, Qwen 2.5 (72B), and LLaMA 3.1 (70B), validating its generalizability and practical value. These findings suggest that structured prompt optimization is a viable alternative to full fine-tuning, offering scalable solutions for deploying LLMs in domain-specific NLP applications such as logistics.

Auto-Prompting with Retrieval Guidance for Frame Detection in Logistics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理