LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation
作者: Jiahao Yuan, Xingzhe Sun, Xing Yu, Jingwen Wang, Dehui Du, Zhiqing Cui, Zixiang Di
分类: cs.CL
发布日期: 2025-04-23 (更新: 2025-05-13)
备注: XLLM @ ACL 2025 Shared Task-III: LLM for Structural Reasoning (LLM-SR)
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于质量引导蒸馏的结构化多智能体推理方法,提升低资源场景性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 结构化推理 多智能体 低资源学习 蒸馏训练 奖励引导 逆向提示 检索增强
📋 核心要点
- 现有方法在低资源结构化推理任务中,难以生成高质量且可解释的推理过程。
- Less is More 采用多智能体框架,通过逆向提示、检索增强和奖励引导过滤,提炼高质量监督信号。
- 实验结果表明,该方法在少量样本下,能有效提升结构化推理的质量和性能。
📝 摘要(中文)
LLMSR@XLLM25 提出了一个低资源结构化推理任务,旨在挑战大型语言模型在极少标注数据下生成可解释的、逐步的推理过程。本文提出了 Less is More 方法,该方法在 LLMSR@XLLM25 比赛中获得第三名,专注于仅用 24 个标注样本进行结构化推理。该方法利用多智能体框架,结合逆向提示归纳、通过 GPT-4o 进行检索增强的推理综合,以及双阶段奖励引导的过滤,从而在三个子任务(问题解析、CoT 解析和步骤级验证)中提炼高质量的监督信号。所有模块均基于 Meta-Llama-3-8B-Instruct 进行微调,采用统一的 LoRA+ 设置。通过结合结构验证和跨少量样本和零样本提示的奖励过滤,该流程持续提高结构化推理质量。这些结果强调了可控数据蒸馏在增强低资源约束下的结构化推理方面的价值。代码已开源。
🔬 方法详解
问题定义:论文旨在解决低资源场景下,大型语言模型进行结构化多智能体推理时面临的挑战。现有的方法通常需要大量的标注数据才能训练出有效的模型,但在实际应用中,获取大量标注数据往往是困难的。此外,如何保证推理过程的可解释性也是一个重要的挑战。
核心思路:论文的核心思路是利用质量引导的蒸馏方法,从少量标注数据中提取高质量的监督信号,并将其用于训练模型。通过多智能体框架,将复杂的推理任务分解为多个子任务,并针对每个子任务进行优化。同时,利用奖励机制来过滤掉低质量的推理过程,从而提高模型的整体性能。
技术框架:该方法的技术框架主要包括以下几个模块:1) 逆向提示归纳:用于生成更有效的提示,引导模型进行推理。2) 检索增强的推理综合:利用 GPT-4o 从外部知识库中检索相关信息,增强模型的推理能力。3) 双阶段奖励引导的过滤:通过两阶段的奖励机制,过滤掉低质量的推理过程,保留高质量的样本。所有模块均基于 Meta-Llama-3-8B-Instruct 进行微调,采用统一的 LoRA+ 设置。
关键创新:该方法最重要的技术创新点在于将结构验证与奖励过滤相结合,从而有效地提高了结构化推理的质量。通过结构验证,可以确保推理过程的逻辑一致性;通过奖励过滤,可以筛选出高质量的推理路径。这种结合使得模型能够在少量数据下学习到有效的推理策略。
关键设计:在奖励引导的过滤阶段,采用了双阶段的奖励机制。第一阶段的奖励用于评估推理过程的完整性和正确性;第二阶段的奖励用于评估推理过程的可解释性和流畅性。通过这种双阶段的奖励机制,可以更全面地评估推理过程的质量,从而筛选出更优质的样本。此外,LoRA+ 的使用允许在资源有限的情况下高效地微调大型语言模型。
📊 实验亮点
该方法在 LLMSR@XLLM25 比赛中获得第三名,证明了其在低资源结构化推理任务中的有效性。通过结合结构验证和奖励过滤,该方法能够持续提高结构化推理质量。实验结果表明,该方法在少量样本下,能够显著提升模型的推理性能。
🎯 应用场景
该研究成果可应用于需要可解释性推理的低资源场景,例如医疗诊断、金融风控、智能客服等领域。通过少量标注数据,即可训练出具有良好推理能力的模型,降低了模型部署的成本,并提高了模型的可解释性,有助于建立用户信任。
📄 摘要(原文)
The LLMSR@XLLM25 formulates a low-resource structural reasoning task that challenges LLMs to generate interpretable, step-by-step rationales with minimal labeled data. We present Less is More, the third-place winning approach in the LLMSR@XLLM25, which focuses on structured reasoning from only 24 labeled examples. Our approach leverages a multi-agent framework with reverse-prompt induction, retrieval-augmented reasoning synthesis via GPT-4o, and dual-stage reward-guided filtering to distill high-quality supervision across three subtasks: question parsing, CoT parsing, and step-level verification. All modules are fine-tuned from Meta-Llama-3-8B-Instruct under a unified LoRA+ setup. By combining structure validation with reward filtering across few-shot and zero-shot prompts, our pipeline consistently improves structure reasoning quality. These results underscore the value of controllable data distillation in enhancing structured inference under low-resource constraints. Our code is available at https://github.com/JhCircle/Less-is-More.