From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs

📄 arXiv: 2601.03808v1 📥 PDF

作者: Usha Shrestha, Dmitry Ignatov, Radu Timofte

分类: cs.CV, cs.LG

发布日期: 2026-01-07


💡 一句话要点

提出NNGPT,利用LLM和性能反馈自动设计最优数据增强策略。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 大型语言模型 代码生成 性能优化 闭环反馈

📋 核心要点

  1. 现有数据增强方法依赖启发式或暴力搜索,效率低且缺乏智能。
  2. NNGPT利用LLM和性能反馈,自主学习并设计最优数据增强策略。
  3. 实验表明,NNGPT比暴力搜索减少600倍候选评估,同时保持精度。

📝 摘要(中文)

大型语言模型(LLM)在代码合成方面取得了显著的性能;然而,数据感知的增强仍然是一个限制因素,通常通过启发式设计或暴力搜索方法处理。我们介绍了一种性能感知的闭环解决方案,在NNGPT项目生态系统中,使LLM能够通过内化经验性能线索来自主设计最佳转换。我们使用低秩适应(Low-Rank Adaptation)在超过6000个经验评估的PyTorch增强函数的新存储库上对LLM进行微调,每个函数仅通过下游模型精度进行注释。训练使用成对性能排序(更好-更差的转换),从而通过经验反馈实现对齐,而无需强化学习、奖励模型或符号目标。这减少了对穷举搜索的需求,与暴力发现相比,评估的候选数量减少了高达600倍,同时保持了具有竞争力的峰值精度,并将生成从随机合成转变为任务对齐的设计。消融研究表明,结构化的思维链提示引入了句法噪声并降低了性能,而直接提示确保了在性能关键的代码任务中的稳定优化。定性和定量分析表明,该模型内化了语义性能线索,而不是记忆语法。这些结果表明,LLM可以通过非文本反馈循环展示任务级别的推理,从而绕过显式的符号奖励。

🔬 方法详解

问题定义:论文旨在解决数据增强中,现有方法依赖人工启发式规则或暴力搜索效率低下的问题。这些方法无法有效利用数据本身的特性,难以找到最优的数据增强策略,导致模型性能提升受限。

核心思路:论文的核心思路是利用大型语言模型(LLM)的代码生成能力,并引入一个基于经验性能反馈的闭环系统。通过让LLM生成数据增强函数,并根据这些函数对下游模型性能的影响进行排序和学习,使LLM能够自主地设计出性能最优的数据增强策略。

技术框架:NNGPT的技术框架主要包含以下几个阶段:1) 构建包含大量PyTorch数据增强函数的数据库,并用下游模型精度对其进行标注。2) 使用低秩适应(LoRA)在标注的数据集上微调LLM,使其能够根据性能排序生成数据增强函数。3) 建立一个闭环反馈系统,LLM生成增强函数,评估其对下游模型性能的影响,并将性能反馈给LLM,用于进一步优化增强函数的设计。

关键创新:该论文的关键创新在于:1) 使用LLM进行数据增强函数的自动设计,摆脱了对人工启发式规则的依赖。2) 引入了基于经验性能反馈的闭环系统,使LLM能够通过非文本反馈学习和优化增强函数的设计,而无需显式的符号奖励或强化学习。3) 构建了一个包含大量经验评估的PyTorch增强函数的数据集,为LLM的训练和评估提供了基础。

关键设计:论文的关键设计包括:1) 使用成对性能排序进行LLM的微调,避免了直接预测绝对性能值的困难。2) 采用直接提示而非思维链提示,以减少句法噪声对性能的影响。3) 使用低秩适应(LoRA)进行微调,降低了计算成本和资源需求。

📊 实验亮点

实验结果表明,NNGPT在数据增强函数设计方面,与暴力搜索相比,评估的候选数量减少了高达600倍,同时保持了具有竞争力的峰值精度。消融研究表明,直接提示比思维链提示更有效。定性和定量分析表明,该模型能够内化语义性能线索,而不是简单地记忆语法。

🎯 应用场景

该研究成果可应用于各种计算机视觉任务,例如图像分类、目标检测和图像分割等。通过自动设计最优的数据增强策略,可以显著提升模型的泛化能力和鲁棒性,尤其是在数据量有限或数据分布不平衡的情况下。此外,该方法还可以推广到其他领域,例如自然语言处理和语音识别,用于自动设计数据预处理和增强策略。

📄 摘要(原文)

Large language models (LLMs) have achieved notable performance in code synthesis; however, data-aware augmentation remains a limiting factor, handled via heuristic design or brute-force approaches. We introduce a performance-aware, closed-loop solution in the NNGPT ecosystem of projects that enables LLMs to autonomously engineer optimal transformations by internalizing empirical performance cues. We fine-tune LLMs with Low-Rank Adaptation on a novel repository of more than 6,000 empirically evaluated PyTorch augmentation functions, each annotated solely by downstream model accuracy. Training uses pairwise performance ordering (better-worse transformations), enabling alignment through empirical feedback without reinforcement learning, reward models, or symbolic objectives. This reduces the need for exhaustive search, achieving up to 600x times fewer evaluated candidates than brute-force discovery while maintaining competitive peak accuracy and shifting generation from random synthesis to task-aligned design. Ablation studies show that structured Chain-of-Thought prompting introduces syntactic noise and degrades performance, whereas direct prompting ensures stable optimization in performance-critical code tasks. Qualitative and quantitative analyses demonstrate that the model internalizes semantic performance cues rather than memorizing syntax. These results show that LLMs can exhibit task-level reasoning through non-textual feedback loops, bypassing explicit symbolic rewards.