InfoSynth: Information-Guided Benchmark Synthesis for LLMs
作者: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song
分类: cs.CL
发布日期: 2026-01-02
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
InfoSynth:信息论指导的LLM基准自动合成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 基准测试 自动生成 信息论 遗传算法 代码生成 推理能力
📋 核心要点
- 现有LLM基准构建依赖人工,成本高昂且易污染训练数据,难以准确评估模型真实能力。
- InfoSynth利用信息论指标(KL散度、熵)指导基准生成,无需昂贵的模型评估即可量化新颖性和多样性。
- 通过遗传算法和迭代代码反馈,InfoSynth能以高准确率生成高质量的Python编码问题基准,并可控其难度。
📝 摘要(中文)
大型语言模型(LLM)在推理和代码生成方面取得了显著进展。然而,高效地创建新基准来评估这些能力仍然是一个挑战。传统的基准创建依赖于人工,既昂贵又耗时。此外,现有基准通常会污染LLM训练数据,因此需要新颖且多样化的基准来准确评估其真实能力。本文介绍了InfoSynth,这是一个新颖的框架,用于在信息论原则的指导下自动生成和评估推理基准。我们提出了基于KL散度和熵的指标来量化基准的新颖性和多样性,而无需昂贵的模型评估。在此框架的基础上,我们开发了一个端到端pipeline,使用遗传算法和迭代代码反馈,从种子数据集合成稳健的Python编码问题。我们的方法能够以97%的准确率生成新问题的准确测试用例和解决方案,并且合成的基准始终表现出比其种子数据集更高的新颖性和多样性。此外,我们的算法提供了一种控制生成问题的新颖性/多样性和难度的方法。InfoSynth为构建高质量、新颖和多样化的LLM基准提供了一个可扩展的、自我验证的pipeline。
🔬 方法详解
问题定义:论文旨在解决LLM基准测试中人工构建成本高、现有基准易污染训练数据,以及缺乏对模型真实能力进行准确评估的问题。现有方法依赖人工设计,效率低下,且难以保证基准的新颖性和多样性。
核心思路:论文的核心思路是利用信息论的原则,特别是KL散度和熵,来指导基准的自动生成。通过量化生成基准的新颖性和多样性,避免了对LLM进行昂贵的评估。这种方法旨在创建更具挑战性、更不易被现有模型“记住”的基准。
技术框架:InfoSynth包含一个端到端的pipeline,从种子数据集开始,使用遗传算法迭代生成新的编码问题。该pipeline包含以下主要阶段:1) 问题生成:使用遗传算法从种子数据集中生成新的问题描述;2) 代码生成:为生成的问题生成相应的解决方案代码;3) 测试用例生成:自动生成测试用例来验证解决方案的正确性;4) 评估:使用信息论指标(KL散度、熵)评估生成基准的新颖性和多样性。
关键创新:InfoSynth的关键创新在于使用信息论指标来指导基准生成过程,从而在无需昂贵的模型评估的情况下,量化和控制生成基准的新颖性和多样性。此外,该方法还结合了遗传算法和迭代代码反馈,以提高生成基准的质量和准确性。与现有方法相比,InfoSynth能够自动生成高质量、新颖且多样化的基准,从而更准确地评估LLM的真实能力。
关键设计:InfoSynth使用KL散度来衡量生成问题与种子数据集之间的差异,从而量化新颖性。熵用于衡量生成问题集中问题的多样性。遗传算法中的适应度函数结合了新颖性和多样性指标,以及问题难度。迭代代码反馈机制用于纠正生成的代码中的错误,并提高解决方案的准确性。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
InfoSynth能够以97%的准确率生成新问题的准确测试用例和解决方案。合成的基准始终表现出比其种子数据集更高的新颖性和多样性。该算法还提供了一种控制生成问题的新颖性/多样性和难度的方法。这些结果表明InfoSynth能够有效地生成高质量的LLM基准。
🎯 应用场景
InfoSynth可应用于LLM的自动化评测与能力提升,尤其是在代码生成和推理能力方面。通过自动生成高质量、新颖且多样化的基准,可以更准确地评估LLM的性能,并促进其在软件开发、自动化推理等领域的应用。该方法还可用于生成特定领域的基准,以满足不同应用场景的需求。
📄 摘要(原文)
Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/