InfoSynth: Information-Guided Benchmark Synthesis for LLMs

作者: Ishir Garg, Neel Kolhe, Xuandong Zhao, Dawn Song

分类: cs.CL

发布日期: 2026-01-02

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

InfoSynth：信息论指导的LLM基准自动合成框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 基准测试 自动生成 信息论 遗传算法 代码生成 推理能力

📋 核心要点

现有LLM基准构建依赖人工，成本高昂且易污染训练数据，难以准确评估模型真实能力。
InfoSynth利用信息论指标（KL散度、熵）指导基准生成，无需昂贵的模型评估即可量化新颖性和多样性。
通过遗传算法和迭代代码反馈，InfoSynth能以高准确率生成高质量的Python编码问题基准，并可控其难度。

📝 摘要（中文）

大型语言模型（LLM）在推理和代码生成方面取得了显著进展。然而，高效地创建新基准来评估这些能力仍然是一个挑战。传统的基准创建依赖于人工，既昂贵又耗时。此外，现有基准通常会污染LLM训练数据，因此需要新颖且多样化的基准来准确评估其真实能力。本文介绍了InfoSynth，这是一个新颖的框架，用于在信息论原则的指导下自动生成和评估推理基准。我们提出了基于KL散度和熵的指标来量化基准的新颖性和多样性，而无需昂贵的模型评估。在此框架的基础上，我们开发了一个端到端pipeline，使用遗传算法和迭代代码反馈，从种子数据集合成稳健的Python编码问题。我们的方法能够以97%的准确率生成新问题的准确测试用例和解决方案，并且合成的基准始终表现出比其种子数据集更高的新颖性和多样性。此外，我们的算法提供了一种控制生成问题的新颖性/多样性和难度的方法。InfoSynth为构建高质量、新颖和多样化的LLM基准提供了一个可扩展的、自我验证的pipeline。

🔬 方法详解

问题定义：论文旨在解决LLM基准测试中人工构建成本高、现有基准易污染训练数据，以及缺乏对模型真实能力进行准确评估的问题。现有方法依赖人工设计，效率低下，且难以保证基准的新颖性和多样性。

核心思路：论文的核心思路是利用信息论的原则，特别是KL散度和熵，来指导基准的自动生成。通过量化生成基准的新颖性和多样性，避免了对LLM进行昂贵的评估。这种方法旨在创建更具挑战性、更不易被现有模型“记住”的基准。

技术框架：InfoSynth包含一个端到端的pipeline，从种子数据集开始，使用遗传算法迭代生成新的编码问题。该pipeline包含以下主要阶段：1) 问题生成：使用遗传算法从种子数据集中生成新的问题描述；2) 代码生成：为生成的问题生成相应的解决方案代码；3) 测试用例生成：自动生成测试用例来验证解决方案的正确性；4) 评估：使用信息论指标（KL散度、熵）评估生成基准的新颖性和多样性。

关键创新：InfoSynth的关键创新在于使用信息论指标来指导基准生成过程，从而在无需昂贵的模型评估的情况下，量化和控制生成基准的新颖性和多样性。此外，该方法还结合了遗传算法和迭代代码反馈，以提高生成基准的质量和准确性。与现有方法相比，InfoSynth能够自动生成高质量、新颖且多样化的基准，从而更准确地评估LLM的真实能力。

关键设计：InfoSynth使用KL散度来衡量生成问题与种子数据集之间的差异，从而量化新颖性。熵用于衡量生成问题集中问题的多样性。遗传算法中的适应度函数结合了新颖性和多样性指标，以及问题难度。迭代代码反馈机制用于纠正生成的代码中的错误，并提高解决方案的准确性。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

InfoSynth能够以97%的准确率生成新问题的准确测试用例和解决方案。合成的基准始终表现出比其种子数据集更高的新颖性和多样性。该算法还提供了一种控制生成问题的新颖性/多样性和难度的方法。这些结果表明InfoSynth能够有效地生成高质量的LLM基准。

🎯 应用场景

InfoSynth可应用于LLM的自动化评测与能力提升，尤其是在代码生成和推理能力方面。通过自动生成高质量、新颖且多样化的基准，可以更准确地评估LLM的性能，并促进其在软件开发、自动化推理等领域的应用。该方法还可用于生成特定领域的基准，以满足不同应用场景的需求。

📄 摘要（原文）

Large language models (LLMs) have demonstrated significant advancements in reasoning and code generation. However, efficiently creating new benchmarks to evaluate these capabilities remains a challenge. Traditional benchmark creation relies on manual human effort, a process that is both expensive and time-consuming. Furthermore, existing benchmarks often contaminate LLM training data, necessitating novel and diverse benchmarks to accurately assess their genuine capabilities. This work introduces InfoSynth, a novel framework for automatically generating and evaluating reasoning benchmarks guided by information-theoretic principles. We propose metrics based on KL-divergence and entropy to quantify benchmark novelty and diversity without relying on costly model evaluations. Building on this framework, we develop an end-to-end pipeline that synthesizes robust Python coding problems from seed datasets using genetic algorithms and iterative code feedback. Our method generates accurate test cases and solutions to new problems 97% of the time, and the synthesized benchmarks consistently exhibit higher novelty and diversity compared to their seed datasets. Moreover, our algorithm provides a method for controlling the novelty/diversity and difficulty of generated problems. InfoSynth offers a scalable, self-verifying pipeline for constructing high-quality, novel and diverse benchmarks for LLMs. Project Page: https://ishirgarg.github.io/infosynth_web/

InfoSynth: Information-Guided Benchmark Synthesis for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册