QAQ: Bidirectional Semantic Coherence for Selecting High-Quality Synthetic Code Instructions
作者: Jiayin Lei, Ming Ma, Yunxi Duan, Chenxi Li, Tianming Yang
分类: cs.CL
发布日期: 2026-03-12
备注: 12 pages, 5 figures. Under review at ACL 2026
💡 一句话要点
提出QAQ框架,通过双向语义一致性选择高质量合成代码指令,提升代码生成模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码生成 合成数据 数据选择 反向互信息 双向语义一致性
📋 核心要点
- 现有代码生成模型依赖合成数据,但合成数据噪声大,传统数据选择方法难以有效区分任务难度和模型幻觉。
- QAQ框架通过反向互信息(RMI)评估答案预测查询的能力,从而衡量合成数据的质量,避免了单向评估的歧义。
- 实验表明,使用QAQ选择的少量数据即可达到全量数据训练的性能,显著优于现有方法,降低了计算成本。
📝 摘要(中文)
合成数据对于训练代码生成模型至关重要,但它引入了大量的噪声和幻觉,这些噪声和幻觉难以用现有指标检测。现有的数据选择方法,如指令遵循难度(IFD),通常评估模型在给定查询(A|Q)的情况下生成答案的难度。然而,这种指标在嘈杂的合成数据上是模糊的,因为低概率可能区分内在任务复杂性和模型生成的幻觉。在此,我们提出了QAQ,一种新颖的数据选择框架,它从相反的方向评估数据质量:答案预测查询(Q|A)的能力如何?我们定义了反向互信息(RMI)来量化以答案为条件查询的信息增益。我们的分析表明,RMI的两个极端都表明质量问题:低RMI表明语义不对齐,而过高的RMI可能包含LLM容易识别的缺陷模式。此外,我们引入了一种基于强模型和弱模型之间差异的选择策略,以识别有效但具有挑战性的样本。在WarriorCoder数据集上的实验表明,仅使用分层RMI选择25%的数据即可实现与全数据训练相当的性能,显著优于现有的数据选择方法。我们的方法突出了双向语义一致性在合成数据管理中的重要性,提供了一种可扩展的途径,可以在不牺牲模型能力的情况下降低计算成本。
🔬 方法详解
问题定义:论文旨在解决合成代码数据集中噪声和幻觉问题,这些问题严重影响代码生成模型的训练效果。现有数据选择方法,如Instruction-Following Difficulty (IFD),仅考虑了模型在给定问题(Q)下生成答案(A)的难度(P(A|Q)),无法有效区分任务本身的难度和模型产生的幻觉。当P(A|Q)较低时,难以判断是由于任务复杂还是数据质量差。
核心思路:论文的核心思路是引入双向语义一致性评估。除了评估P(A|Q),还评估反向概率P(Q|A),即答案预测问题的能力。如果一个答案能够很好地预测问题,则认为该数据质量较高。通过分析反向互信息(RMI),可以有效识别语义不对齐或包含缺陷模式的低质量数据。
技术框架:QAQ框架主要包含以下几个步骤:1) 使用大型语言模型(LLM)生成合成代码数据;2) 计算每个数据样本的反向互信息(RMI),RMI用于衡量答案A对问题Q的信息增益;3) 根据RMI值对数据进行分层;4) 利用强模型和弱模型之间的预测差异,进一步筛选出有效但具有挑战性的样本;5) 使用筛选后的数据训练代码生成模型。
关键创新:论文的关键创新在于引入了反向互信息(RMI)作为数据选择的指标。与传统的单向评估方法不同,RMI能够更全面地评估合成数据的质量,有效区分任务难度和模型幻觉。此外,结合强弱模型差异进行数据筛选,进一步提升了数据选择的准确性。
关键设计:反向互信息(RMI)的计算是关键。论文中RMI定义为I(Q;A) = H(Q) - H(Q|A),其中H(Q)是问题Q的熵,H(Q|A)是以答案A为条件的问题Q的条件熵。RMI越高,表示答案A包含的问题Q的信息越多,数据质量越高。同时,论文还设计了一种基于强弱模型预测差异的筛选策略,用于识别那些对强模型来说容易,但对弱模型来说困难的样本,这些样本通常是有效且具有挑战性的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用QAQ框架选择的25%数据,在WarriorCoder数据集上训练的代码生成模型,性能与使用全部数据训练的模型相当,且显著优于使用IFD等现有数据选择方法。这表明QAQ能够有效识别并选择高质量的合成数据,大幅降低训练成本。
🎯 应用场景
QAQ框架可广泛应用于代码生成模型的训练数据构建,尤其是在缺乏高质量人工标注数据的情况下。通过选择高质量的合成数据,可以显著提升代码生成模型的性能,降低训练成本,加速软件开发流程,并促进AI在软件工程领域的应用。
📄 摘要(原文)
Synthetic data has become essential for training code generation models, yet it introduces significant noise and hallucinations that are difficult to detect with current metrics. Existing data selection methods like Instruction-Following Difficulty (IFD) typically assess how hard a model generates an answer given a query ($A|Q$). However, this metric is ambiguous on noisy synthetic data, where low probability can distinguish between intrinsic task complexity and model-generated hallucinations. Here, we propose QAQ, a novel data selection framework that evaluates data quality from the reverse direction: how well can the answer predict the query ($Q|A$)? We define Reverse Mutual Information (RMI) to quantify the information gain about the query conditioned on the answer. Our analyses reveal that both extremes of RMI signal quality issues: low RMI indicates semantic misalignment, while excessively high RMI may contain defect patterns that LLMs easily recognize. Furthermore, we introduce a selection strategy based on the disagreement between strong and weak models to identify samples that are valid yet challenging. Experiments on the WarriorCoder dataset demonstrate that selecting just 25% of data using stratified RMI achieves comparable performance to full-data training, significantly outperforming existing data selection methods. Our approach highlights the importance of bidirectional semantic coherence in synthetic data curation, offering a scalable pathway to reduce computational costs without sacrificing model capability.