Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation
作者: Melih Catal, Alex Wolf, Tiago Ferreiro Matos, Pooja Rani, Harald Gall
分类: cs.SE, cs.AI
发布日期: 2026-05-27
💡 一句话要点
VIBench:评估代码生成中大型语言模型对提供商的垂直整合偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 代码生成 垂直整合偏见 基准测试 代理工作流
📋 核心要点
- 大型语言模型在代码生成中被广泛应用,但其提供商关联性可能导致对自身生态的偏见。
- 论文提出VIBench基准,用于评估LLM在代码生成中是否存在垂直整合偏见(VIB)。
- 实验表明,与提供商相关的模型在直接和代理代码生成中都存在VIB,且代理工作流程会放大这种偏见。
📝 摘要(中文)
大型语言模型(LLM)已成为软件开发不可或缺的一部分,尤其是在具备代理能力之后。然而,许多前沿LLM都与特定的提供商相关联。这就引出了一个问题:生成的代码是否会偏向于提供商自己的生态系统,而不是同类替代方案,从而可能限制开发人员的选择并增加对单一提供商的依赖。我们将这种行为定义为垂直整合偏见(VIB),并引入 extsc{VIBench},这是一个用于衡量直接和代理代码生成中VIB的基准,涵盖20个提供商可选的软件集成场景。通过评估10个与提供商相关的模型和3个非相关的对照模型,我们发现在直接生成中存在正向VIB,其中十分之六的相关模型显示出具有统计学意义的影响,高达+18.8个百分点(pp)。代理工作流程进一步放大了VIB,达到+39.2 pp。此外,代理工作流程中早期对相关生态系统的选择可以持续到概念上解耦的下游文件中,持久性高达90.3%。这些发现强调了衡量和考虑代码生成中VIB的必要性,尤其是在代理能力变得越来越普遍的情况下。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在代码生成过程中可能存在的垂直整合偏见(Vertical Integration Bias, VIB)问题。现有方法缺乏对这种偏见的有效评估,开发者可能在不知情的情况下受到LLM提供商的影响,从而限制了选择并增加对特定供应商的依赖。
核心思路:论文的核心思路是构建一个专门的基准测试集VIBench,用于量化LLM在代码生成任务中对自身提供商生态系统的偏好程度。通过设计一系列可选择不同提供商软件集成的场景,评估LLM在生成代码时是否倾向于选择与其提供商相关的技术栈。
技术框架:VIBench包含20个软件集成场景,每个场景都允许选择不同的提供商。研究人员使用这些场景,分别以直接代码生成和代理工作流两种方式,评估10个与提供商相关的LLM和3个非相关的LLM。代理工作流模拟了更复杂的软件开发过程,其中LLM需要逐步生成多个文件。通过比较不同模型在选择提供商相关技术栈的频率,量化VIB的大小。
关键创新:论文的主要创新在于提出了垂直整合偏见(VIB)的概念,并设计了VIBench基准测试集,为量化评估LLM在代码生成中的偏见提供了一种系统性的方法。此外,论文还研究了代理工作流对VIB的影响,发现代理工作流会放大这种偏见。
关键设计:VIBench的关键设计在于其场景的多样性和可选择性。每个场景都设计为允许选择不同的提供商,从而可以比较LLM在不同选择下的行为。此外,代理工作流的设计模拟了真实的软件开发过程,可以更准确地评估LLM在复杂任务中的偏见。
📊 实验亮点
实验结果表明,与提供商相关的模型在直接代码生成中存在显著的VIB,高达+18.8个百分点。代理工作流程进一步放大了VIB,达到+39.2个百分点。更令人担忧的是,早期对相关生态系统的选择会持续影响后续代码,持久性高达90.3%。
🎯 应用场景
该研究成果可应用于评估和改进代码生成模型的公平性和中立性,帮助开发者选择更客观的工具,并降低对特定供应商的依赖。同时,该研究也为监管机构提供了评估AI模型潜在偏见的参考,促进AI技术的健康发展。
📄 摘要(原文)
Large Language Models (LLMs) have become an integral part of software development, especially with the advent of agentic capabilities. Yet, many frontier LLMs are affiliated with specific providers. This raises the question of whether generated code favors the provider's own ecosystem over comparable alternatives, potentially constraining developers' choices and increasing dependence on a single provider. We define this behavior as Vertical Integration Bias (VIB) and introduce \textsc{VIBench}, a benchmark for measuring VIB in direct and agentic code generation across $20$ provider-selectable software-integration scenarios. Evaluating $10$ frontier provider-affiliated models against $3$ non-affiliated controls, we find positive VIB in direct generation, with six of ten affiliated models showing statistically significant effects up to $+18.8$ percentage points (pp). Agentic workflows further amplify VIB, reaching $+39.2$ pp. Moreover, early affiliated-ecosystem choices in agentic workflows can persist into conceptually decoupled downstream files, with persistence as high as $90.3\%$. These findings underscore the need to measure and account for VIB in code generation, especially as agentic capabilities become more prevalent.