In Agents We Trust, but Who Do Agents Trust? Latent Source Preferences Steer LLM Generations
作者: Mohammad Aflah Khan, Mahsa Amani, Soumi Das, Bishwamittra Ghosh, Qinyuan Wu, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander
分类: cs.CL
发布日期: 2026-02-17
备注: ICLR 2026
💡 一句话要点
揭示LLM Agent潜在来源偏好:信息来源影响LLM生成内容
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM Agent 信息来源偏好 偏差分析 公平性 透明度 信息推荐 可信赖AI
📋 核心要点
- 现有研究较少关注LLM Agent选择和呈现信息的潜在偏好,特别是信息来源对LLM决策的影响。
- 该研究假设并验证了LLM Agent存在对特定信息来源的系统性偏好,即使在明确提示避免的情况下依然存在。
- 实验表明,LLM Agent的来源偏好受上下文影响,甚至可以超越内容本身,并解释了新闻推荐中的偏差现象。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent越来越多地被部署为在线平台信息的接口。这些Agent过滤、优先排序和综合从平台后端数据库或通过网络搜索检索的信息。在这种情况下,LLM Agent通过引导用户关注特定信息实例,而忽略其他实例,来控制用户接收到的信息。虽然之前的大量工作都集中在LLM自身生成的信息中的偏差,但很少关注影响LLM选择并呈现给用户的信息的因素。我们假设,当信息归因于特定来源(例如,特定出版商、期刊或平台)时,当前的LLM表现出系统的潜在来源偏好——即,它们优先考虑来自某些来源的信息,而不是其他来源的信息。通过对来自六个模型提供商的十二个LLM进行的受控实验,涵盖合成和真实世界的任务,我们发现几个模型始终表现出强烈且可预测的来源偏好。这些偏好对上下文框架敏感,可以超过内容本身的影响,并且即使明确提示避免它们,仍然存在。它们还有助于解释诸如先前工作中观察到的新闻推荐中存在的左倾偏差等现象。我们的发现提倡对这些偏好的起源进行更深入的调查,并为用户提供透明度和控制机制,以控制引导LLM驱动的Agent的偏差。
🔬 方法详解
问题定义:论文旨在研究LLM Agent在信息选择和呈现过程中是否存在对特定信息来源的偏好。现有方法主要关注LLM自身生成内容的偏差,而忽略了LLM Agent作为信息中介时,其选择信息来源的潜在偏见。这种偏见可能导致用户接收到的信息存在偏差,影响用户决策。
核心思路:论文的核心思路是通过控制实验,分析LLM Agent在面对来自不同来源的信息时,是否会系统性地优先选择某些来源的信息。通过改变上下文、内容等因素,观察LLM Agent的来源偏好是否会发生变化,从而揭示LLM Agent的潜在来源偏好。
技术框架:论文采用实验研究方法,主要分为以下几个阶段: 1. 构建实验数据集:包括合成数据集和真实世界数据集,用于模拟不同的信息来源和内容。 2. 设计实验任务:设计不同的任务,例如信息检索、摘要生成、推荐等,用于评估LLM Agent的来源偏好。 3. 选择LLM Agent:选择来自不同提供商的多个LLM Agent,以评估不同模型的来源偏好。 4. 进行实验并分析结果:分析LLM Agent在不同实验条件下的表现,评估其来源偏好,并分析其影响因素。
关键创新:论文最重要的技术创新点在于揭示了LLM Agent在信息选择和呈现过程中存在的潜在来源偏好。与现有方法不同,该研究关注LLM Agent作为信息中介的角色,分析其选择信息来源的潜在偏见。这种发现对于理解LLM Agent的局限性,以及设计更公平、透明的LLM Agent具有重要意义。
关键设计:论文的关键设计包括: 1. 来源属性控制:在实验数据集中,对信息来源的属性进行控制,例如来源的可信度、声誉等,以便分析LLM Agent对不同来源的偏好。 2. 上下文框架设计:设计不同的上下文框架,例如不同的提示语、不同的任务目标等,以便分析上下文对LLM Agent来源偏好的影响。 3. 偏好评估指标:设计合适的指标,用于评估LLM Agent的来源偏好,例如选择特定来源信息的频率、对特定来源信息的评分等。
📊 实验亮点
实验结果表明,多个LLM Agent表现出强烈且可预测的来源偏好,这些偏好对上下文敏感,甚至可以超越内容本身的影响。即使在明确提示避免的情况下,这些偏好仍然存在。例如,在新闻推荐任务中,LLM Agent表现出对特定政治倾向新闻来源的偏好,这解释了先前研究中观察到的新闻推荐左倾偏差现象。
🎯 应用场景
该研究成果可应用于提升LLM Agent的信息推荐公平性与透明度,例如在新闻推荐、产品推荐等场景中,通过算法干预减少LLM Agent对特定信息来源的偏好,从而为用户提供更客观、全面的信息。同时,该研究也为LLM Agent的设计者提供了重要的参考,有助于开发更值得信赖的AI系统。
📄 摘要(原文)
Agents based on Large Language Models (LLMs) are increasingly being deployed as interfaces to information on online platforms. These agents filter, prioritize, and synthesize information retrieved from the platforms' back-end databases or via web search. In these scenarios, LLM agents govern the information users receive, by drawing users' attention to particular instances of retrieved information at the expense of others. While much prior work has focused on biases in the information LLMs themselves generate, less attention has been paid to the factors that influence what information LLMs select and present to users. We hypothesize that when information is attributed to specific sources (e.g., particular publishers, journals, or platforms), current LLMs exhibit systematic latent source preferences- that is, they prioritize information from some sources over others. Through controlled experiments on twelve LLMs from six model providers, spanning both synthetic and real-world tasks, we find that several models consistently exhibit strong and predictable source preferences. These preferences are sensitive to contextual framing, can outweigh the influence of content itself, and persist despite explicit prompting to avoid them. They also help explain phenomena such as the observed left-leaning skew in news recommendations in prior work. Our findings advocate for deeper investigation into the origins of these preferences, as well as for mechanisms that provide users with transparency and control over the biases guiding LLM-powered agents.