Aligning Large Language Models with Searcher Preferences
作者: Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong
分类: cs.CL, cs.AI
发布日期: 2026-03-11
💡 一句话要点
提出SearchLLM,用于开放域生成式搜索,提升用户体验并保证安全性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放域搜索 生成式模型 大型语言模型 奖励模型 强化学习 用户体验 信息检索
📋 核心要点
- 现有开放域生成式搜索在噪声检索、安全保证和用户需求对齐方面面临挑战。
- SearchLLM通过分层多维奖励系统,分离底线约束和行为优化目标,提升模型性能。
- 实验表明,SearchLLM提高了生成质量和用户参与度,同时保证了安全性和可靠性。
📝 摘要(中文)
本文介绍SearchLLM,这是首个用于开放域生成式搜索的大型语言模型(LLM)。我们设计了一个分层的、多维度的奖励系统,将包括事实依据、基本答案质量和格式合规性等底线约束,与提升噪声检索鲁棒性和对齐用户需求的行为优化目标分离开来。具体而言,我们的奖励模型评估响应,条件包括用户查询、会话历史和检索到的证据集,结合基于规则的检查和人工校准的LLM评判,生成关于这些维度的可解释的分数向量。我们引入了一种门控聚合策略,以导出训练奖励,用于使用Group Relative Policy Optimization (GRPO)优化SearchLLM。我们在RedNote的AI搜索入口部署了SearchLLM。离线评估和在线A/B测试表明,生成质量和用户参与度有所提高,有效消费率提高了1.03%,重新搜索率降低了2.81%,同时坚持了严格的安全性和可靠性标准。
🔬 方法详解
问题定义:论文旨在解决开放域生成式搜索中,大型语言模型(LLM)如何更好地对齐用户需求、保证事实准确性、并对噪声检索具有鲁棒性的问题。现有方法在这些方面存在不足,尤其是在大型内容平台上部署时,安全性和可靠性是不可妥协的。
核心思路:论文的核心思路是设计一个分层的、多维度的奖励系统,将底线约束(如事实依据、答案质量和格式合规性)与行为优化目标(如噪声检索鲁棒性和用户需求对齐)分离开来。通过这种方式,可以更精细地控制LLM的行为,并确保其满足关键的安全性和可靠性要求。
技术框架:SearchLLM的整体框架包括以下几个主要模块:1) 用户查询和会话历史输入;2) 信息检索模块,检索相关证据;3) LLM生成模块,基于查询、历史和证据生成答案;4) 奖励模型,评估生成答案的质量和合规性;5) 优化模块,使用GRPO算法优化LLM。奖励模型是核心,它接收用户查询、会话历史和检索到的证据集,并输出一个多维度的分数向量。
关键创新:论文的关键创新在于其分层多维奖励系统和门控聚合策略。传统奖励函数通常是单一标量,难以区分不同方面的性能。该奖励系统将奖励分解为多个维度,每个维度对应一个特定的目标(如事实准确性、答案质量、格式合规性等)。门控聚合策略则用于将这些维度上的奖励聚合为一个整体奖励,用于训练LLM。
关键设计:奖励模型的设计是关键。它结合了基于规则的检查和人工校准的LLM评判。基于规则的检查用于确保底线约束得到满足,例如,检查答案是否包含有害信息。人工校准的LLM评判则用于评估答案的质量和用户满意度。GRPO算法用于优化LLM,它是一种基于策略梯度的强化学习算法,可以有效地利用多维奖励信号。
🖼️ 关键图片
📊 实验亮点
在线A/B测试表明,SearchLLM在RedNote的AI搜索入口部署后,有效消费率提高了1.03%,重新搜索率降低了2.81%。这些结果表明,SearchLLM能够显著提升用户体验,并减少用户获取所需信息的时间和精力。同时,该模型也满足了严格的安全性和可靠性标准。
🎯 应用场景
该研究成果可应用于各种开放域生成式搜索场景,例如智能助手、问答系统和搜索引擎。通过提升生成质量、用户参与度和安全性,可以改善用户体验,并为用户提供更可靠的信息服务。未来,该技术有望扩展到更多领域,例如内容创作和教育。
📄 摘要(原文)
The paradigm shift from item-centric ranking to answer-centric synthesis is redefining the role of search engines. While recent industrial progress has applied generative techniques to closed-set item ranking in e-commerce, research and deployment of open-ended generative search on large content platforms remain limited. This setting introduces challenges, including robustness to noisy retrieval, non-negotiable safety guarantees, and alignment with diverse user needs. In this work, we introduce SearchLLM, the first large language model (LLM) for open-ended generative search. We design a hierarchical, multi-dimensional reward system that separates bottom-line constraints, including factual grounding, basic answer quality and format compliance, from behavior optimization objectives that promote robustness to noisy retrieval and alignment with user needs. Concretely, our reward model evaluates responses conditioned on the user query, session history, and retrieved evidence set, combining rule-based checks with human-calibrated LLM judges to produce an interpretable score vector over these dimensions. We introduce a Gated Aggregation Strategy to derive the training reward for optimizing SearchLLM with Group Relative Policy Optimization (GRPO). We deploy SearchLLM in the AI search entry of RedNote. Offline evaluations and online A/B tests show improved generation quality and user engagement, increasing Valid Consumption Rate by 1.03% and reducing Re-search Rate by 2.81%, while upholding strict safety and reliability standards.