Large Language Model-Powered Query-Driven Event Timeline Summarization in Industrial Search

📄 arXiv: 2605.27066v1 📥 PDF

作者: Mingyue Wang, Xingyu Xie, Hang Yang, Li Gao, Lixin Su, Ge Chen, Dawei Yin, Daiting Shi

分类: cs.CL, cs.IR

发布日期: 2026-05-26

备注: Accepted at KDD 2026

DOI: 10.1145/3770855.3818439


💡 一句话要点

QDET:基于大语言模型的查询驱动事件时间线摘要系统,提升工业搜索效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件时间线摘要 大语言模型 多任务学习 强化学习 工业搜索 信息检索 查询驱动 领域特定优化

📋 核心要点

  1. 现有方法难以从海量噪声数据中提取与查询相关的事件时间线,缺乏针对特定查询的聚焦能力。
  2. QDET通过多任务微调和强化学习,提升模型在时间排序、因果判断和长度约束下的摘要生成能力。
  3. 实验表明,QDET在百度搜索中显著提升了用户点击率、停留时间和探索深度,并能有效迁移到热度预测任务。

📝 摘要(中文)

本文提出了一种名为QDET(Query-Driven Event Timeline Summarization)的查询驱动事件时间线摘要系统,该系统已部署在百度搜索中,用于构建聚焦的事件时间线以解释特定的查询事件。与旨在全面覆盖的传统主题中心方法不同,QDET从每日检索到的数百万文档组成的噪声候选集中识别并组织与查询密切相关的子事件。QDET包含两项关键创新:(1) 通过三个辅助任务(时间排序、因果判断和时间线补全)进行多任务监督微调,使紧凑模型在特定领域中达到与更大的通用模型相当的性能;(2) 基于强化学习的事件简洁摘要,在保持语义质量的同时强制执行严格的长度约束,实现88.2%的长度合规性,并在约束满足方面优于671B规模的模型7.7个百分点。微调后的7B参数模型在时间线摘要上实现了76.2%的F1分数,略微超过了DeepSeek-R1-671B的零样本性能(76.1%的F1),但仅使用了其1%的参数,表明特定领域的优化能够以显著降低的计算成本实现具有可比质量的生产就绪模型。在百度搜索上的在线A/B测试验证了实际效果,与单任务基线相比,点击率提高了5.5%,停留时间延长了4.6%,探索深度增加了4.4%。进一步证明了时间线理解可以转移到热度预测,证实了知识可以有效地转移到下游任务。

🔬 方法详解

问题定义:论文旨在解决工业搜索中,针对特定查询构建精确、简洁的事件时间线摘要的问题。现有方法通常是主题中心,追求全面覆盖,但忽略了与查询的相关性,并且难以从海量噪声数据中提取关键信息。此外,现有模型在生成摘要时,难以满足严格的长度约束,影响用户体验。

核心思路:论文的核心思路是利用大语言模型强大的语义理解能力,通过多任务微调和强化学习,使其能够更好地理解查询意图,从海量数据中提取与查询相关的子事件,并生成满足长度约束的简洁摘要。通过领域特定优化,降低模型参数量,使其更易于部署到生产环境中。

技术框架:QDET系统主要包含以下几个阶段:1) 从海量文档中检索候选事件;2) 利用多任务微调的大语言模型对候选事件进行排序、因果关系判断和时间线补全;3) 使用强化学习对事件进行简洁摘要,确保满足长度约束;4) 将生成的事件时间线摘要展示给用户。

关键创新:论文的关键创新在于:1) 提出了多任务监督微调方法,利用时间排序、因果判断和时间线补全三个辅助任务,提升模型在特定领域的性能,使其能够以较小的参数量达到与大型通用模型相当的效果;2) 提出了基于强化学习的事件简洁摘要方法,能够在严格的长度约束下,保持摘要的语义质量。

关键设计:在多任务微调中,使用了交叉熵损失函数来优化时间排序和因果判断任务,并设计了时间线补全任务来增强模型对事件上下文的理解。在强化学习中,使用了策略梯度算法,并设计了奖励函数来鼓励模型生成满足长度约束且语义相关的摘要。模型选择了7B参数的大语言模型,并进行了领域特定数据的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QDET系统在时间线摘要任务上取得了显著的性能提升。微调后的7B参数模型达到了76.2%的F1分数,略微超过了671B参数的DeepSeek-R1模型的零样本性能(76.1%)。在线A/B测试表明,与单任务基线相比,QDET系统在百度搜索中实现了5.5%的点击率提升,4.6%的停留时间延长,以及4.4%的探索深度增加。此外,该方法还成功迁移到热度预测任务,验证了其知识迁移能力。

🎯 应用场景

该研究成果可广泛应用于搜索引擎、新闻聚合平台等领域,帮助用户快速了解事件的演变过程,提升信息获取效率。此外,该方法还可以应用于舆情分析、风险预警等场景,为决策者提供有价值的参考信息。未来,可以将该方法扩展到其他领域,例如金融、医疗等,构建特定领域的事件时间线摘要系统。

📄 摘要(原文)

Understanding how events evolve over time is essential for search engines handling queries about trending news. We present QDET (Query-Driven Event Timeline Summarization), a production system deployed on Baidu Search that constructs focused event timelines to explain specific query events. Unlike traditional topic-centric approaches that aim for comprehensive coverage, QDET identifies and organizes sub-events closely relevant to the query from noisy candidate sets formed by millions of documents retrieved daily. QDET incorporates two key innovations: (1) multi-task supervised fine-tuning with three auxiliary tasks-temporal ordering, causal judgment, and timeline completion-that enable compact models to match the performance of much larger general-purpose models in specialized domains; (2) reinforcement learning-based event concise summarization that enforces strict length constraints while maintaining semantic quality, achieving 88.2% length compliance and outperforming 671B-scale models by 7.7 points in constraint satisfaction. Our fine-tuned 7B parameter model achieves 76.2% F1 score on timeline summarization, slightly surpassing the zero-shot performance of DeepSeek-R1-671B (76.1% F1) while using only 1% of its parameters-demonstrating that domain-specific optimization enables production-ready models with comparable quality at drastically reduced computational costs. Online A/B tests on Baidu Search validate real-world effectiveness, showing 5.5% CTR improvement, 4.6% longer dwell time, and 4.4% deeper exploration compared to single-task baselines. We further demonstrate that timeline understanding transfers to heat prediction, confirming effective knowledge transfer to downstream tasks.