"This Suits You the Best": Query Focused Comparative Explainable Summarization

📄 arXiv: 2507.04733v1 📥 PDF

作者: Arnav Attri, Anuj Attri, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Muthusamy Chelliah, Nikesh Garera

分类: cs.CL, cs.IR

发布日期: 2025-07-07


💡 一句话要点

提出查询聚焦的比较型可解释摘要生成方法,并构建MS-Q2P数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 查询聚焦摘要 比较型摘要 可解释性 多源意见摘要 大型语言模型 产品推荐 MS-Q2P数据集

📋 核心要点

  1. 传统意见摘要缺乏整体的比较视角,无法满足产品推荐中固有的比较需求。
  2. 利用多源意见摘要(M-OS)生成查询聚焦的比较型可解释摘要(QF-CES)。
  3. 构建MS-Q2P数据集,并使用QF-CES-PROMPT评估指标,实验结果与人类判断具有较高相关性。

📝 摘要(中文)

本文提出了一种新的任务:生成查询聚焦的比较型可解释摘要(QF-CES),该任务利用多源意见摘要(M-OS)。为了解决缺乏查询聚焦的推荐数据集的问题,我们引入了MS-Q2P数据集,它包含7500个查询,映射到22500个带有元数据的推荐产品。我们利用大型语言模型(LLM)生成带有查询特定解释的表格比较摘要。我们的方法是个性化的、保护隐私的、与推荐引擎无关的,并且与类别无关。与直接输入方法(DIA)相比,M-OS作为中间步骤将推理延迟降低了约40%,DIA直接处理原始数据。我们评估了开源和专有的LLM,用于生成和评估QF-CES。使用QF-CES-PROMPT在5个维度(清晰度、忠实度、信息量、格式一致性和查询相关性)进行的广泛评估表明,与人类判断的平均Spearman相关性为0.74,表明其具有QF-CES评估的潜力。

🔬 方法详解

问题定义:论文旨在解决产品推荐场景下,传统意见摘要无法提供全面比较信息的问题。现有方法要么缺乏针对特定查询的聚焦能力,要么难以提供可解释的比较结果,导致用户难以做出明智的决策。此外,缺乏高质量的、查询聚焦的推荐数据集也限制了相关研究的进展。

核心思路:论文的核心思路是利用多源意见摘要(M-OS)作为中间步骤,先对多个来源的意见进行整合,然后基于整合后的摘要生成查询聚焦的比较型可解释摘要(QF-CES)。这种方法能够降低推理延迟,并提高摘要的质量和可解释性。同时,论文构建了MS-Q2P数据集,为相关研究提供了数据基础。

技术框架:整体框架包含以下几个主要阶段:1) 数据收集与处理:收集多个来源的产品评论和元数据,并进行预处理。2) 多源意见摘要(M-OS):利用LLM对收集到的意见进行摘要,生成简洁的意见总结。3) 查询聚焦的比较型可解释摘要(QF-CES)生成:基于用户查询和M-OS,利用LLM生成表格形式的比较摘要,并提供查询相关的解释。4) 评估:使用QF-CES-PROMPT评估生成的摘要的质量。

关键创新:论文的关键创新在于提出了QF-CES任务,并设计了基于M-OS的解决方案。与直接输入方法(DIA)相比,M-OS能够显著降低推理延迟。此外,QF-CES-PROMPT评估指标能够有效评估摘要的多个维度,并与人类判断具有较高的一致性。MS-Q2P数据集的构建也为该领域的研究提供了重要资源。

关键设计:论文使用了LLM作为核心的摘要生成器,并针对QF-CES任务进行了微调。M-OS阶段的具体实现方式未知,但推测使用了某种形式的摘要模型。QF-CES-PROMPT评估指标包含清晰度、忠实度、信息量、格式一致性和查询相关性五个维度,具体计算方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用M-OS作为中间步骤,推理延迟降低了约40%,表明了其效率优势。QF-CES-PROMPT评估指标与人类判断的平均Spearman相关性为0.74,验证了其有效性。这些结果表明,该方法在生成高质量的查询聚焦的比较型可解释摘要方面具有潜力。

🎯 应用场景

该研究成果可应用于电商平台、产品评测网站等场景,为用户提供更全面、可解释的产品比较信息,辅助用户进行决策。未来,该方法可以扩展到其他需要比较的领域,例如医疗诊断、金融投资等,具有广阔的应用前景。

📄 摘要(原文)

Product recommendations inherently involve comparisons, yet traditional opinion summarization often fails to provide holistic comparative insights. We propose the novel task of generating Query-Focused Comparative Explainable Summaries (QF-CES) using Multi-Source Opinion Summarization (M-OS). To address the lack of query-focused recommendation datasets, we introduce MS-Q2P, comprising 7,500 queries mapped to 22,500 recommended products with metadata. We leverage Large Language Models (LLMs) to generate tabular comparative summaries with query-specific explanations. Our approach is personalized, privacy-preserving, recommendation engine-agnostic, and category-agnostic. M-OS as an intermediate step reduces inference latency approximately by 40% compared to the direct input approach (DIA), which processes raw data directly. We evaluate open-source and proprietary LLMs for generating and assessing QF-CES. Extensive evaluations using QF-CES-PROMPT across 5 dimensions (clarity, faithfulness, informativeness, format adherence, and query relevance) showed an average Spearman correlation of 0.74 with human judgments, indicating its potential for QF-CES evaluation.