QExplorer: Large Language Model Based Query Extraction for Toxic Content Exploration

📄 arXiv: 2502.18480v1 📥 PDF

作者: Shaola Ren, Li Ke, Longtao Huang, Dehong Gao, Hui Xue

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-02-06


💡 一句话要点

QExplorer:基于大语言模型的查询提取方法,用于探索有害内容

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 查询提取 有害内容检测 指令微调 偏好对齐 信息检索 直接偏好优化

📋 核心要点

  1. 有害内容探索中,自动提取有效查询面临挑战,现有方法难以应对伪装性强的有害内容。
  2. QExplorer利用大语言模型生成能力,通过指令微调和偏好对齐,直接提取有效查询。
  3. 离线实验表明QExplorer优于其他LLM和人工,在线部署显著提升了有害内容检测率。

📝 摘要(中文)

在信息检索中,自动提取有效的查询具有挑战性,尤其是在探索有害内容时,因为此类内容可能经过伪装。 鉴于生成式大语言模型(LLM)的最新进展,我们能够利用LLM的能力直接提取用于相似内容探索的有效查询。 本研究提出了一种基于大语言模型的查询提取方法QExplorer,用于探索有害内容。 QExplorer方法包括一个两阶段的训练过程:指令监督微调(SFT)和使用直接偏好优化(DPO)的偏好对齐,以及利用搜索系统反馈的数据集构建。 为了验证QExplorer的有效性,我们在真实系统中进行了一系列离线和在线实验。 离线实验结果表明,我们的自动查询提取性能优于几种LLM和人工。 在线部署显示有害项目的检测显着增加。

🔬 方法详解

问题定义:论文旨在解决有害内容探索中,自动提取有效查询的问题。现有方法难以应对有害内容伪装性强、难以直接检索的痛点,导致检索效果不佳。人工构建查询成本高昂且效率低下。

核心思路:论文的核心思路是利用大语言模型(LLM)的生成能力,直接从给定的有害内容样本中提取出更有效的查询语句。通过训练LLM,使其能够理解有害内容的特征,并生成能够准确描述这些特征的查询,从而提高有害内容检索的准确率和召回率。

技术框架:QExplorer方法包含两个主要阶段:指令监督微调(SFT)和直接偏好优化(DPO)。首先,使用指令数据对LLM进行SFT,使其具备生成查询的基本能力。然后,利用搜索系统的反馈数据,使用DPO算法对LLM进行偏好对齐,使其生成的查询更符合实际搜索需求,从而提高检索效果。同时,论文还涉及数据集的构建,该数据集包含了搜索系统的反馈信息,用于DPO训练。

关键创新:QExplorer的关键创新在于将大语言模型应用于有害内容查询提取任务,并结合搜索系统的反馈信息进行优化。与传统的基于规则或人工设计的查询提取方法相比,QExplorer能够自动学习有害内容的特征,并生成更具表达力和泛化能力的查询。此外,DPO算法的使用使得模型能够更好地对齐搜索系统的偏好,从而提高检索效果。

关键设计:在SFT阶段,使用了指令数据集对LLM进行微调,指令包括有害内容样本和对应的查询语句。在DPO阶段,使用了搜索系统的点击数据作为偏好信号,通过最大化用户点击的查询的概率,来优化LLM的生成策略。具体损失函数未知,但DPO通常涉及对两个模型的输出进行比较,并根据偏好数据调整模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

离线实验结果表明,QExplorer的自动查询提取性能优于其他LLM和人工构建的查询。在线部署结果显示,QExplorer显著提高了有害内容的检测率,具体提升幅度未知。这些结果表明QExplorer在实际应用中具有显著的优势。

🎯 应用场景

QExplorer可应用于各种有害内容检测和过滤系统,例如社交媒体平台、搜索引擎、在线论坛等。通过自动提取有效查询,可以提高有害内容的检测效率和准确率,减少人工审核成本,维护网络环境的健康和安全。未来,该技术还可以扩展到其他信息检索领域,例如恶意软件检测、欺诈检测等。

📄 摘要(原文)

Automatically extracting effective queries is challenging in information retrieval, especially in toxic content exploration, as such content is likely to be disguised. With the recent achievements in generative Large Language Model (LLM), we are able to leverage the capabilities of LLMs to extract effective queries for similar content exploration directly. This study proposes QExplorer, an approach of large language model based Query Extraction for toxic content Exploration. The QExplorer approach involves a 2-stage training process: instruction Supervised FineTuning (SFT) and preference alignment using Direct Preference Optimization (DPO), as well as the datasets construction with feedback of search system. To verify the effectiveness of QExplorer, a series of offline and online experiments are conducted on our real-world system. The offline empirical results demonstrate that the performance of our automatic query extraction outperforms that of several LLMs and humans. The online deployment shows a significant increase in the detection of toxic items.