SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

📄 arXiv: 2602.21136v1 📥 PDF

作者: David Anugraha, Vishakh Padmakumar, Diyi Yang

分类: cs.HC, cs.AI, cs.CY

发布日期: 2026-02-24

🔗 代码/项目: GITHUB


💡 一句话要点

SparkMe:自适应半结构化访谈,利用多智能体LLM进行定性洞察发现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自适应访谈 半结构化访谈 大型语言模型 多智能体系统 定性研究

📋 核心要点

  1. 现有LLM访谈系统缺乏平衡主题覆盖与自适应探索的机制,难以深入挖掘对话中涌现的新主题。
  2. SparkMe将自适应访谈建模为优化问题,通过多智能体LLM进行模拟对话规划,选择预期效用高的提问。
  3. 实验表明,SparkMe在主题覆盖率和新兴见解挖掘方面优于现有方法,且对话轮次更少,用户研究也验证了其有效性。

📝 摘要(中文)

从用户体验中获得的定性洞察对于产品和政策决策至关重要,但大规模收集此类数据受到专家进行半结构化访谈的时间和可用性的限制。最近的研究探索了使用大型语言模型(LLM)来自动化访谈,但现有系统缺乏一种原则性的机制来平衡预定义主题的系统覆盖与自适应探索,或者追求在对话过程中自然出现的后续、深入研究和新兴主题的能力。在这项工作中,我们将自适应半结构化访谈定义为对访谈者行为的优化问题。我们将访谈效用定义为预定义的访谈主题指南的覆盖、相关新兴主题的发现以及以长度衡量的访谈成本之间的权衡。基于此,我们引入了SparkMe,一种多智能体LLM访谈者,它通过模拟对话推演执行审议规划,以选择具有高预期效用的问题。我们通过基于LLM的受访者的受控实验评估了SparkMe,结果表明它实现了更高的访谈效用,提高了主题指南覆盖率(比最佳基线高+4.7%),并引出了更丰富的新兴见解,同时使用的对话轮次比以前的LLM访谈方法更少。我们还在一项用户研究中验证了SparkMe,该研究涉及70名参与者,涵盖7个职业,研究了AI对其工作流程的影响。领域专家认为SparkMe产生了高质量的自适应访谈,揭示了先前方法未捕获的有助于特定职业的见解。SparkMe的代码、数据集和评估协议可在https://github.com/SALT-NLP/SparkMe上作为开源软件获得。

🔬 方法详解

问题定义:现有基于LLM的访谈系统难以兼顾预定义主题的全面覆盖和对话过程中自发涌现的新兴主题的深入探索。它们缺乏一种有效的机制,在系统性地遵循访谈指南的同时,能够灵活地根据受访者的回答进行调整,从而可能遗漏重要的、未预料到的信息。

核心思路:SparkMe的核心思路是将自适应半结构化访谈过程建模为一个优化问题,目标是最大化访谈的效用。访谈效用被定义为三个因素的权衡:预定义主题指南的覆盖程度、相关新兴主题的发现以及访谈的成本(即对话轮次)。通过优化访谈者的行为,SparkMe旨在找到一种策略,既能保证对预定主题的充分探讨,又能灵活地捕捉和深入挖掘对话中出现的有价值的新信息。

技术框架:SparkMe采用多智能体LLM架构。它包含一个访谈者智能体和一个或多个受访者智能体。访谈者智能体负责根据当前对话状态和预定义的访谈目标,选择下一个要提出的问题。它通过模拟对话推演(simulated conversation rollouts)来评估不同问题的潜在效用。具体来说,访谈者智能体会模拟与受访者智能体进行多次对话,每次对话都基于不同的问题。然后,它会根据模拟对话的结果,评估每个问题的预期效用,并选择效用最高的那个问题。

关键创新:SparkMe的关键创新在于其将自适应半结构化访谈建模为一个优化问题,并采用多智能体LLM架构进行求解。与现有方法相比,SparkMe能够更有效地平衡主题覆盖和自适应探索,从而获得更丰富、更全面的访谈结果。此外,SparkMe的模拟对话推演机制允许它在实际提问之前,预先评估不同问题的潜在效用,从而做出更明智的决策。

关键设计:SparkMe的关键设计包括:(1) 访谈效用的定义,它将主题覆盖、新兴主题发现和访谈成本纳入考虑;(2) 多智能体LLM架构,它允许进行模拟对话推演;(3) 模拟对话推演机制,它通过多次模拟对话来评估不同问题的潜在效用;(4) 问题选择策略,它根据模拟对话的结果,选择预期效用最高的问题。

📊 实验亮点

在与LLM受访者的受控实验中,SparkMe在主题指南覆盖率上比最佳基线提高了4.7%,并能引出更丰富的新兴见解。在包含70名参与者的用户研究中,领域专家认为SparkMe产生了高质量的自适应访谈,揭示了先前方法未捕获的特定职业见解。这些结果表明,SparkMe能够有效地提高访谈的质量和效率。

🎯 应用场景

SparkMe可应用于各种需要收集用户定性反馈的场景,例如产品设计、政策制定、用户研究等。它可以帮助研究人员和决策者更高效、更全面地了解用户需求和体验,从而做出更明智的决策。未来,SparkMe可以扩展到更复杂的访谈场景,例如多方访谈、跨文化访谈等。

📄 摘要(原文)

Qualitative insights from user experiences are critical for informing product and policy decisions, but collecting such data at scale is constrained by the time and availability of experts to conduct semi-structured interviews. Recent work has explored using large language models (LLMs) to automate interviewing, yet existing systems lack a principled mechanism for balancing systematic coverage of predefined topics with adaptive exploration, or the ability to pursue follow-ups, deep dives, and emergent themes that arise organically during conversation. In this work, we formulate adaptive semi-structured interviewing as an optimization problem over the interviewer's behavior. We define interview utility as a trade-off between coverage of a predefined interview topic guide, discovery of relevant emergent themes, and interview cost measured by length. Based on this formulation, we introduce SparkMe, a multi-agent LLM interviewer that performs deliberative planning via simulated conversation rollouts to select questions with high expected utility. We evaluate SparkMe through controlled experiments with LLM-based interviewees, showing that it achieves higher interview utility, improving topic guide coverage (+4.7% over the best baseline) and eliciting richer emergent insights while using fewer conversational turns than prior LLM interviewing approaches. We further validate SparkMe in a user study with 70 participants across 7 professions on the impact of AI on their workflows. Domain experts rate SparkMe as producing high-quality adaptive interviews that surface helpful profession-specific insights not captured by prior approaches. The code, datasets, and evaluation protocols for SparkMe are available as open-source at https://github.com/SALT-NLP/SparkMe.