Asking What Matters: Reward-Driven Clarification for Software Engineering Tasks
作者: Sanidhya Vijayvargiya, Vijay Viswanathan, Graham Neubig
分类: cs.SE, cs.AI
发布日期: 2026-04-16
备注: 28 pages, 6 figures
💡 一句话要点
提出CLARITI,通过奖励驱动的澄清问题生成,提升软件工程任务效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 软件工程 任务澄清 强化学习 Shapley值 用户可回答性 自然语言处理 人机协作
📋 核心要点
- 软件工程任务中,任务描述不完整导致助手需要澄清,但现有方法难以区分信息价值和用户可回答性。
- 论文提出CLARITI,利用Shapley值和分布比较,量化任务相关性和用户可回答性,作为强化学习的奖励信号。
- 实验表明,CLARITI在问题解决率上与GPT-5相当,但问题生成数量减少41%,提升了澄清效率。
📝 摘要(中文)
人类通常不完整地指定任务,因此助手必须知道何时以及如何提出澄清问题。然而,在软件工程任务中,有效的澄清仍然具有挑战性,因为并非所有缺失的信息都具有同等价值,并且问题必须针对用户可以实际提供的信息。我们通过量化哪些类型的信息最影响任务成功以及哪些问题能从模拟用户那里获得有用的响应,来研究真实软件工程任务中的澄清。使用Shapley属性和分布比较,我们确定了有效澄清的两个关键属性:任务相关性(哪些信息预测成功)和用户可回答性(用户可以实际提供什么)。我们将这些属性作为多阶段强化学习奖励来训练CLARITI,一个80亿参数的澄清模块,它在未明确指定的问题上匹配GPT-5的解决率,同时生成的问题减少了41%。我们的结果表明,将奖励设计建立在信息影响和用户可回答性的实证分析基础上,可以提高澄清效率。
🔬 方法详解
问题定义:论文旨在解决软件工程任务中,由于任务描述不完整,助手需要通过提问进行澄清的问题。现有方法的痛点在于,无法有效区分不同信息的价值,以及用户是否能够提供相关信息,导致提问效率低下,甚至影响任务完成。
核心思路:论文的核心思路是将澄清过程建模为强化学习问题,并设计奖励函数来引导模型学习。奖励函数的设计基于两个关键属性:任务相关性(哪些信息对任务成功至关重要)和用户可回答性(用户能够实际提供哪些信息)。通过学习最大化这两个属性,模型能够更有效地提出澄清问题。
技术框架:CLARITI的整体框架是一个多阶段强化学习过程。首先,模型接收到不完整的任务描述。然后,模型生成一个澄清问题。接下来,模拟用户根据问题提供答案。最后,模型根据任务完成情况和问题质量获得奖励,并更新策略。这个过程不断迭代,直到模型学会提出有效的澄清问题。
关键创新:论文最重要的技术创新点在于将任务相关性和用户可回答性融入到强化学习的奖励函数设计中。具体来说,论文使用Shapley值来衡量不同信息对任务成功的贡献,并使用分布比较来评估用户提供答案的可能性。这种方法能够更准确地评估问题的价值,从而引导模型学习更有效的澄清策略。
关键设计:CLARITI是一个80亿参数的澄清模块,使用多阶段强化学习进行训练。奖励函数包括任务完成奖励、问题相关性奖励和用户可回答性奖励。问题相关性奖励基于Shapley值计算,用户可回答性奖励基于用户回答分布计算。具体网络结构和参数设置在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLARITI在未明确指定的问题上,问题解决率与GPT-5相当,同时生成的问题数量减少了41%。这表明CLARITI能够更有效地进行任务澄清,减少不必要的提问,显著提升了澄清效率。
🎯 应用场景
该研究成果可应用于智能软件开发助手、自动化代码审查、需求分析等领域。通过更有效地进行任务澄清,可以减少人工干预,提高软件开发效率和质量。未来,该技术有望扩展到其他需要人机协作的任务型场景。
📄 摘要(原文)
Humans often specify tasks incompletely, so assistants must know when and how to ask clarifying questions. However, effective clarification remains challenging in software engineering tasks as not all missing information is equally valuable, and questions must target information users can realistically provide. We study clarification in real software engineering tasks by quantifying which types of information most affect task success and which questions elicit useful responses from simulated users. Using Shapley attribution and distributional comparisons, we identify two key properties of effective clarification: task relevance (which information predicts success) and user answerability (what users can realistically provide). We operationalize these properties as multi-stage reinforcement learning rewards to train CLARITI, an 8B-parameter clarification module, that matches GPT-5's resolution rate on underspecified issues while generating 41% fewer questions. Our results suggest that grounding reward design in empirical analysis of information impact and user answerability improves clarification efficiency.