DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition

📄 arXiv: 2507.18802v1 📥 PDF

作者: Danqing Shi, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, Mennatallah El-Assady

分类: cs.HC, cs.AI

发布日期: 2025-07-24

DOI: 10.1145/3746059.3747600


💡 一句话要点

DxHF:通过交互式分解提供高质量人类反馈,用于LLM对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 大型语言模型 人类反馈 强化学习 文本分解 用户界面 LLM对齐

📋 核心要点

  1. 现有LLM对齐方法依赖人工反馈,但直接比较长文本认知负担重,影响反馈质量。
  2. DxHF通过分解文本为独立声明,并可视化展示相关性,辅助用户快速识别关键差异。
  3. 实验表明,DxHF能提升反馈准确率,尤其在用户不确定时效果显著,但会略微增加反馈时间。

📝 摘要(中文)

为了对齐大型语言模型(LLM),人类偏好被广泛应用于强化学习等方法中。然而,当前的用户界面要求标注者比较文本段落,当文本较长或不熟悉时,这在认知上具有挑战性。本文研究了分解原则,旨在提高LLM对齐过程中人类反馈的质量。该方法将文本分解为单独的声明,而不是直接比较两个长文本回复。基于此,我们构建了一个新颖的用户界面DxHF,它通过显示分解后的声明、可视化编码声明与对话的相关性以及链接相似的声明来增强比较过程,使用户能够浏览关键信息并识别差异,从而做出更好、更快的判断。技术评估表明,分解通常可以提高反馈的准确性,特别是对于不确定的用户。一项包含160名参与者的众包研究表明,使用DxHF可将反馈准确率平均提高5%,但平均反馈时间增加18秒。值得注意的是,在用户不太确定的情况下,准确率明显更高。该研究结果突出了人机交互作为提高人机对齐有效方法的潜力。

🔬 方法详解

问题定义:现有基于人类反馈的LLM对齐方法,通常需要标注者直接比较两个长文本段落,判断哪个更符合人类偏好。这种方式在文本较长、内容复杂或标注者不熟悉的情况下,会造成认知负担,降低反馈质量,影响LLM的对齐效果。标注者难以快速抓住重点,容易产生偏差。

核心思路:论文的核心思路是将长文本分解为更小的、独立的声明(claims),通过比较这些声明来辅助人类进行判断。这种分解降低了认知复杂度,使标注者能够更专注于关键信息,从而提高反馈的准确性和效率。同时,通过可视化编码声明与对话的相关性,进一步提升了用户体验。

技术框架:DxHF用户界面是该方法的技术框架核心。它包含以下主要模块:1) 文本分解模块:将LLM生成的长文本回复分解为多个独立的声明。2) 声明展示模块:以清晰的方式呈现分解后的声明,方便用户浏览。3) 相关性编码模块:通过颜色、位置等视觉元素编码声明与对话上下文的相关性。4) 相似声明链接模块:将语义相似的声明进行链接,帮助用户快速识别重复或矛盾的信息。5) 比较和反馈模块:允许用户对分解后的声明进行比较和排序,并提供最终的反馈。

关键创新:该论文的关键创新在于将分解原则引入到LLM对齐的人工反馈过程中。与直接比较长文本的方法相比,DxHF通过分解降低了认知负担,提高了反馈的准确性。此外,DxHF的用户界面设计,包括相关性编码和相似声明链接,也进一步提升了用户体验。

关键设计:论文中未明确给出文本分解的具体算法或策略,以及相关性编码的具体方式。这些可能是依赖于特定LLM和任务的,需要根据实际情况进行调整。用户界面设计方面,颜色编码、链接方式等细节对用户体验至关重要,需要进行充分的可用性测试和优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用DxHF可以将反馈准确率平均提高5%,尤其是在用户不太确定的情况下,准确率提升更为显著。虽然使用DxHF会增加平均反馈时间18秒,但考虑到准确率的提升,总体而言是值得的。这些数据表明,通过优化人机交互界面,可以有效提高LLM对齐的效率和质量。

🎯 应用场景

该研究成果可应用于各种需要人工反馈来对齐LLM的场景,例如对话系统、文本生成、问答系统等。通过提高反馈质量,可以更有效地训练LLM,使其更好地符合人类偏好,从而提升用户体验。未来,该方法可以扩展到其他需要人工参与的AI系统中,例如机器人控制、图像标注等。

📄 摘要(原文)

Human preferences are widely used to align large language models (LLMs) through methods such as reinforcement learning from human feedback (RLHF). However, the current user interfaces require annotators to compare text paragraphs, which is cognitively challenging when the texts are long or unfamiliar. This paper contributes by studying the decomposition principle as an approach to improving the quality of human feedback for LLM alignment. This approach breaks down the text into individual claims instead of directly comparing two long-form text responses. Based on the principle, we build a novel user interface DxHF. It enhances the comparison process by showing decomposed claims, visually encoding the relevance of claims to the conversation and linking similar claims. This allows users to skim through key information and identify differences for better and quicker judgment. Our technical evaluation shows evidence that decomposition generally improves feedback accuracy regarding the ground truth, particularly for users with uncertainty. A crowdsourcing study with 160 participants indicates that using DxHF improves feedback accuracy by an average of 5%, although it increases the average feedback time by 18 seconds. Notably, accuracy is significantly higher in situations where users have less certainty. The finding of the study highlights the potential of HCI as an effective method for improving human-AI alignment.