Neither Replacement nor Panacea: Comparing LLM-Based Conversational and Graphical Decision Support in Industrial Tasks

📄 arXiv: 2605.31287v1 📥 PDF

作者: Roberto Figliè, Simone Caputo, Alan Serrano, Daria Mikhaylova, Tommaso Turchi, Daniele Mazzei

分类: cs.CY, cs.AI, cs.HC

发布日期: 2026-05-29


💡 一句话要点

对比LLM对话式与图形化决策支持在工业任务中的应用,发现其各有优劣。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业决策支持 大型语言模型 对话式用户界面 仪表盘 人机交互

📋 核心要点

  1. 现有工业决策支持系统面临数据量大、复杂性高的问题,难以高效提取关键信息。
  2. 论文对比了基于LLM的对话式用户界面(CUI)和传统仪表盘在决策支持中的效果。
  3. 实验表明,CUI在简单任务中降低了心理负荷和完成时间,但在复杂任务中优势减弱。

📝 摘要(中文)

制造业管理者依赖数字界面来解读运营数据以进行决策,但日益增长的数据量和复杂性使得有效识别相关见解变得困难。虽然仪表盘在工业环境中仍然占据主导地位,但基于大型语言模型(LLM)的对话式代理(CA),通过对话式用户界面(CUI)访问,可能提供更直接的数据访问方式。然而,它们的有效性可能取决于任务的信息处理需求。本研究在制造决策支持场景中,比较了通过CUI提供的基于LLM的CA与仪表盘。在一个2x3混合析因实验中,134名工业决策者被分配到一种界面条件,并完成了三个复杂度递增的任务。我们考察了感知到的心理负荷(MWL)、决策准确性、完成时间和预期依赖性,并测试了自我报告的数据素养作为调节变量。结果表明,CUI总体上降低了感知到的MWL,并支持在不太苛刻的任务中更快地完成,但随着任务复杂性的增加,这两种优势都减弱了。两种界面在决策准确性方面都没有产生一致的总体优势,并且CUI不被首选作为后续决策的唯一依据。此外,数据素养并没有可靠地调节界面效果。这些发现表明,对话式交互为工业决策支持提供了有条件的而非普遍的益处。基于LLM的CA可以减少信息访问工作量,而复杂的决策仍然受益于持久的、可检查的可视化表示。

🔬 方法详解

问题定义:论文旨在解决工业决策支持中,如何更有效地利用日益增长的运营数据进行决策的问题。现有方法,如仪表盘,虽然应用广泛,但在处理复杂数据时,用户需要花费大量精力筛选和整合信息,效率较低。基于LLM的对话式代理(CA)被认为是潜在的替代方案,但其在不同复杂程度任务中的表现尚不明确。

核心思路:论文的核心思路是通过实验对比基于LLM的CA和传统仪表盘在不同复杂程度的工业决策任务中的表现,评估它们在心理负荷、决策准确性、完成时间和用户偏好等方面的优劣。通过量化分析,揭示CA在何种情况下能够提供优于仪表盘的决策支持。

技术框架:该研究采用混合析因实验设计,包含一个2x3的实验组。自变量是界面类型(CUI vs. 仪表盘)和任务复杂度(三个等级)。因变量包括:感知到的心理负荷(MWL)、决策准确性、完成时间和预期依赖性。此外,数据素养被作为调节变量进行分析。实验过程中,134名工业决策者被随机分配到不同的界面条件,并完成三个不同复杂度的任务。

关键创新:该研究的关键创新在于,它首次系统地比较了基于LLM的对话式代理和传统仪表盘在工业决策支持中的效果,并考虑了任务复杂度和用户数据素养的影响。研究结果表明,CA并非万能的解决方案,其优势具有条件性,在简单任务中表现更好,而在复杂任务中则不如仪表盘。

关键设计:实验设计的关键在于任务复杂度的控制和心理负荷的测量。任务复杂度通过精心设计的问题情境来控制,确保不同任务在信息处理需求上存在显著差异。心理负荷采用标准化的量表进行测量,以确保数据的可靠性和可比性。此外,数据素养的测量采用自我报告的方式,并将其作为调节变量进行分析,以探究其对界面效果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在低复杂度任务中,CUI显著降低了用户的心理负荷,并缩短了完成时间。然而,随着任务复杂度的增加,CUI的这些优势逐渐消失。在决策准确性方面,两种界面没有显著差异。用户在后续决策中,更倾向于结合多种信息来源,而非仅仅依赖CUI。

🎯 应用场景

该研究成果可应用于工业决策支持系统的设计与优化。企业可以根据任务的复杂程度和用户的数据素养,选择合适的界面类型(对话式或图形化)或混合使用,以提高决策效率和准确性。此外,该研究也为LLM在工业领域的应用提供了参考。

📄 摘要(原文)

Managers in manufacturing settings rely on digital interfaces to interpret operational data for decision-making, but growing data volume and complexity can make relevant insights difficult to identify efficiently. While dashboards remain dominant in industrial contexts, Large Language Model (LLM)-based conversational agents (CAs), accessed through conversational user interfaces (CUIs), may provide more direct access to such data. However, their effectiveness may depend on the information-processing demands of the task. This study compares an LLM-based CA delivered through a CUI with a dashboard in a manufacturing decision-support scenario. In a mixed factorial experiment with a 2x3 design, 134 industrial decision-makers were assigned to one interface condition and completed three tasks of increasing complexity. We examined perceived Mental Workload (MWL), decision accuracy, completion time, and intended reliance, and tested self-reported data literacy as a moderator. Results showed that the CUI reduced perceived MWL overall and supported faster completion in less demanding tasks, but both advantages diminished as task complexity increased. Neither interface produced a consistent overall advantage in decision accuracy, and the CUI was not preferred as a sole basis for subsequent decisions. Furthermore, data literacy did not reliably moderate interface effects. These findings indicate that conversational interaction offers conditional rather than universal benefits for industrial decision support. LLM-based CAs may reduce information-access effort, whereas complex decisions continue to benefit from persistent, inspectable visual representations.