Mind the Gap! Choice Independence in Using Multilingual LLMs for Persuasive Co-Writing Tasks in Different Languages

📄 arXiv: 2502.09532v1 📥 PDF

作者: Shreyan Biswas, Alexander Erlei, Ujwal Gadiraju

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-02-13


💡 一句话要点

多语言LLM用于广告文案写作时,用户选择独立性受损,影响捐赠意愿

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 选择独立性 写作辅助 广告文案 用户认知

📋 核心要点

  1. 多语言LLM在不同语言上的性能差异显著,导致用户在多语言写作任务中面临质量不一致的问题。
  2. 研究分析了用户在使用LLM写作助手时,是否会因其在其他语言上的表现而影响其选择独立性。
  3. 实验表明,用户对LLM的先前经验会影响后续使用,且对广告来源的认知会影响捐赠意愿。

📝 摘要(中文)

生成式AI的最新进展催生了大量新型写作助手。这些系统通常依赖于多语言大型语言模型(LLM),使全球化工作者能够以不同语言修改或创建各种形式的内容。然而,有大量证据表明,多语言LLM的性能因语言而异。因此,使用写作助手处理多种语言的用户容易受到不同输出质量的影响。重要的是,最近的研究表明,人们倾向于将算法错误推广到独立任务中,违反了选择独立性的行为准则。在本文中,我们分析了用户在慈善广告写作任务中使用新型写作助手是否受到AI在第二语言中的表现的影响。此外,我们量化了这些模式在多大程度上转化为生成的慈善广告的说服力,以及人们对LLM利用的信念在他们的捐赠选择中的作用。我们的结果表明,使用基于LLM的写作助手的作者违反了选择独立性,因为先前接触过西班牙语LLM会减少后续对英语LLM的使用。虽然这些模式不会影响生成的广告的总体说服力,但人们对广告来源(人类与AI)的看法会产生影响。特别是,认为自己阅读了AI生成的广告的西班牙语女性参与者强烈地向下调整了她们的捐赠行为。此外,人们通常无法充分区分人类生成的广告和LLM生成的广告。我们的工作对多语言LLM作为辅助代理的设计、开发、集成和采用具有重要意义——尤其是在写作任务中。

🔬 方法详解

问题定义:论文旨在研究在使用多语言LLM进行写作辅助时,用户是否会因为LLM在一种语言上的表现而影响其在另一种语言上的使用决策,即违反选择独立性。现有研究表明LLM在不同语言上的表现存在差异,这可能导致用户对LLM的信任度产生偏差,从而影响其后续使用行为。

核心思路:论文的核心思路是探究用户在使用多语言LLM进行慈善广告文案写作时,如果先使用表现较差的语言(如西班牙语)的LLM,是否会影响其后续使用表现较好的语言(如英语)的LLM的意愿和效果。通过实验分析用户对不同语言LLM的信任度,以及这种信任度如何影响其对广告文案的修改和最终的捐赠意愿。

技术框架:论文采用实验研究方法,招募参与者进行慈善广告文案写作任务。参与者首先使用一种语言(西班牙语或英语)的LLM写作助手生成文案,然后使用另一种语言的LLM写作助手进行修改。实验过程中,研究人员记录参与者对LLM的使用情况、对文案的修改行为以及最终的捐赠意愿。此外,研究人员还收集了参与者对LLM的信任度、对广告来源的认知等信息。

关键创新:论文的关键创新在于将行为经济学中的选择独立性概念引入到多语言LLM的使用研究中,揭示了用户在使用多语言LLM时可能存在的认知偏差。此外,论文还探讨了用户对LLM的信任度、对广告来源的认知等因素如何影响其对LLM的使用和最终的决策行为。

关键设计:实验设计中,关键在于控制变量,确保参与者在不同语言LLM之间的体验差异是唯一的变量。此外,研究人员还设计了问卷调查,用于收集参与者对LLM的信任度、对广告来源的认知等信息。捐赠意愿的衡量采用标准化的捐赠量表,确保数据的可靠性和可比性。具体参数设置和损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,用户在使用西班牙语LLM后,会降低对英语LLM的使用意愿,违反了选择独立性。虽然LLM的使用模式对广告的总体说服力没有显著影响,但用户对广告来源的认知会影响其捐赠行为。特别是,认为自己阅读了AI生成的广告的西班牙语女性参与者显著降低了捐赠意愿。此外,用户难以区分人类和LLM生成的广告。

🎯 应用场景

该研究成果可应用于多语言写作辅助工具的设计与开发,帮助开发者更好地理解用户在使用多语言LLM时可能存在的认知偏差,从而设计出更符合用户需求的工具。此外,该研究还可为企业在使用多语言LLM进行内容创作时提供指导,帮助企业更好地利用LLM提高内容质量和用户参与度。未来,该研究可扩展到其他多语言任务,如机器翻译、跨语言信息检索等。

📄 摘要(原文)

Recent advances in generative AI have precipitated a proliferation of novel writing assistants. These systems typically rely on multilingual large language models (LLMs), providing globalized workers the ability to revise or create diverse forms of content in different languages. However, there is substantial evidence indicating that the performance of multilingual LLMs varies between languages. Users who employ writing assistance for multiple languages are therefore susceptible to disparate output quality. Importantly, recent research has shown that people tend to generalize algorithmic errors across independent tasks, violating the behavioral axiom of choice independence. In this paper, we analyze whether user utilization of novel writing assistants in a charity advertisement writing task is affected by the AI's performance in a second language. Furthermore, we quantify the extent to which these patterns translate into the persuasiveness of generated charity advertisements, as well as the role of peoples' beliefs about LLM utilization in their donation choices. Our results provide evidence that writers who engage with an LLM-based writing assistant violate choice independence, as prior exposure to a Spanish LLM reduces subsequent utilization of an English LLM. While these patterns do not affect the aggregate persuasiveness of the generated advertisements, people's beliefs about the source of an advertisement (human versus AI) do. In particular, Spanish-speaking female participants who believed that they read an AI-generated advertisement strongly adjusted their donation behavior downwards. Furthermore, people are generally not able to adequately differentiate between human-generated and LLM-generated ads. Our work has important implications for the design, development, integration, and adoption of multilingual LLMs as assistive agents -- particularly in writing tasks.