Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness

作者: Ambreesh Parthasarathy, Chandrasekar Subramanian, Ganesh Senrayan, Shreyash Adappanavar, Aparna Taneja, Balaraman Ravindran, Milind Tambe

分类: cs.CL, cs.AI, cs.LG, cs.MA

发布日期: 2025-01-20

备注: Accepted at the AAAI-2025 Deployable AI Workshop

💡 一句话要点

研究LLM在多语言提示下为Restless Bandits设计奖励函数对任务性能和公平性的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 奖励函数设计 Restless Bandits 公平性 资源分配

📋 核心要点

现有研究主要集中在使用英语提示的LLM来设计奖励函数，忽略了非英语环境下的性能和公平性问题。
本文探索了使用不同语言提示LLM为Restless Bandits设计奖励函数，并分析其对任务性能和公平性的影响。
实验结果表明，英语提示优于其他语言，提示复杂性增加会降低性能，且低资源语言更易导致不公平。

📝 摘要（中文）

本文研究了大型语言模型（LLM）在为Restless Multi-Armed Bandits (RMABs) 设计奖励函数时，使用非英语语言提示的影响，重点关注任务性能和公平性。RMABs已成功应用于包括公共卫生在内的多个领域的资源分配。随着LLM的快速发展，它们越来越多地被用于设计奖励函数，以更好地匹配人类偏好。虽然之前的研究表明，LLM可以通过语言提示定制自动化分配决策以满足社区需求，但主要集中在英语提示和任务性能上。本文使用DLM算法（一种利用LLM设计RMABs奖励函数的方法），在合成环境中测试了多种语言提示下的模型性能。结果表明，英语提示下的LLM奖励函数明显优于其他语言。提示的措辞和复杂性也会影响任务性能，且低资源语言和复杂提示更可能导致不公平。因此，在实际应用中需要谨慎考虑语言选择和提示设计。

🔬 方法详解

问题定义：论文旨在研究在使用大型语言模型（LLM）为Restless Multi-Armed Bandits (RMABs) 设计奖励函数时，使用不同语言的提示对任务性能和公平性的影响。现有方法主要集中在使用英语提示，忽略了在多语言环境下的适用性和潜在的偏差。特别是在发展中国家，基层工作人员更倾向于使用本地语言，而这些语言通常是低资源语言。此外，自动化资源分配可能无意中对特定人群产生偏见，因此公平性也是一个重要考量因素。

核心思路：核心思路是评估LLM在不同语言提示下生成的奖励函数在RMAB问题中的表现，并分析其对任务性能和公平性的影响。通过改变提示的语言和复杂性，观察LLM生成奖励函数的质量，以及这些奖励函数在资源分配任务中的表现。这样设计的目的是为了了解LLM在多语言环境下的能力，以及如何避免因语言和提示设计不当而导致的不公平现象。

技术框架：整体框架包括以下几个主要步骤：1) 使用不同语言（包括英语和一些低资源语言）和不同复杂度的提示，输入到DLM算法中，DLM算法利用LLM生成奖励函数。2) 将生成的奖励函数应用于一个合成的Restless Bandit环境。3) 评估在不同语言提示下，RMAB算法的性能（例如，总奖励）和公平性（例如，不同人群之间的资源分配差异）。4) 分析实验结果，比较不同语言提示对性能和公平性的影响。

关键创新：该研究的关键创新在于首次系统性地研究了LLM在多语言提示下为Restless Bandits设计奖励函数的问题。之前的研究主要集中在使用英语提示，而本文扩展到了多种语言，特别是低资源语言，并关注了公平性问题。这对于在多语言环境下应用LLM具有重要的指导意义。

关键设计：关键设计包括：1) 选择合适的LLM和DLM算法。DLM算法是利用LLM设计RMABs奖励函数的关键组件。2) 设计不同语言和不同复杂度的提示。提示的设计需要考虑到不同语言的特点和表达方式，以及如何控制提示的复杂性。3) 构建一个合成的Restless Bandit环境。该环境需要能够模拟真实的资源分配场景，并且能够评估任务性能和公平性。4) 选择合适的性能指标和公平性指标。性能指标用于评估RMAB算法的总奖励，公平性指标用于评估不同人群之间的资源分配差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用英语提示时，LLM生成的奖励函数在任务性能上明显优于其他语言。此外，提示的措辞和复杂性也会显著影响任务性能。更重要的是，低资源语言和更复杂的提示更容易导致不公平的资源分配。这些发现强调了在多语言环境下使用LLM时，需要谨慎选择语言和设计提示，以避免潜在的偏差和不公平。

🎯 应用场景

该研究成果可应用于公共卫生、教育、社会福利等多个领域的资源分配优化。例如，在医疗资源有限的情况下，可以使用LLM根据不同语言的社区需求提示，设计更公平有效的资源分配策略。该研究有助于推动LLM在多语言环境下的应用，并促进算法公平性的研究和实践，最终提升资源分配效率和公平性。

📄 摘要（原文）

Restless Multi-Armed Bandits (RMABs) have been successfully applied to resource allocation problems in a variety of settings, including public health. With the rapid development of powerful large language models (LLMs), they are increasingly used to design reward functions to better match human preferences. Recent work has shown that LLMs can be used to tailor automated allocation decisions to community needs using language prompts. However, this has been studied primarily for English prompts and with a focus on task performance only. This can be an issue since grassroots workers, especially in developing countries like India, prefer to work in local languages, some of which are low-resource. Further, given the nature of the problem, biases along population groups unintended by the user are also undesirable. In this work, we study the effects on both task performance and fairness when the DLM algorithm, a recent work on using LLMs to design reward functions for RMABs, is prompted with non-English language commands. Specifically, we run the model on a synthetic environment for various prompts translated into multiple languages. The prompts themselves vary in complexity. Our results show that the LLM-proposed reward functions are significantly better when prompted in English compared to other languages. We also find that the exact phrasing of the prompt impacts task performance. Further, as prompt complexity increases, performance worsens for all languages; however, it is more robust with English prompts than with lower-resource languages. On the fairness side, we find that low-resource languages and more complex prompts are both highly likely to create unfairness along unintended dimensions.

Multilinguality in LLM-Designed Reward Functions for Restless Bandits: Effects on Task Performance and Fairness

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理