ComboBench: Can LLMs Manipulate Physical Devices to Play Virtual Reality Games?

📄 arXiv: 2510.24706v1 📥 PDF

作者: Shuqing Li, Jiayi Yan, Chenyu Niu, Jen-tse Huang, Yun Peng, Wenxuan Wang, Yepang Liu, Michael R. Lyu

分类: cs.CL, cs.AI, cs.HC, cs.SE

发布日期: 2025-10-28


💡 一句话要点

ComboBench:评估LLM在VR游戏中操控物理设备的能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 虚拟现实 基准测试 设备操作 程序推理 空间理解 具身智能 人机交互

📋 核心要点

  1. 现有方法难以让LLM理解VR游戏中语义动作到物理设备操作的转换,缺乏有效评估。
  2. ComboBench基准测试通过构建VR游戏场景,评估LLM将语义动作转化为设备操作序列的能力。
  3. 实验结果表明,LLM在任务分解方面表现良好,但在程序推理和空间理解方面仍有提升空间。

📝 摘要(中文)

虚拟现实(VR)游戏要求玩家将高层次的语义动作转化为使用控制器和头戴式显示器(HMD)的精确设备操作。虽然人类可以基于常识和具身理解直观地完成这种转换,但大型语言模型(LLM)是否能有效地复制这种能力仍未得到充分探索。本文介绍了一个基准测试ComboBench,用于评估LLM在四个流行的VR游戏(半条命:Alyx、Into the Radius、Moss: Book II和Vivecraft)的262个场景中,将语义动作转化为VR设备操作序列的能力。我们评估了七个LLM,包括GPT-3.5、GPT-4、GPT-4o、Gemini-1.5-Pro、LLaMA-3-8B、Mixtral-8x7B和GLM-4-Flash,并与人工标注的真实数据和人类表现进行了比较。结果表明,虽然像Gemini-1.5-Pro这样的顶级模型表现出强大的任务分解能力,但与人类相比,它们在程序推理和空间理解方面仍然存在困难。不同游戏之间的性能差异很大,表明对交互复杂性的敏感性。少量样本示例可以显著提高性能,表明有潜力针对性地增强LLM的VR操作能力。我们在https://sites.google.com/view/combobench发布了所有材料。

🔬 方法详解

问题定义:论文旨在解决LLM在VR游戏中,将高层语义动作转化为底层物理设备操作序列的问题。现有方法缺乏对LLM在VR环境下的操作能力的有效评估,并且LLM在程序推理和空间理解方面存在不足,导致无法准确执行VR游戏中的复杂操作。

核心思路:论文的核心思路是构建一个全面的基准测试ComboBench,通过模拟VR游戏环境,评估LLM将语义动作转化为设备操作序列的能力。通过对比LLM与人类的表现,分析LLM在不同VR游戏场景下的优缺点,从而为提升LLM在VR环境下的操作能力提供指导。

技术框架:ComboBench包含四个流行的VR游戏:Half-Life: Alyx, Into the Radius, Moss: Book II, 和 Vivecraft。每个游戏包含多个场景,每个场景定义了一系列语义动作,以及对应的设备操作序列。论文使用这些场景来评估LLM生成设备操作序列的准确性。评估过程包括:1) 给定一个VR游戏场景和一系列语义动作;2) LLM生成对应的设备操作序列;3) 将LLM生成的序列与人工标注的真实序列进行比较,计算准确率等指标。

关键创新:该论文的关键创新在于构建了一个专门用于评估LLM在VR游戏中操作能力的基准测试ComboBench。该基准测试包含多个VR游戏和场景,涵盖了不同的交互复杂度和操作类型,可以全面评估LLM在VR环境下的操作能力。此外,论文还通过对比LLM与人类的表现,揭示了LLM在程序推理和空间理解方面的不足,为未来的研究方向提供了指导。

关键设计:ComboBench的关键设计包括:1) 选择了四个具有代表性的VR游戏,涵盖了不同的游戏类型和交互方式;2) 为每个游戏设计了多个场景,每个场景定义了一系列语义动作和对应的设备操作序列;3) 使用准确率、召回率等指标来评估LLM生成设备操作序列的准确性;4) 采用了少量样本学习的方法,通过提供少量示例来提升LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Gemini-1.5-Pro在ComboBench上表现最佳,但与人类相比仍有差距。不同游戏之间的性能差异显著,表明LLM对交互复杂性敏感。少量样本学习可以显著提高LLM的性能,例如,通过提供少量示例,LLM在某些游戏中的准确率可以提高10%以上。

🎯 应用场景

该研究成果可应用于开发更智能的VR游戏助手,帮助玩家完成复杂操作。此外,该研究还可用于训练机器人,使其能够在虚拟环境中学习操作技能,并将其迁移到现实世界中。未来,该技术有望应用于远程操作、虚拟现实训练等领域。

📄 摘要(原文)

Virtual Reality (VR) games require players to translate high-level semantic actions into precise device manipulations using controllers and head-mounted displays (HMDs). While humans intuitively perform this translation based on common sense and embodied understanding, whether Large Language Models (LLMs) can effectively replicate this ability remains underexplored. This paper introduces a benchmark, ComboBench, evaluating LLMs' capability to translate semantic actions into VR device manipulation sequences across 262 scenarios from four popular VR games: Half-Life: Alyx, Into the Radius, Moss: Book II, and Vivecraft. We evaluate seven LLMs, including GPT-3.5, GPT-4, GPT-4o, Gemini-1.5-Pro, LLaMA-3-8B, Mixtral-8x7B, and GLM-4-Flash, compared against annotated ground truth and human performance. Our results reveal that while top-performing models like Gemini-1.5-Pro demonstrate strong task decomposition capabilities, they still struggle with procedural reasoning and spatial understanding compared to humans. Performance varies significantly across games, suggesting sensitivity to interaction complexity. Few-shot examples substantially improve performance, indicating potential for targeted enhancement of LLMs' VR manipulation capabilities. We release all materials at https://sites.google.com/view/combobench.