DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

📄 arXiv: 2605.18727v1 📥 PDF

作者: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

分类: cs.RO, cs.AI

发布日期: 2026-05-18

备注: 30 Pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DexHoldem:构建德州扑克灵巧操作的具身系统基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 具身智能 灵巧操作 德州扑克 强化学习 机器人 系统级基准 智能体感知

📋 核心要点

  1. 现有具身系统评估缺乏复杂操作和环境交互,难以反映真实场景下的性能。
  2. DexHoldem提供德州扑克操作基准,包含数据、策略和感知评估,促进系统级研究。
  3. 实验表明感知和策略误差会在闭环部署中累积,为具身智能体研究提供重要参考。

📝 摘要(中文)

本文提出了DexHoldem,一个真实的系统级基准,用于评估具身系统在德州扑克灵巧操作中的性能,该系统使用ShadowHand灵巧手。DexHoldem提供了1470个远程操作演示,涵盖14种德州扑克操作原语,一个标准化的物理策略基准,以及一个智能体感知基准,用于测试智能体是否能够恢复具身决策所需的结构化游戏状态。在原语执行方面,$π_{0.5}$获得了最高的任务完成率(61.2%),而$π_{0.5}$和$π_0$在场景保持成功率上并列第一(47.5%)。在智能体感知方面,Opus 4.7获得了最佳的严格问题级准确率(34.3%),而GPT 5.5获得了最佳的平均字段级准确率(66.8%),揭示了孤立的视觉子能力与完整的路由相关状态恢复之间的差距。最后,我们在三个案例研究中实例化了完整的具身智能体循环,其中等待、恢复调度、人工帮助请求和重复的原语执行揭示了感知和策略错误如何在闭环部署期间累积。因此,DexHoldem在共享的物理环境中评估了灵巧的桌面执行、智能体感知和具身决策路由。

🔬 方法详解

问题定义:现有具身系统评估通常侧重于孤立的原始技能,缺乏对复杂操作和环境交互的综合评估。在真实场景中,智能体需要感知不断变化的桌面环境,选择合适的动作,并使用灵巧的手执行,同时保持场景的可用性。现有方法难以应对这种复杂性,缺乏一个标准化的基准来评估具身系统在真实世界任务中的性能。

核心思路:DexHoldem的核心思路是构建一个基于德州扑克的真实世界系统级基准,涵盖了灵巧操作、智能体感知和具身决策路由三个方面。通过德州扑克这一复杂且具有挑战性的任务,可以全面评估具身系统在真实场景中的性能。该基准提供了一系列远程操作演示、标准化的物理策略基准和智能体感知基准,为研究人员提供了一个统一的平台来开发和评估具身智能体。

技术框架:DexHoldem的整体框架包括三个主要组成部分:灵巧操作、智能体感知和具身决策路由。灵巧操作部分使用ShadowHand灵巧手执行德州扑克中的各种操作原语,例如发牌、移动牌和收集牌。智能体感知部分旨在测试智能体是否能够从视觉输入中恢复结构化的游戏状态,包括牌的位置、类型和玩家状态。具身决策路由部分将感知和操作结合起来,使智能体能够根据游戏状态做出决策并执行相应的动作。

关键创新:DexHoldem的关键创新在于它是一个完整的系统级基准,涵盖了具身智能体的所有关键组成部分,包括感知、决策和操作。与以往侧重于孤立技能的评估方法不同,DexHoldem强调了各个组成部分之间的交互和集成。此外,DexHoldem提供了一个标准化的物理环境和评估协议,使得不同研究团队的结果可以进行比较和复现。

关键设计:DexHoldem的关键设计包括:1) 14种德州扑克操作原语,涵盖了游戏中的各种常见动作;2) 1470个远程操作演示,为策略学习和模仿学习提供了数据;3) 一个智能体感知基准,使用Opus和GPT等模型评估感知性能;4) 三个案例研究,展示了完整的具身智能体循环,并分析了感知和策略误差的累积效应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$π_{0.5}$在原语执行方面取得了最高的任务完成率(61.2%),而$π_{0.5}$和$π_0$在场景保持成功率上并列第一(47.5%)。在智能体感知方面,Opus 4.7获得了最佳的严格问题级准确率(34.3%),而GPT 5.5获得了最佳的平均字段级准确率(66.8%)。这些结果揭示了感知和策略误差在闭环部署中会累积,为未来的研究提供了重要的方向。

🎯 应用场景

DexHoldem的研究成果可应用于机器人灵巧操作、具身智能体、人机协作等领域。该基准能够促进相关算法的开发和评估,提升机器人在复杂环境中的操作能力和决策能力。未来,该研究有望推动机器人技术在工业自动化、医疗康复、家庭服务等领域的应用。

📄 摘要(原文)

Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, $π_{0.5}$ obtains the highest task completion rate ($61.2\%$), while $π_{0.5}$ and $π_0$ tie on scene-preserving success rate ($47.5\%$). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy ($34.3\%$), while GPT 5.5 obtains the best average field-wise accuracy ($66.8\%$), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.