SoftNash: Entropy-Regularized Nash Games for Non-Fighting Virtual Fixtures
作者: Tai Inui, Jee-Hwan Ryu
分类: cs.RO, cs.HC
发布日期: 2025-11-27
💡 一句话要点
提出SoftNash,通过熵正则化纳什博弈实现非对抗性虚约束器,提升遥操作舒适度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 虚约束器 遥操作 纳什博弈 熵正则化 共享控制 人机协作 触觉反馈
📋 核心要点
- 传统虚约束器在提高遥操作精度时,常与用户产生对抗,增加用户心理负担,降低操作自主感。
- Soft-Nash通过引入熵正则化的纳什博弈,软化了经典线性二次纳什解,实现控制器主动性的连续调节。
- 实验表明,适度的Soft-Nash参数设置,在保持跟踪精度的同时,显著降低用户工作负荷,提升自主感。
📝 摘要(中文)
虚约束器(VFs)能提高遥操作的精度,但常与用户“对抗”,增加精神负担并削弱自主感。我们提出了Soft-Nash虚约束器,一种博弈论的共享控制策略,通过用一个可解释的标量参数$τ$来增加约束器的努力权重,从而软化了经典的两玩家线性二次(LQ)纳什解。这在控制器的主动性上产生了一个连续的刻度盘:$τ=0$恢复了一个硬性的、以性能为中心的纳什/虚约束器控制器,而较大的$τ$则降低了增益和反作用力,但保持了闭环稳定性的平衡结构和连续性。我们从KL正则化的信任区域和最大熵的视角推导了Soft-Nash,得到了一个闭式机器人的最佳响应,随着$τ$的增长,它会缩小权限并将约束器与操作员的输入对齐。我们在3D跟踪任务($n=12$)中的6自由度触觉设备上实现了Soft-Nash。适度的柔软度($τ\approx 1-3$,特别是$τ=2$)保持了与调整后的经典VF在统计上无法区分的跟踪误差,同时显著减少了控制器-用户冲突,降低了NASA-TLX工作负荷,并提高了自主感(SoAS)。结合了归一化精度和非对抗行为的综合平衡评分在$τ=2-3$附近达到峰值。这些结果表明,单参数Soft-Nash策略可以在保持精度的同时提高舒适度和感知自主性,为触觉和遥操作中的个性化共享控制提供了一种实用且可解释的途径。
🔬 方法详解
问题定义:传统虚约束器在遥操作中虽然能提高精度,但由于其强制性的辅助作用,经常与操作者产生“对抗”,导致操作者感到不适,增加了心理负担,并降低了操作的自主感。现有方法难以在精度和舒适性之间取得平衡。
核心思路:Soft-Nash的核心思路是通过引入一个可调节的参数τ,对经典纳什博弈的解进行“软化”,从而实现对虚约束器主动性的连续控制。当τ=0时,恢复为传统的、以性能为中心的纳什控制器;当τ增大时,降低控制器的增益和反作用力,从而减少与用户的对抗,提升舒适性。
技术框架:Soft-Nash基于双人线性二次(LQ)纳什博弈框架。操作者和机器人分别作为博弈的两个参与者。通过引入KL散度正则化的信任域和最大熵视角,推导出Soft-Nash策略。该策略允许机器人根据操作者的输入,自适应地调整其辅助程度,从而实现共享控制。
关键创新:Soft-Nash的关键创新在于引入了熵正则化,将原本硬性的纳什解“软化”,从而实现对控制器主动性的连续调节。与传统的虚约束器相比,Soft-Nash能够更好地平衡精度和舒适性,提升用户的操作体验。
关键设计:Soft-Nash的关键设计在于参数τ的选择。τ越大,控制器的主动性越低,用户自主感越强,但精度可能会有所下降。论文通过实验发现,τ在1-3之间,特别是τ=2时,能够在精度和舒适性之间取得较好的平衡。此外,论文还推导出了闭式机器人的最佳响应,使得机器人能够根据操作者的输入,自适应地调整其辅助程度。
📊 实验亮点
实验结果表明,适度的Soft-Nash参数设置(τ≈1-3,特别是τ=2)在保持与传统虚约束器统计上无显著差异的跟踪误差的同时,显著降低了控制器-用户冲突,降低了NASA-TLX工作负荷,并提高了自主感(SoAS)。综合考虑精度和非对抗行为的平衡评分在τ=2-3附近达到峰值。
🎯 应用场景
Soft-Nash具有广泛的应用前景,可应用于远程医疗、机器人辅助手术、虚拟现实交互等领域。通过调节参数τ,可以根据用户的个性化需求,实现定制化的共享控制策略,提升操作的舒适性和效率。该方法为触觉和遥操作中的人机协作提供了一种实用且可解释的途径。
📄 摘要(原文)
Virtual fixtures (VFs) improve precision in teleoperation but often ``fight'' the user, inflating mental workload and eroding the sense of agency. We propose Soft-Nash Virtual Fixtures, a game-theoretic shared-control policy that softens the classic two-player linear-quadratic (LQ) Nash solution by inflating the fixture's effort weight with a single, interpretable scalar parameter $τ$. This yields a continuous dial on controller assertiveness: $τ=0$ recovers a hard, performance-focused Nash / virtual fixture controller, while larger $τ$ reduce gains and pushback, yet preserve the equilibrium structure and continuity of closed-loop stability. We derive Soft-Nash from both a KL-regularized trust-region and a maximum-entropy viewpoint, obtaining a closed-form robot best response that shrinks authority and aligns the fixture with the operator's input as $τ$ grows. We implement Soft-Nash on a 6-DoF haptic device in 3D tracking task ($n=12$). Moderate softness ($τ\approx 1-3$, especially $τ=2$) maintains tracking error statistically indistinguishable from a tuned classic VF while sharply reducing controller-user conflict, lowering NASA-TLX workload, and increasing Sense of Agency (SoAS). A composite BalancedScore that combines normalized accuracy and non-fighting behavior peaks near $τ=2-3$. These results show that a one-parameter Soft-Nash policy can preserve accuracy while improving comfort and perceived agency, providing a practical and interpretable pathway to personalized shared control in haptics and teleoperation.