The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning
作者: Jiyu Lim, Youngwoo Yoon, Kwanghyun Park
分类: cs.RO, cs.AI
发布日期: 2026-03-20
备注: Accepted to ICRA 2026. 8 pages, 9 figures, Project page: https://limjiyu99.github.io/inner-critic/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
CRISP:提出基于VLM的自纠正框架,提升机器人社交行为的自然性和适应性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人社交行为 视觉-语言模型 自主学习 人机交互 行为规划 机器人控制 情境适应 自纠正
📋 核心要点
- 传统机器人社交行为生成缺乏灵活性和自主性,依赖于预定义的动作或人工反馈。
- CRISP框架利用视觉-语言模型作为“类人社交评论家”,使机器人能够自主评估和改进其行为。
- 实验表明,CRISP在不同机器人平台和场景下,显著提升了用户偏好和情境适应性评分。
📝 摘要(中文)
本研究提出了CRISP(Critique-and-Replan for Interactive Social Presence),一个自主框架,机器人通过利用视觉-语言模型(VLM)作为“类人社交评论家”来评论和重新规划其自身行为。CRISP集成了以下步骤:(1)通过分析机器人描述文件(例如,MJCF)提取可移动关节和约束;(2)基于情境生成逐步行为计划;(3)通过参考视觉信息(关节运动范围可视化)生成低级关节控制代码;(4)基于VLM评估社交适当性和自然性,包括精确定位错误步骤;(5)通过基于奖励的搜索迭代改进行为。该方法不依赖于特定的机器人API,仅使用机器人的结构文件即可在各种平台上生成细微不同、类人的动作。在一项涉及五种不同机器人类型和20个场景(包括移动机械臂和人形机器人)的用户研究中,与先前方法相比,我们提出的方法获得了明显更高的偏好和情境适当性评分。这项研究提出了一个通用框架,最大限度地减少了人为干预,同时扩展了机器人的自主交互能力和跨平台适用性。
🔬 方法详解
问题定义:现有机器人社交行为生成方法依赖预定义动作或人工反馈,缺乏灵活性和自主性,难以适应复杂多变的社交场景。痛点在于无法自主评估行为的社交适当性和自然性,并进行迭代改进。
核心思路:利用视觉-语言模型(VLM)模拟人类社交评论家的角色,对机器人的行为进行评估和反馈。通过VLM的评估结果,机器人可以识别不合适的行为步骤,并进行重新规划,从而实现自主改进。这种设计模仿了人类学习社交行为的方式,即通过观察、评估和调整来不断提升。
技术框架:CRISP框架包含五个主要模块:(1) 机器人描述分析模块,提取可移动关节和约束;(2) 行为计划生成模块,基于情境生成逐步行为计划;(3) 低级控制代码生成模块,参考关节运动范围可视化生成控制代码;(4) VLM评估模块,评估社交适当性和自然性,定位错误步骤;(5) 行为迭代改进模块,基于奖励的搜索迭代改进行为。整个流程是一个循环迭代的过程,直到VLM评估结果满意为止。
关键创新:CRISP的核心创新在于将VLM引入机器人社交行为生成中,使其能够自主评估和改进自身行为。与传统方法相比,CRISP无需人工干预,能够生成更自然、更符合情境的社交行为。此外,该框架具有跨平台适用性,只需机器人的结构文件即可在不同机器人平台上运行。
关键设计:VLM评估模块是关键。论文中使用了特定的VLM模型(具体模型未知),并设计了合适的prompt工程,以指导VLM进行社交适当性和自然性的评估。奖励函数的设计也至关重要,它决定了行为迭代改进的方向和速度。具体的奖励函数形式和参数设置在论文中可能有所描述(具体细节未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CRISP在五种不同机器人类型和20个场景中,显著提升了用户偏好和情境适应性评分。与之前的机器人社交行为生成方法相比,CRISP生成的行为更自然、更符合人类的期望。具体的性能提升数据(例如,用户偏好评分的提升百分比)在论文中可能有所描述(具体数值未知)。
🎯 应用场景
该研究成果可广泛应用于服务机器人、社交机器人、人机协作等领域。例如,在养老院中,机器人可以自主学习如何与老年人进行更自然、更舒适的互动;在商场中,机器人可以根据顾客的行为和表情,调整自己的服务方式,提供更个性化的服务。该研究有助于提升机器人的社会适应性和人机交互体验,促进机器人更广泛地融入人类社会。
📄 摘要(原文)
Conventional robot social behavior generation has been limited in flexibility and autonomy, relying on predefined motions or human feedback. This study proposes CRISP (Critique-and-Replan for Interactive Social Presence), an autonomous framework where a robot critiques and replans its own actions by leveraging a Vision-Language Model (VLM) as a `human-like social critic.' CRISP integrates (1) extraction of movable joints and constraints by analyzing the robot's description file (e.g., MJCF), (2) generation of step-by-step behavior plans based on situational context, (3) generation of low-level joint control code by referencing visual information (joint range-of-motion visualizations), (4) VLM-based evaluation of social appropriateness and naturalness, including pinpointing erroneous steps, and (5) iterative refinement of behaviors through reward-based search. This approach is not tied to a specific robot API; it can generate subtly different, human-like motions on various platforms using only the robot's structure file. In a user study involving five different robot types and 20 scenarios, including mobile manipulators and humanoids, our proposed method achieved significantly higher preference and situational appropriateness ratings compared to previous methods. This research presents a general framework that minimizes human intervention while expanding the robot's autonomous interaction capabilities and cross-platform applicability. Detailed result videos and supplementary information regarding this work are available at: https://limjiyu99.github.io/inner-critic/