Convergent Functions, Divergent Forms
作者: Hyeonseong Jeon, Ainaz Eftekhar, Aaron Walsman, Kuo-Hao Zeng, Ali Farhadi, Ranjay Krishna
分类: cs.RO
发布日期: 2025-05-27 (更新: 2025-11-14)
💡 一句话要点
LOKI:一种高效的形态与控制策略协同设计框架,可泛化至未知任务。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 协同设计 形态生成 控制策略 强化学习 泛化能力
📋 核心要点
- 现有形态与控制协同设计方法效率低,难以泛化到新任务,面临探索空间不足和训练成本过高等挑战。
- LOKI通过学习形态相似设计的共享控制策略(收敛函数)和动态局部搜索(形态发散)来提升效率和探索能力。
- 实验表明,LOKI能发现更多样化的形态,并在敏捷性、稳定性和操纵等下游任务中表现出更好的泛化能力。
📝 摘要(中文)
本文提出LOKI,一个计算高效的框架,用于协同设计形态和控制策略,使其能够泛化到未见过的任务。受到生物适应性的启发(动物能够快速适应形态变化),我们的方法克服了传统进化和质量多样性算法的低效性。我们提出学习收敛函数:在学习到的潜在空间中,跨形态相似的设计集群训练共享控制策略,从而大幅降低每个设计的训练成本。同时,我们通过用动态局部搜索代替突变来促进形态发散,从而实现更广泛的探索并防止过早收敛。策略重用使我们能够探索多780倍的设计,同时减少78%的模拟步骤和40%的每个设计的计算量。局部竞争与更广泛的搜索相结合,产生了一组多样化的高性能最终形态。在使用UNIMAL设计空间和平坦地形运动任务时,LOKI发现了丰富的各种设计——从四足动物到螃蟹、双足动物和旋转器——远比先前工作产生的更多样化。这些形态也能更好地转移到敏捷性、稳定性和操纵领域的未见过的下游任务中(例如,在颠簸和推箱倾斜任务中获得2倍更高的奖励)。总的来说,我们的方法产生的设计既多样化又适应性强,并且比现有的协同设计方法具有更高的样本效率。
🔬 方法详解
问题定义:现有的形态和控制策略协同设计方法,如进化算法和质量多样性算法,在探索广阔的设计空间时效率低下,计算成本高昂。它们难以在形态变化时快速适应控制策略,并且容易陷入局部最优,导致最终设计的多样性不足,泛化能力差。
核心思路:LOKI的核心思路是解耦形态设计和控制策略学习,通过学习“收敛函数”来共享相似形态的控制策略,从而降低每个设计的训练成本。同时,采用“发散形式”的策略,鼓励探索更多样化的形态,避免过早收敛。这种“收敛函数,发散形式”的结合,旨在提高协同设计的效率和泛化能力。
技术框架:LOKI框架包含以下几个主要阶段:1. 潜在空间学习:使用变分自编码器(VAE)学习形态的潜在空间表示。2. 收敛函数学习:在潜在空间中对形态进行聚类,并为每个簇训练共享的控制策略(收敛函数)。3. 形态发散探索:使用动态局部搜索算法,在潜在空间中探索新的形态,并利用已学习的收敛函数初始化控制策略。4. 局部竞争:对新生成的形态进行评估,并选择表现最佳的形态进入下一轮迭代。
关键创新:LOKI的关键创新在于:1. 收敛函数:通过学习共享控制策略,显著降低了每个设计的训练成本,提高了样本效率。2. 动态局部搜索:取代传统的突变方法,能够更有效地探索设计空间,并避免过早收敛。3. 形态和控制策略的解耦:允许独立地优化形态和控制策略,从而提高了设计的灵活性和适应性。
关键设计:1. 潜在空间表示:使用VAE将形态编码为低维向量,便于进行聚类和搜索。2. 聚类算法:使用K-means等聚类算法将形态划分为不同的簇。3. 控制策略网络结构:使用多层感知机(MLP)或循环神经网络(RNN)作为控制策略的网络结构。4. 损失函数:使用强化学习算法(如PPO)训练控制策略,损失函数包括奖励函数和正则化项。
🖼️ 关键图片
📊 实验亮点
LOKI在UNIMAL设计空间和平坦地形运动任务上取得了显著成果。与现有方法相比,LOKI能够探索多780倍的设计,同时减少78%的模拟步骤和40%的每个设计的计算量。此外,LOKI发现的形态更加多样化,并且在敏捷性、稳定性和操纵等下游任务中表现出更好的泛化能力(例如,在颠簸和推箱倾斜任务中获得2倍更高的奖励)。
🎯 应用场景
LOKI具有广泛的应用前景,可用于机器人设计、生物形态优化、以及其他需要协同设计形态和控制策略的领域。例如,可以用于设计适应不同地形的机器人、优化生物体的运动方式、以及开发新型的仿生机器人。该研究有望推动机器人和人工智能领域的发展,并为解决实际问题提供新的思路。
📄 摘要(原文)
We introduce LOKI, a compute-efficient framework for co-designing morphologies and control policies that generalize across unseen tasks. Inspired by biological adaptation -- where animals quickly adjust to morphological changes -- our method overcomes the inefficiencies of traditional evolutionary and quality-diversity algorithms. We propose learning convergent functions: shared control policies trained across clusters of morphologically similar designs in a learned latent space, drastically reducing the training cost per design. Simultaneously, we promote divergent forms by replacing mutation with dynamic local search, enabling broader exploration and preventing premature convergence. The policy reuse allows us to explore 780$\times$ more designs using 78% fewer simulation steps and 40% less compute per design. Local competition paired with a broader search results in a diverse set of high-performing final morphologies. Using the UNIMAL design space and a flat-terrain locomotion task, LOKI discovers a rich variety of designs -- ranging from quadrupeds to crabs, bipedals, and spinners -- far more diverse than those produced by prior work. These morphologies also transfer better to unseen downstream tasks in agility, stability, and manipulation domains (e.g., 2$\times$ higher reward on bump and push box incline tasks). Overall, our approach produces designs that are both diverse and adaptable, with substantially greater sample efficiency than existing co-design methods. (Project website: https://loki-codesign.github.io/)