逐际动力双足机器人P1在深圳塘朗山零样本、无保护、全开放完成测试

深圳新闻网2024年3月12日讯（记者叶梅）3月12日，基于强化学习（Reinforcement Learning，RL），“逐际动力双足机器人P1”第一次来到位于深圳的郊野公园塘朗山，零样本、无保护、全开放进行测试，开箱即跑，在完全陌生的野外环境中，高动态完成了在多种复杂地形上的移动，表现出强化学习训练后，优异的控制力和稳定性。

逐际动力双足机器人P1基于强化学习完成野外森林徒步测试

逐际动力在强化学习有着长期的积累，目前聚焦把强化学习的前沿技术转化为系统化研发能力，支持产品功能开发，并提出了自己的强化学习研发体系，主要包括Real2Sim2Real闭环、神经网络架构设计、数据生成机制与训练算法设计等三大核心版块，搭配不断完善的流程管理和算法验证，推动人形机器人重要功能的开发。

逐际动力双足机器人P1在狭窄的沟渠中高动态稳定行走

P1是逐际动力在中国率先推出的一款新颖的双足机器人，也是逐际动力强化学习系统化研发与模块化测试的重要平台，用于推进双足基础运动能力的研发和迭代。P1成功征服野外森林，正是逐际动力强化学习系统化研发的成果，也是三大核心板块能力的体现。

逐际动力双足机器人P1在猛烈击打下表现出强大的抗干扰能力

Real2Sim2Real闭环，从Real2Sim到Sim2Real，打通数据到数据的自动闭环，不管是采集物理世界数据生成仿真模型，还是把仿真后的策略部署到硬件上，从数据的生成、迁移到部署，逐际动力的目标是实现全过程自动化，最大限度降低人工干预，缩小仿真和现实之间的差距，提高训练的效率和质量。

神经网络架构设计，神经网络并不是一个黑盒，而是一个科学的系统化复杂结构，决定了强化学习能力的上限，其架构的设计体现了不同团队的特点和实力。逐际动力的神经网络由不同模块组成，如何划分模块、如何定义每个模块、每个模块输入输出的界面是什么，这些设计至关重要。逐际动力打造的神经网络架构能够有效应对环境交互和硬件差异带来的巨大干扰，生成具有自适应性的控制策略，实现同一个神经网络适用于不同的机器人和场景。

数据生成机制与训练算法设计，在强化学习中，数据是训练的关键，但不是数据规模越大，训练效果就一定越好。逐际动力把重点锁定在解决有效数据稀缺的问题上，提出迭代式预训练（Iterative Pre-training）方法，把通用机器人的基础运动能力划分为不同级别，进行循序渐进的预训练，这个过程让训练的结果更可控，从而高效地产出和收集有效数据，训练出高性能的策略（Policy）。

双足机器人P1是逐际动力强化学习系统化研发与模块化测试的重要平台

在这次测试中，我们看到野外和实验室、城市的最大区别是，没有一个台阶或者斜坡，甚至平地是一样的；从山脚到山顶，沿途的地貌截然不同，水土流失导致地下岩石裸露，斜坡上长满缠绕的藤蔓，土层风化变成泥沙覆盖地面，就地取材搭成的沟渠奇形怪状，这些都是P1从未经历过的场景，对于普通人来说也不是轻而易举就能克服。

在仿真训练过程中，P1没有被输入过任何与森林、徒步相关的数据，与落地环境差异巨大，但依然能够适应全新的环境，在变化莫测的森林中自如行走。这得益于逐际动力系统化的强化学习训练，保证研发成果在实际应用中可行、可用、可靠。

逐际动力双足机器人P1在野外森林进行零样本、无保护、全开放测试

具身智能研发的四大要素包括硬件、算法、数据、算力，强化学习是算法中至关重要的技术栈，逐际动力强调系统化的研发流程和能力， P1成为中国首个成功在野外徒步的双足机器人，证明了这个技术路径的先进性。除了移动控制（Locomotion），在操作（Manipulation）和移动操作（Loco-manipulation）方面，逐际动力在人形机器人上也在不断攻关，接下来将有更多新的进展和大家分享。

逐际动力系统化的强化学习训练，保证研发成果在实际应用中可行、可用、可靠

（图片来源：逐际动力）