一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路
作者:系统管理员
发布日期:2025-04-15
浏览次数:
【导读】Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。现在训练机器人,都不需要真实数据了? 刚刚,Figure提出了一种全新的基于RL的端到端网络。 只需要在纯模拟环境中进行训练,用几个小时生成模拟数据,就能让Figure 02像人类一样自然行走了! 该方法的亮点如下:
更让人惊喜的是,一个神经网络策略就能控制一大批机器人! 通过一个高保真物理模拟器,Figure最新的机器人仅用几个小时,就能模拟出几年的数据。 为了把模拟环境的训练成果应用到真实机器人上,团队采用了两种办法。 一是在模拟训练时进行域随机化,让机器人接触不同的物理属性;二是在真实机器人上安装高频扭矩反馈装置。 这样一来,模拟环境中训练好的策略,无需任何微调,就可以「零样本」迁移到真实硬件上。 在强化学习中,控制器通过不断试错,根据奖励信号来调整自己的行为。 Figure在高保真模拟环境中训练RL控制器,运行数千个具有不同参数和场景的虚拟人形机器人。 这种多样化的训练,使训练出的策略能直接用在真实的Figure 02机器人上,走出稳健的人类步伐。 Figure基于RL的训练方法,大大缩短了开发时间,在现实世界中表现也很稳定。 强化学习训练 用强化学习方法,在GPU加速的物理模拟环境中,训练行走控制器。 这个模拟环境效率超高,短短几个小时就能收集到相当于数年的模拟训练数据。 在模拟器中,数千个Figure 02机器人并行训练,每个机器人的物理参数都不一样。 它们会遇到各种各样的情况,像不同的地形,执行器动力学变化,以及被绊倒、滑倒和推搡等。 这时,一个神经网络策略学习控制所有的机器人。 人形机器人有个很大的优势,它的硬件平台通用性很强,能执行类似人类的任务。 不过,RL训练出来的策略,有时不是最佳的,没办法让机器人走出人类走路的感觉,比如脚跟先着地、脚尖蹬地,手臂摆动和腿部动作的配合。 所以,在训练时,会奖励那些走路轨迹像人的机器人,把偏好融入学习中。 这些轨迹为策略允许生成的行走风格建立了先验条件。 除了走路轨迹像人,研究者还设置了其他奖励条件,比如优化机器人速度跟踪、功耗更低,更好地应对外界干扰和地形变化。 从模拟到现实的跨越 最后一步,是把模拟环境中训练好的策略应用到真实的机器人上。 模拟机器人只是高维机电系统的近似,在模拟环境中训练的策略只能保证在这些模拟机器人上有效,不一定能在真实机器人上正常工作。 为解决这个问题,在模拟训练时,采用域随机化技术,随机改变每个机器人的物理属性,让策略能适应各种不同的情况。 这有助于策略零样本泛化到真实机器人上,而无需任何额外的微调。 同时,在真实机器人上,用千赫兹速率扭矩反馈控制,来修正执行器模型的误差。 这样,即使机器人之间有些差异,如地面摩擦力不同,或受到外界推搡,这个策略都具有鲁棒性,能让Figure 02机器人像人一样行走。 可以看到,10个Figure 02机器人用得都是同一个RL神经网络。 说明现有的策略不用再做调整,就能推广到大批机器人,对未来的大规模商业应用是个好消息。 Figure Robotics Figure Robotics是一家新兴的机器人公司,专注于开发通用人形机器人,旨在通过先进的人工智能扩展人类能力。 公司专注于构建像人类一样学习和推理的机器人。 Figure Robotics一开始与OpenAI合作,然而在内部人工智能(Helix)方面取得「重大突破」后,于2025年2月结束了合作,Figure Robotics转为自主开发Helix VLA模型。 Figure 02具有肉眼看起来最接近未来成熟形态的外形设计。 简直和威尔史密斯《I,Robot》中的机器人如出一辙,浑圆的面罩模型也避免了恐怖谷效应。 身高和体重也完美模拟一个成年男性。 当机器人能像人类一样学会自然行走,是否意味着也能像人一样学会其他「自然」动作? 更加重要的一个「隐喻」是,目前所有的人形机器人都是按照人类的形态打造的。 这更加方便了未来机器人与人类生活的融合。 除了自然行走,机器人还有很多「人类技能」需要学习,但他们已经在路上了。 参考资料: |