具身智能加速进化,国内人形机器人本体大模型新突破
作者:系统管理员 发布日期:2025-09-10 浏览次数:

人形机器人本体大模型技术发展趋势

大小脑分层协同成为部分厂商优选的技术路线。“大脑”+“小脑”分层具备可拓展、高效开发与强适应性三大特点,具有较好的泛化能力和可解释性,可有效的支持“一脑多机”协同,成为当前机器人厂商较为容易落地的技术路线。

兼顾连续精准的动作和推理性能的混合端到端VLA模型架构成为新趋势。市面已出现的VLA模型重点基于三种主流模型架构,自回归预测、回归式拟合及扩散头生成。如何将以上三种技术特点有机结合,将机器人离散化的动作实现连续,有效建模连续动作分布,并充分发挥VLM的性能成为当前VLA模型的发展趋势。

结合神经科学的新形态神经网络架构成为行业研究的热点。当前主流大模型仍然基于Transformer架构,虽然具备较好的模型可解释性及并行计算能力,但该架构训练的复杂度较高,难以处理超长序列问题,进而无法有效的进行长序列记忆建模,进而与人类相比其通用泛化能力仍较弱。因此如何进一步结合神经科学,通过构建类人脑的神经元结构来优化Transformer架构,提升大模型的训练速度,降低推理代价,进一步改善模型的通用性和泛化性成为研究趋势。

本次世界机器人大会企业及学术机构展出的人形机器人本体与潜在本体大模型,重点呈现三方面特征

大小脑分层技术趋于成熟,部分厂家机器人动作操作精度得到改善。本次WRC科大讯飞聆动通用训练与推理一体的机器人依托其构建的多模态预训练底座,结合“一脑多小脑”架构,实现快速适配场景,较好的平衡了通用与效率。此外,浙江人形机器人创新中心也展示了“感知决策大脑+精准运控小脑”的机器人,在柔性物料处理、自动化移动液体等工业场景方面展现出较高的操作精度。在柔性物料处理方面,全流程操作偏差严格控制在±2mm以内;在实验室自动化移液方面,确保了1ml至500ml宽量程范围内液体移液误差<1mm。此外,机器人也较好的利用深度视觉理解零售场景中各商品的属性,实现了精准抓取。

融合“快慢”思考的端到端VLA成为主流技术路线,国内厂商及研究机构端到端VLA模型较国外同类模型均有一定的性能提升。星海图在WRC期间展出了R1 Lite机器人并进行了自主铺床的动作展示,实现了全球首次全身运控的长柔性任务现场演示,同时在8月11日主论坛期间,星海图发布了端到端双系统全身控制模型G0,G0采用了双系统快慢架构,具备“慢思考”和“快执行”双重能力,经过评测,G0模型在多个基准任务上全面优于π0。另外,北京大学研究团队也提出了统一的VLA框架——Hybrid VLA,将自规划预测与扩散预测进行融合,使训练输入除了包括语言和视觉外,还融入了连续的机器人状态、扩散噪声与自回归动作等,促进两种模型任务充分融合,实现了两种动作预测相互增强。经测试验证表明,在超过80%的成功测试的样本中,自回归动作Token的平均置信度超过0.96。在真机测试过程中,部署HybridVLA的AgileX双臂机器人在拿放水果、放置酒瓶、叠短裤等场景的平均性能分数为0.66,高于π0的0.55。

在探索结合神经科学的潜在机器人本体大模型方面,国内科研机构提出的新型神经网络架构的“类脑”大模型的研究取得了一定的进展。本次WRC分论坛中科院团队现场发布了融合“树突多枝并行脉冲神经网络”的“Spike-Drive Transformer”架构在7B“类脑”大模型上的最新性能,测试结果表明该模型在预训练模型性能方面,在MMLU数据集上得分为65.84分,超过LIama-3.1的65.74分;在SFT模型性能方面,在GSM8K数据集上得分69.83分;在推理效率方面实现处理128K输入的速度为Qwen2.5的2倍以上。预计8-9月中科院将发布70B“类脑”大模型。

国内人形机器人本体大模型的发展启示

一是融合了快慢系统的大小脑技术路线可使厂商快速上手布局人形机器人业务,在提高机器人操作精度和执行任务成功率的同时,也将有效实现“一脑多小脑”的操控方式,实现机器人群体协作作业,这将推动人形机器人在操作准确性要求高,结构化较为清晰的工业场景实现应用落地。二是融合了快慢系统的端到端VLA模型架构仍持续优化,需进一步平衡和改善精细动作连续建模、模型推理、机器人四肢操作频率等能力,同时需继续增加机器人长序列任务高质量多模态数据集的构建,双轮驱动改善模型性能。三是融合了神经科学的“类脑”大模型的神经网络虽然在一定程度上改善了模型的推理效率,但是当前此类神经网络模型仍处于初级发展阶段,模型性能较低,需要持续测试验证并探索可行的应用场景。

本文作者

李春辉

战略发展研究所

分析师

硕士,长期专注于卫星导航与位置服务、5G通信系统及关键技术、人工智能与具身智能技术与产业研究。

文章来源:天翼智库