北京人形 XR-1 模型开源,推动具身智能迈入“全自主、更好用”新阶段
作者:系统管理员 发布日期:2025-12-19 浏览次数:

12 月 18 日,北京人形机器人创新中心正式开源国内首个且唯一通过具身智能国标测试的具身VLA大模型 XR-1,以及配套的数据基础RoboMIND 2.0、ArtVIP 最新版。基于上述开源成果,能够推动具身智能行业追寻最本质需求,让机器人真正在各类应用场景下能干活并且会干活,推动国内具身智能行业迈向“全自主、更好用”的新阶段。

聚焦“让机器人能干活、会干活”的核心诉求,北京人形打造了通用机器人平台“具身天工”、通用具身智能平台“慧思开物”。围绕“具身天工”平台,北京人形已发布具身天工2.0、天轶2.0等多类型通用本体,为人形机器人干活奠定物理本体基础。而具身大脑和小脑的协同是人形机器人干活的另一前提,目前围绕“慧思开物”,北京人形已开源WoW(我悟)世界模型和Pelican-VL(天鹕)等具身大脑相关成果。

本次开源的系列内容,是面向具身小脑能力的VLA模型XR-1,以及为XR-1等模型提供数据训练支持的RoboMIND 2.0和ArtVIP。

XR-1 ——让机器人拥有“本能”,跨过“看到与做到”的鸿沟

当前,具身智能行业面临着一个核心痛点:AI 技术虽能实现文本创作、视频生成等虚拟场景应用,但机器人在物理世界中往往难以完成 “拿东西”、“递东西” 等基础任务。这背后是 “视觉感知” 与 “动作执行” 的割裂。

机器人虽能识别物体,却只能依赖预设指令执行动作,如同 “只会死记硬背的笨学生”,一旦环境出现微小变化便会失效。为啃下这块技术硬骨头,北京人形聚焦核心技术攻坚,打造出具备 “知行合一”能力的XR-1具身小脑大模型。

在今年8月的WRC世界机器人大会上,北京人形正式发布了跨本体VLA模型 XR-1,它具备多场景、多本体、多任务特性,并且还拥有高泛化性等优势特点。

背后的技术原理在于,XR-1具备跨数据源学习、跨模态对齐、跨本体控制三大核心支柱能力。首先,通过跨数据源学习让机器人能够利用海量人类视频进行训练,降低训练成本提升训练效率;其次,依靠跨模态对齐能够打破视觉和动作的隔阂,让机器人做到真正的知行合一;最后,借助跨本体控制可以让XR-1快速匹配不同类型、不同品牌的机器人本体。

其中,北京人形首创的UVMC(多模态视动统一表征)技术是关键,通过它,能够搭建起视觉与动作的映射桥梁,让机器人将看到的画面瞬间转化为身体的本能反应,像人类条件反射般自然做出正确的应对动作。例如:机器人在执行倒水任务中看到正在倒水的杯子被拿走了,就本能地停止倒水,当杯口被遮住,就自然地拨开遮住的人手,继续倒。 这一关键的技术创新让机器人具备了“本能反应”,可以游刃有余地应对复杂多变的现实世界,以及工作场景中的突发情况,从而真正做到全自主完成工作任务。

XR-1的多构型预训练能力,使具身天工2.0具备全身多关节丝滑拟人控制,可实现大幅弯腰下蹲并精准抓取随机摆放的物料箱,完成复杂倒料任务;物料分拣任务需要机器人具备精准识别和高动态抓取零件以及准确分类的能力,基于XR-1框架微调后的轻量级VLA模型,使得机器人具备快速精确物料分拣能力。

在业内首个连续开关穿行5扇门的任务场景中,机器人面对绿色栅栏门时,能主动展开双臂适配结构并协同底盘通过;遇到蓝色下压把手门,便自然下压推门;穿越红色窄门时动态收肩调姿;推开黑色重门时稳力同步前行;识别推拉门后则沿轨精准滑动。关门阶段更可反向切换推拉策略,全程无需人工干预。这一能力源于XR-1模型对场景的实时理解与动作预测,让天轶2.0真正具备了在复杂环境中“看得懂、做得对、走得稳”的全自主操作本能。

此外,XR-1 也首创了结合虚实数据的三阶段训练范式:

第一阶段:输入积累超百万级的虚实多本体数据、人类视频数据,由XR-1 把这些复杂的画面和动作压缩成一个包含许多离散代码的“字典”,便于机器人后续随时调用需要的“动作代码”;第二阶段:用大规模的跨本体机器人数据来预训练XR-1,让它懂得物理世界的基本规律,比如“松手东西会掉”、“推门门会开”;第三阶段:针对不同的任务场景(例如:分拣、搬箱子、叠衣服等)用少量的特定数据进行微调;最终让机器人从一个“学富五车”的理论大师,蜕变为一个“心灵手巧”的干活专家。 

刚刚过去的11月,由中国电子技术标准化研究院基于编制中的国家标准《人工智能具身智能大模型系统技术要求》正式发布了“求索”具身智能测评基准EIBench,同时邀请了多家国内顶尖具身智能团队参与了首次测评。在本次测评中,北京人形机器人创新中心的XR-1模型成为了唯一一个通过测试的VLA模型,获得CESI-CTC-20251103具身智能测试证书,也成为了全国首个获此殊荣的VLA模型。

RoboMIND 2.0&ArtVIP ——为“机器人干活”铸造最牢靠的数据底座

围绕让机器人的应用落地,北京人形并非只有单一技术能力的开源,而是构建 “XR-1+RoboMIND 2.0+ArtVIP” 全链条开源生态。

为解决具身智能优质数据的稀缺问题,北京人形在2024年12月推出了大规模多构型智能机器人数据集和Benchmark——RoboMIND,发布后吸引全球众多顶尖实验室与开发者接入使用,累计下载量已超15万次。在RoboMIND 1.0阶段,包含了10+万条机器人操作轨迹,覆盖4种机器人本体,涉及5大场景下的479个任务、38种技能,并且引入了ACT、DP、OpenVLA、RDT 4种模型验证。

此次在直播中公布的RoboMIND 2.0则在此前版本基础上进行了全面的升级优化,首先机器人操作轨迹数据增加到了30+万条、扩展了工业零件分拣、流水线设备、物理化学实验室、家庭厨房、家电交互等在内的11个涵盖工业、商用、家庭的场景,机器人本体、任务、技能数量也分别有了2倍以上的提升。更重要的是,在RoboMIND 2.0中,增加了1.2+万条带触觉操作数据支持训练VTLA、MLA模型、还可用于训练机器人大小脑模型, 支持不同机器人实现长程协作任务,并开源了基于ArtVIP的大量仿真数据,并且支持仿真数据的批量评测。

作为 XR-1 的数据底座,RoboMIND 2.0提供了海量虚实结合多模态训练数据支撑,降低了模型训练的门槛。而作为北京人形最新发布的高保真铰接物体数字资产数据集ArtVIP则持续输出开源成果,目前其高保真数字孪生铰接物品数量正持续增加至超1000个,覆盖6大场景类型,实现了全场景物品可交互。此次ArtVIP也将大量全新的仿真数据资产在RoboMIND 2.0上进行了开源。

根据在ACT、DP、XR-1等全球领先的VLA模型上的初步测试,在机器人训练中,通过提升ArtVIP的仿真数据比例,能够有效提升机器人在不同任务执行中的成功率。例如在XR-1模型中,通过将真机数据与仿真数据比例从1:0提升到1:5后,4个不同任务的成功率平均能够提升超过25%。

目前,北京人形已经与多家合作伙伴达成合作,将人形机器人部署到了各行各业中,例如“具身天工2.0”、“天轶2.0”目前已进入福田康明斯发动机工厂,在“无人生产线”上自主完成料箱取放、搬运,并适应不同货位高度与多种料箱种类,完成了从实验室到真实生产的“最后一公里”验证。此外,北京人形还与中国电科院合作落地了人形机器人进行高危电力巡检,以及与李宁运动科学实验室合作通过人形机器人进行长时间高强度的跑鞋测试。近期北京人形还与拜尔签订合作协议,共同推动人形机器人及具身智能技术在固体药品制造生产、包装、质量控制、仓储及物流等场景的技术开发。

从深耕核心技术到构建开源生态,北京人形的每一步都围绕 “打造全自主、更好用的机器人” 这一核心目标,让机器人能干活、会干活。XR-1、RoboMIND 2.0、ArtVIP三者形成的协同效应,从模型、数据到工具实现了全方位的能力开放,将让更多企业、开发者无需从零开始攻克基础技术,而是聚焦场景创新与应用落地,加速机器人在工业制造、3D作业、商用服务、家庭服务等领域的规模化应用,让机器人真正迈向全自主、更好用的新阶段。

XR-1项目主页:

https://github.com/Open-X-Humanoid/XR-1

RoboMIND2.0:

https://modelscope.cn/collections/X-Humanoid/RoboMIND20

ArtVIP:

https://huggingface.co/datasets/x-humanoid-robomind/ArtVIP